문제
데이터 사이언스 프로젝트에서 분석 목적과 방법론의 관계에 대한 설명으로 가장 적절한 것은?
① 탐색적 데이터 분석(EDA)은 가설이 명확할 때 사용하는 확증적 분석 방법이다. ② 예측 모델링에서는 설명력보다 예측 정확도가 우선시되므로 블랙박스 모델도 활용 가능하다. ③ 인과관계 분석을 위해서는 반드시 실험 설계가 필요하며, 관찰 데이터로는 불가능하다. ④ 기술통계 분석은 추론통계와 달리 모집단에 대한 일반화가 주목적이다.
정답
2번
해설
예측 모델링에서는 해석 가능성보다 예측 성능이 중요하므로, 딥러닝이나 앙상블 방법 같은 블랙박스 모델도 적극 활용됩니다. ①은 틀렸습니다. EDA는 가설 생성을 위한 탐색적 분석입니다. ③은 틀렸습니다. 관찰 데이터에서도 성향점수 매칭, 도구변수 등으로 인과추론이 가능합니다. ④는 틀렸습니다. 기술통계는 표본 자체를 설명하는 것이고, 추론통계가 모집단 일반화를 다룹니다.