문제
데이터 전처리 과정에서 이상값(Outlier) 탐지 방법으로 가장 적절하지 않은 것은?
① 사분위수 범위(IQR)를 활용한 방법 ② 표준화 점수(Z-score)를 이용한 방법 ③ 박스플롯을 통한 시각적 탐지 ④ 단순히 최댓값과 최솟값만을 제거하는 방법
정답
4번
해설
④는 부적절합니다. 최댓값과 최솟값이 반드시 이상값은 아니며, 데이터의 분포나 통계적 기준 없이 단순 제거하면 중요한 정보를 잃을 수 있습니다. ①②③은 모두 통계적 근거에 기반한 적절한 이상값 탐지 방법입니다.