문제
결측값 처리에 대한 설명으로 옳은 것은?
① 결측값을 대체 시 기존 데이터의 평균값으로만 해야 한다. ② 결측값 대체는 표본 수는 유지하여 데이터 손실을 최소화하는 데 목적이 있다. ③ 결측값은 일반적으로 삭제하는 것이 가장 좋은 처리 방법이다. ④ 결측값을 대체하는 것으로 데이터의 편향이 유발되지는 않는다.
정답
2번
해설
정답: 2. 결측값 대체(imputation)는 관측치를 삭제하지 않고 표본 수를 유지함으로써 정보 손실을 최소화하는 것이 목적이다.
오답 풀이
- 1번: 평균 외에도 중앙값·최빈값·회귀 예측값 등 다양한 대체 방법이 있다.
- 2번: 대체의 목적을 올바르게 설명했다.
- 3번: 삭제는 표본 손실과 편향을 유발할 수 있어 항상 최선이 아니다.
- 4번: 단순 대체는 분산 축소 등 편향을 유발할 수 있다.
보충 개념 결측 처리 방법: 완전 삭제, 단순 대체(평균·중앙값·최빈값), 회귀·KNN 대체, 다중 대체(Multiple Imputation) 등.