문제
다음 중 데이터 이상값 탐지 및 처리 방법에 대한 설명으로 적절하지 않은 것은?
① 상자그림에서 사분위수 범위(IQR)의 1.5배를 기준으로 상한 및 하한 임계치를 설정하여 이상값을 식별한다. ② 데이터가 정규분포를 따른다고 가정할 때, 평균으로부터 표준편차의 3배 이상 떨어진 값을 이상값으로 판단한다. ③ 표본 평균의 표준오차 범위를 계산하여 해당 범위를 벗어나는 값을 이상값으로 처리한다. ④ 이상값을 삭제하는 대신 경우에 따라 평균, 중앙값 또는 회귀 분석을 통한 예측값으로 바꾸어 데이터의 손실을 최소화할 수 있다.
정답
3번
해설
정답: 3. 표준오차는 표본 평균(추정량)의 변동성을 나타내는 지표이지 개별 관측치의 이상값 판정 기준이 아니다.
오답 풀이
- 1번: IQR의 1.5배 규칙은 대표적인 이상값 탐지 방법이다.
- 2번: 3-시그마(ESD) 규칙도 정규분포 가정 하의 이상값 탐지 방법이다.
- 3번: 표준오차는 추정량의 정밀도 개념이므로 개별 값의 이상 여부 판정에 사용하면 옳지 않다.
- 4번: 삭제 대신 대체(평균·중앙값·예측값)로 손실을 줄이는 처리도 가능하다.
보충 개념 이상값 탐지: IQR 규칙, 3-시그마(ESD), 표준화 점수(Z-score), 거리·밀도 기반 방법(LOF) 등.