문제
‘이름’과 ‘성별’로 구성된 고객 데이터에서 이름 변수와 성별 변수가 독립적으로 각각 10%의 결측값을 가지고 있다. 이때 이름 또는 성별 중 하나라도 결측값이 존재하는 고객 데이터를 모두 삭제 시 전체 데이터 중 삭제되는 데이터의 비중은?
① 10% ② 15% ③ 19% ④ 23%
정답
3번
해설
정답: 3. 두 변수가 독립이므로 둘 다 결측이 아닐 확률은 0.9 × 0.9 = 0.81이다. 따라서 하나라도 결측인 비율은 1 − 0.81 = 0.19, 즉 19%이다.
오답 풀이
- 1번: 10%는 한 변수의 결측률만 고려한 값이다.
- 2번: 15%는 근거 없는 중간값이다.
- 4번: 23%는 올바른 산식에서 도출되지 않는 값이다. 단순 합산 20%(10%+10%)에서 중복(둘 다 결측 1%)을 빼면 19%가 된다.
보충 개념 P(A∪B) = P(A) + P(B) − P(A∩B) = 0.1 + 0.1 − 0.01 = 0.19. 독립일 때 P(A∩B) = P(A)×P(B)이다.