문제
군집분석에 대한 설명으로 적절하지 않은 것은?
① 계층적 군집분석은 덴드로그램을 통해 시각화하여 직관적으로 표현할 수 있다. ② K-평균 군집분석에서 초기 중심값 설정은 군집분석 결과에 영향을 주지 않는다. ③ 이상치(Outlier)나 소음(Noise) 데이터는 군집분석의 성능에 영향을 줄 수 있으므로 전처리 과정에서 제거할 필요가 있다. ④ DBSCAN 방식은 군집 개수를 미리 정할 필요가 없다.
정답
2번
해설
정답: 2. K-평균은 초기 중심값에 따라 수렴하는 군집 결과가 달라질 수 있다. 영향을 주지 않는다는 설명은 옳지 않다.
오답 풀이
- 1번: 계층적 군집은 병합 과정을 덴드로그램으로 시각화할 수 있다.
- 2번: 초기 중심 민감성은 K-평균의 대표적 한계이므로 옳지 않다.
- 3번: 이상치는 군집 중심을 왜곡할 수 있어 전처리에서 처리해야 한다.
- 4번: DBSCAN은 밀도 기반으로 군집 수를 사전에 지정하지 않는다.
보충 개념 K-평균의 초기값 민감성 보완: 여러 초기값으로 반복 수행, k-means++ 초기화, 계층적 군집 결과를 초기값으로 활용.