문제
의사결정나무에 대한 설명으로 옳지 않은 것은?
① 종속변수가 연속형일 때 가지 분할 기준으로 분산을 활용할 수 있다. ② 종속변수가 범주형일 때 가지 분할 기준으로 엔트로피를 활용할 수 있다. ③ 가지치기(pruning)를 통해 학습 데이터 세트에서의 정확도를 높이는 것이 주목적이다. ④ 최종 노드가 많을수록 과대적합 가능성이 증가한다.
정답
3번
해설
정답: 3. 가지치기는 학습 데이터 정확도를 높이기보다 과대적합을 줄이고 일반화 성능을 높이기 위한 방법이다.
오답 풀이
- 1번: 회귀나무에서는 분산 감소를 분할 기준으로 사용한다.
- 2번: 분류나무에서는 엔트로피·지니지수 등을 분할 기준으로 사용한다.
- 3번: 가지치기는 복잡 나무 단순화 → 일반화 성능 향상 목적이다.
- 4번: 최종 노드가 많고 깊은 나무는 학습 데이터 과적합에 취약하다.