문제
랜덤 포레스트(Random Forest)에서 개별 트리의 성능이 전체 앙상블 성능에 미치는 영향에 대한 설명으로 가장 옳지 않은 것은?
① 개별 트리들 간의 상관관계가 낮을수록 앙상블 성능이 향상된다 ② 개별 트리의 정확도만 높으면 트리 간 상관관계가 높아도 앙상블 성능은 항상 향상된다 ③ 트리의 개수가 증가하면 일반적으로 과적합 위험이 감소한다 ④ 특성 선택의 무작위성이 개별 트리들의 다양성을 증가시킨다
정답
2번
해설
랜덤 포레스트의 성능은 개별 트리의 예측력뿐 아니라 트리들 간의 낮은 상관관계와 다양성에도 크게 영향을 받습니다. 개별 트리의 정확도가 높더라도 서로 매우 비슷한 오류를 내면 앙상블 효과가 제한될 수 있으므로 ②가 옳지 않습니다. ①④는 트리 다양성과 관련된 올바른 설명이고, ③은 많은 트리를 결합하면 분산이 감소하여 일반적으로 과적합 위험이 줄어든다는 설명입니다.