문제
다음 중 데이터 분할 방식에 대한 설명으로 적절하지 않은 것은?
① 훈련용 데이터는 모델이 데이터 패턴을 학습하고 가중치를 조정하는 데 사용된다. ② 검증용 데이터는 모델의 과대 및 과소 적합 조정 시 사용된다. ③ 검증용 데이터는 해당 모델의 최종 성능을 평가 시 활용된다. ④ 평가용 데이터는 모델의 객관적인 성능 측정을 위해 학습에 활용되지 않은 데이터이다.
정답
3번
해설
정답: 3. 모델의 최종 성능 평가는 학습·튜닝에 사용되지 않은 평가용(test) 데이터로 수행한다. 검증용(validation) 데이터는 하이퍼파라미터 튜닝·모형 선택에 사용된다.
오답 풀이
- 1번: 훈련 데이터는 가중치 학습에 사용된다.
- 2번: 검증 데이터는 과대·과소적합 점검과 튜닝에 사용된다.
- 3번: 최종 평가는 평가용 데이터의 역할이므로 옳지 않다.
- 4번: 평가 데이터는 학습 과정에 전혀 사용되지 않아야 객관적 평가가 가능하다.
보충 개념 일반적 분할: 훈련(train) 50~60%, 검증(validation) 20~25%, 평가(test) 20~25%. 데이터가 적으면 교차검증(k-fold)을 활용한다.