문제
다음 상황에서 교차검증(Cross-Validation) 방법 선택으로 가장 적절하지 않은 것은?
상황: 시계열 데이터로 구성된 주가 예측 모델을 평가하려고 한다.
① 시간 순서를 고려한 Time Series Split 사용 ② 과거 데이터로 학습하고 미래 데이터로 검증하는 방식 ③ K-Fold Cross-Validation으로 무작위 분할하여 평가 ④ 슬라이딩 윈도우 방식의 순차적 검증
정답
3번
해설
시계열 데이터에서 K-Fold Cross-Validation으로 무작위 분할하면 미래 정보가 과거 예측에 사용되는 데이터 누출(Data Leakage) 문제가 발생합니다. 시계열 데이터는 시간 순서가 중요하므로 반드시 시간 순서를 유지하는 검증 방법을 사용해야 합니다. ①②④는 모두 시간 순서를 고려한 적절한 검증 방법입니다.