문제
다음 중 변수 간 상관관계를 고려하여 통계적 거리를 측정하는 방법은?
① 유클리드 거리 ② 맨해튼 거리 ③ 체비셰프 거리 ④ 마할라노비스 거리
정답
4번
해설
정답: 4. 마할라노비스 거리는 공분산 행렬을 반영하여 변수 간 상관관계와 산포를 고려한 통계적 거리이다.
오답 풀이
- 1번: 유클리드 거리는 직선 거리로 변수 간 상관을 고려하지 않는다.
- 2번: 맨해튼 거리는 좌표축 방향 이동 거리의 합이다.
- 3번: 체비셰프 거리는 좌표 차이의 최대값이다.
- 4번: d(x, y) = √((x−y)ᵀ S⁻¹ (x−y))로 공분산을 반영하므로 옳다.
보충 개념 마할라노비스 거리는 변수의 단위·산포에 영향을 받지 않아 다변량 이상치 탐지에도 활용된다.