결론 먼저
ADsP 3과목은 30문항으로 전체의 절반을 차지하고, 그 안에서 통계 기법(회귀·분류·군집)과 모델 평가 지표가 절반 이상이에요. 이 글은 기법별로 "무슨 분석인지 + 어떤 상황에 쓰는지"를 한 줄씩 잡아서 객관식 보기에서 바로 고를 수 있게 정리합니다.
왜 이 주제를 따로 봐야 하는가
ADsP 3과목에서 통계·ML 알고리즘 관련 문제만 매회 10문제 이상 나와요. 여기서 평균 7–8개 맞추면 과락 방어 + 합격 점수 확보가 되는데, 용어를 헷갈리면 연달아 틀리는 과목이에요. 회귀·분류·군집은 목적·출력·평가지표가 각각 달라서, 한 번에 구분표로 잡는 게 효율적입니다.
분석 기법 3대 분류
| 기법 | 목적 | 출력 | 대표 알고리즘 |
|---|---|---|---|
| 회귀 | 수치 예측 | 연속값 | 선형회귀, 다중회귀 |
| 분류 | 범주 예측 | 이산값(클래스) | 로지스틱, 의사결정나무, SVM |
| 군집 | 유사 그룹 묶기 | 그룹 라벨 | K-means, 계층적 군집 |
지도학습 vs 비지도학습: 회귀·분류는 정답(레이블)이 있는 지도학습, 군집은 정답 없이 묶는 비지도학습.
회귀 분석
단순 선형 회귀
목적: 독립변수 1개로 종속변수 예측.
y = β₀ + β₁·x + ε
β₀: 절편,β₁: 기울기(x가 1 증가할 때 y 증가량)ε: 오차항
다중 선형 회귀
독립변수 2개 이상. y = β₀ + β₁x₁ + β₂x₂ + ... + ε
회귀 모형 가정 4가지
- 선형성: x와 y의 관계가 선형
- 독립성: 오차항이 서로 독립
- 등분산성: 오차항의 분산이 일정
- 정규성: 오차항이 정규분포
모형 평가 지표
| 지표 | 의미 | 좋은 값 |
|---|---|---|
| R² | 설명력 (0~1) | 1에 가까울수록 |
| MSE | 평균 제곱 오차 | 작을수록 |
| RMSE | MSE의 제곱근 | 작을수록 |
| MAE | 평균 절댓값 오차 | 작을수록 |
분류 분석
로지스틱 회귀
이름은 회귀지만 분류 기법이에요. 출력값이 0~1 확률이고 임계값(보통 0.5) 기준으로 클래스 결정.
의사결정나무
데이터를 트리 구조로 분할. 불순도를 줄이는 방향으로 가지를 뻗음.
- 불순도 지표: 지니지수, 엔트로피
- 가지치기(Pruning): 과적합 방지
SVM (서포트 벡터 머신)
클래스를 구분하는 초평면(경계)을 최대 마진으로 그리는 기법.
분류 모형 평가 — 혼동행렬
| 예측: Positive | 예측: Negative | |
|---|---|---|
| 실제: P | TP | FN |
| 실제: N | FP | TN |
| 지표 | 공식 | 의미 |
|---|---|---|
| 정확도(Accuracy) | (TP+TN) / 전체 | 전체 중 맞춘 비율 |
| 정밀도(Precision) | TP / (TP+FP) | 양성 예측 중 실제 양성 |
| 재현율(Recall) | TP / (TP+FN) | 실제 양성 중 잘 찾은 비율 |
| F1 | 정밀도·재현율 조화평균 | 불균형 데이터에서 선호 |
군집 분석
K-means
- K개 클러스터 수를 지정
- 초기 중심점 랜덤 배치
- 각 점을 가까운 중심에 할당
- 중심점 재계산 → 수렴할 때까지 반복
단점: K 값을 사전에 정해야 함, 초기값에 민감, 원형 클러스터만 잘 찾음.
계층적 군집
모든 점을 개별 군집으로 두고 가까운 것끼리 병합(응집형)하거나, 전체를 하나로 두고 나눠가는(분할형) 방식.
덴드로그램으로 시각화 → 원하는 군집 수에서 자르면 됨.
평가 지표
- 실루엣 계수: -1~1, 1에 가까울수록 잘 묶임
- Elbow Method: K별로 응집도 그래프 그려서 꺾이는 지점 선택
시계열 분석
시간에 따른 데이터 변화를 분석.
구성 요소 4가지
- 추세(Trend): 장기적 증가/감소
- 계절성(Seasonality): 주기적 반복 (예: 12개월)
- 순환(Cycle): 일정하지 않은 긴 주기 변동
- 불규칙(Irregular): 랜덤 변동
대표 모델
- ARIMA: 자기회귀(AR) + 차분(I) + 이동평균(MA) 결합
- 지수 평활: 최근 데이터에 가중치 더 부여
자주 하는 실수
1. "로지스틱 회귀는 회귀다"라고 생각 이름만 회귀, 실제로는 분류 기법이에요.
2. 정확도만 보고 판단 불균형 데이터(예: 양성 1%, 음성 99%)에서 정확도는 의미 없어요. 정밀도·재현율·F1을 봐야 함.
3. K-means의 K를 자동으로 결정된다고 착각 K는 사용자가 지정. 자동 결정 아님. Elbow/실루엣으로 탐색해야 함.
4. 지도학습 vs 비지도학습 구분 못 함 정답이 있으면 지도(회귀·분류), 없으면 비지도(군집·차원축소).
시험장에서의 접근법
- 문제에서 "예측 대상"이 수치인지 범주인지 먼저 판단 → 회귀 vs 분류 결정
- 평가 지표 질문이면 혼동행렬 먼저 머릿속에 그리기
- 알고리즘 특징은 "장·단점 한 줄"만 외워도 충분
- 가정 4가지(선·독·등·정) 같은 단답 암기는 놓치지 말기
정리
- 회귀(수치) / 분류(범주) / 군집(비지도) 구분
- 회귀 가정 4가지: 선·독·등·정
- 분류 평가: 정확도/정밀도/재현율/F1 + 혼동행렬
- 군집: K-means는 K 사전 지정, 계층적은 덴드로그램
- 시계열 구성: 추세·계절·순환·불규칙