ADsP 3과목 통계·분석 기법 심화 (회귀·분류·군집)

결론 먼저

ADsP 3과목은 30문항으로 전체의 절반을 차지하고, 그 안에서 통계 기법(회귀·분류·군집)과 모델 평가 지표가 절반 이상이에요. 이 글은 기법별로 "무슨 분석인지 + 어떤 상황에 쓰는지"를 한 줄씩 잡아서 객관식 보기에서 바로 고를 수 있게 정리합니다.

왜 이 주제를 따로 봐야 하는가

ADsP 3과목에서 통계·ML 알고리즘 관련 문제만 매회 10문제 이상 나와요. 여기서 평균 7–8개 맞추면 과락 방어 + 합격 점수 확보가 되는데, 용어를 헷갈리면 연달아 틀리는 과목이에요. 회귀·분류·군집은 목적·출력·평가지표가 각각 달라서, 한 번에 구분표로 잡는 게 효율적입니다.

분석 기법 3대 분류

기법	목적	출력	대표 알고리즘
회귀	수치 예측	연속값	선형회귀, 다중회귀
분류	범주 예측	이산값(클래스)	로지스틱, 의사결정나무, SVM
군집	유사 그룹 묶기	그룹 라벨	K-means, 계층적 군집

지도학습 vs 비지도학습: 회귀·분류는 정답(레이블)이 있는 지도학습, 군집은 정답 없이 묶는 비지도학습.

회귀 분석

단순 선형 회귀

목적: 독립변수 1개로 종속변수 예측.

y = β₀ + β₁·x + ε

β₀: 절편, β₁: 기울기(x가 1 증가할 때 y 증가량)
ε: 오차항

다중 선형 회귀

독립변수 2개 이상. y = β₀ + β₁x₁ + β₂x₂ + ... + ε

회귀 모형 가정 4가지

선형성: x와 y의 관계가 선형
독립성: 오차항이 서로 독립
등분산성: 오차항의 분산이 일정
정규성: 오차항이 정규분포

이 4가지 가정을 묻는 단답 문제가 자주 나와요. "선·독·등·정"으로 머리글자만 외우기.

모형 평가 지표

지표	의미	좋은 값
R²	설명력 (0~1)	1에 가까울수록
MSE	평균 제곱 오차	작을수록
RMSE	MSE의 제곱근	작을수록
MAE	평균 절댓값 오차	작을수록

분류 분석

로지스틱 회귀

이름은 회귀지만 분류 기법이에요. 출력값이 0~1 확률이고 임계값(보통 0.5) 기준으로 클래스 결정.

의사결정나무

데이터를 트리 구조로 분할. 불순도를 줄이는 방향으로 가지를 뻗음.

불순도 지표: 지니지수, 엔트로피
가지치기(Pruning): 과적합 방지

SVM (서포트 벡터 머신)

클래스를 구분하는 초평면(경계)을 최대 마진으로 그리는 기법.

분류 모형 평가 — 혼동행렬

	예측: Positive	예측: Negative
실제: P	TP	FN
실제: N	FP	TN

지표	공식	의미
정확도(Accuracy)	(TP+TN) / 전체	전체 중 맞춘 비율
정밀도(Precision)	TP / (TP+FP)	양성 예측 중 실제 양성
재현율(Recall)	TP / (TP+FN)	실제 양성 중 잘 찾은 비율
F1	정밀도·재현율 조화평균	불균형 데이터에서 선호

정밀도 vs 재현율 차이가 단골 출제 포인트. "암 진단" 같은 놓치면 안 되는 케이스는 재현율, 스팸 분류는 정밀도 중시.

군집 분석

K-means

K개 클러스터 수를 지정
초기 중심점 랜덤 배치
각 점을 가까운 중심에 할당
중심점 재계산 → 수렴할 때까지 반복

단점: K 값을 사전에 정해야 함, 초기값에 민감, 원형 클러스터만 잘 찾음.

계층적 군집

모든 점을 개별 군집으로 두고 가까운 것끼리 병합(응집형)하거나, 전체를 하나로 두고 나눠가는(분할형) 방식.

덴드로그램으로 시각화 → 원하는 군집 수에서 자르면 됨.

평가 지표

실루엣 계수: -1~1, 1에 가까울수록 잘 묶임
Elbow Method: K별로 응집도 그래프 그려서 꺾이는 지점 선택

시계열 분석

시간에 따른 데이터 변화를 분석.

구성 요소 4가지

추세(Trend): 장기적 증가/감소
계절성(Seasonality): 주기적 반복 (예: 12개월)
순환(Cycle): 일정하지 않은 긴 주기 변동
불규칙(Irregular): 랜덤 변동

대표 모델

ARIMA: 자기회귀(AR) + 차분(I) + 이동평균(MA) 결합
지수 평활: 최근 데이터에 가중치 더 부여

자주 하는 실수

1. "로지스틱 회귀는 회귀다"라고 생각 이름만 회귀, 실제로는 분류 기법이에요.

2. 정확도만 보고 판단 불균형 데이터(예: 양성 1%, 음성 99%)에서 정확도는 의미 없어요. 정밀도·재현율·F1을 봐야 함.

3. K-means의 K를 자동으로 결정된다고 착각 K는 사용자가 지정. 자동 결정 아님. Elbow/실루엣으로 탐색해야 함.

4. 지도학습 vs 비지도학습 구분 못 함 정답이 있으면 지도(회귀·분류), 없으면 비지도(군집·차원축소).

시험장에서의 접근법

문제에서 "예측 대상"이 수치인지 범주인지 먼저 판단 → 회귀 vs 분류 결정
평가 지표 질문이면 혼동행렬 먼저 머릿속에 그리기
알고리즘 특징은 "장·단점 한 줄"만 외워도 충분
가정 4가지(선·독·등·정) 같은 단답 암기는 놓치지 말기

3과목은 용어 매칭 문제가 대부분이에요. 알고리즘 동작 원리까지 깊이 알 필요는 없고, 이름-한 줄 정의 매칭만 정확하면 됩니다.

정리

회귀(수치) / 분류(범주) / 군집(비지도) 구분
회귀 가정 4가지: 선·독·등·정
분류 평가: 정확도/정밀도/재현율/F1 + 혼동행렬
군집: K-means는 K 사전 지정, 계층적은 덴드로그램
시계열 구성: 추세·계절·순환·불규칙

ADsP 모의고사로 3과목 분석 기법 풀어보기 →