ADsP2026년 4월 20일· 9 min read· 조회 0

ADsP 3과목 통계·분석 기법 심화 (회귀·분류·군집)

ADsP 3과목에서 매회 출제되는 통계 분석 기법(회귀·분류·군집·시계열)을 용어와 구분 포인트 중심으로 정리했습니다.

안녕하세요. 문어입니다 🐙


결론 먼저

ADsP 3과목은 30문항으로 전체의 절반을 차지하고, 그 안에서 통계 기법(회귀·분류·군집)과 모델 평가 지표가 절반 이상이에요. 이 글은 기법별로 "무슨 분석인지 + 어떤 상황에 쓰는지"를 한 줄씩 잡아서 객관식 보기에서 바로 고를 수 있게 정리합니다.


왜 이 주제를 따로 봐야 하는가

ADsP 3과목에서 통계·ML 알고리즘 관련 문제만 매회 10문제 이상 나와요. 여기서 평균 7–8개 맞추면 과락 방어 + 합격 점수 확보가 되는데, 용어를 헷갈리면 연달아 틀리는 과목이에요. 회귀·분류·군집은 목적·출력·평가지표가 각각 달라서, 한 번에 구분표로 잡는 게 효율적입니다.


분석 기법 3대 분류

기법목적출력대표 알고리즘
회귀수치 예측연속값선형회귀, 다중회귀
분류범주 예측이산값(클래스)로지스틱, 의사결정나무, SVM
군집유사 그룹 묶기그룹 라벨K-means, 계층적 군집

지도학습 vs 비지도학습: 회귀·분류는 정답(레이블)이 있는 지도학습, 군집은 정답 없이 묶는 비지도학습.


회귀 분석

단순 선형 회귀

목적: 독립변수 1개로 종속변수 예측.

y = β₀ + β₁·x + ε
  • β₀: 절편, β₁: 기울기(x가 1 증가할 때 y 증가량)
  • ε: 오차항

다중 선형 회귀

독립변수 2개 이상. y = β₀ + β₁x₁ + β₂x₂ + ... + ε

회귀 모형 가정 4가지

  • 선형성: x와 y의 관계가 선형
  • 독립성: 오차항이 서로 독립
  • 등분산성: 오차항의 분산이 일정
  • 정규성: 오차항이 정규분포
이 4가지 가정을 묻는 단답 문제가 자주 나와요. "선·독·등·정"으로 머리글자만 외우기.

모형 평가 지표

지표의미좋은 값
설명력 (0~1)1에 가까울수록
MSE평균 제곱 오차작을수록
RMSEMSE의 제곱근작을수록
MAE평균 절댓값 오차작을수록

분류 분석

로지스틱 회귀

이름은 회귀지만 분류 기법이에요. 출력값이 0~1 확률이고 임계값(보통 0.5) 기준으로 클래스 결정.

의사결정나무

데이터를 트리 구조로 분할. 불순도를 줄이는 방향으로 가지를 뻗음.

  • 불순도 지표: 지니지수, 엔트로피
  • 가지치기(Pruning): 과적합 방지

SVM (서포트 벡터 머신)

클래스를 구분하는 초평면(경계)을 최대 마진으로 그리는 기법.

분류 모형 평가 — 혼동행렬

예측: Positive예측: Negative
실제: PTPFN
실제: NFPTN
지표공식의미
정확도(Accuracy)(TP+TN) / 전체전체 중 맞춘 비율
정밀도(Precision)TP / (TP+FP)양성 예측 중 실제 양성
재현율(Recall)TP / (TP+FN)실제 양성 중 잘 찾은 비율
F1정밀도·재현율 조화평균불균형 데이터에서 선호
정밀도 vs 재현율 차이가 단골 출제 포인트. "암 진단" 같은 놓치면 안 되는 케이스는 재현율, 스팸 분류는 정밀도 중시.

군집 분석

K-means

  1. K개 클러스터 수를 지정
  2. 초기 중심점 랜덤 배치
  3. 각 점을 가까운 중심에 할당
  4. 중심점 재계산 → 수렴할 때까지 반복

단점: K 값을 사전에 정해야 함, 초기값에 민감, 원형 클러스터만 잘 찾음.

계층적 군집

모든 점을 개별 군집으로 두고 가까운 것끼리 병합(응집형)하거나, 전체를 하나로 두고 나눠가는(분할형) 방식.

덴드로그램으로 시각화 → 원하는 군집 수에서 자르면 됨.

평가 지표

  • 실루엣 계수: -1~1, 1에 가까울수록 잘 묶임
  • Elbow Method: K별로 응집도 그래프 그려서 꺾이는 지점 선택

시계열 분석

시간에 따른 데이터 변화를 분석.

구성 요소 4가지

  • 추세(Trend): 장기적 증가/감소
  • 계절성(Seasonality): 주기적 반복 (예: 12개월)
  • 순환(Cycle): 일정하지 않은 긴 주기 변동
  • 불규칙(Irregular): 랜덤 변동

대표 모델

  • ARIMA: 자기회귀(AR) + 차분(I) + 이동평균(MA) 결합
  • 지수 평활: 최근 데이터에 가중치 더 부여

자주 하는 실수

1. "로지스틱 회귀는 회귀다"라고 생각 이름만 회귀, 실제로는 분류 기법이에요.

2. 정확도만 보고 판단 불균형 데이터(예: 양성 1%, 음성 99%)에서 정확도는 의미 없어요. 정밀도·재현율·F1을 봐야 함.

3. K-means의 K를 자동으로 결정된다고 착각 K는 사용자가 지정. 자동 결정 아님. Elbow/실루엣으로 탐색해야 함.

4. 지도학습 vs 비지도학습 구분 못 함 정답이 있으면 지도(회귀·분류), 없으면 비지도(군집·차원축소).


시험장에서의 접근법

  1. 문제에서 "예측 대상"이 수치인지 범주인지 먼저 판단 → 회귀 vs 분류 결정
  2. 평가 지표 질문이면 혼동행렬 먼저 머릿속에 그리기
  3. 알고리즘 특징은 "장·단점 한 줄"만 외워도 충분
  4. 가정 4가지(선·독·등·정) 같은 단답 암기는 놓치지 말기
3과목은 용어 매칭 문제가 대부분이에요. 알고리즘 동작 원리까지 깊이 알 필요는 없고, 이름-한 줄 정의 매칭만 정확하면 됩니다.

정리

  • 회귀(수치) / 분류(범주) / 군집(비지도) 구분
  • 회귀 가정 4가지: 선·독·등·정
  • 분류 평가: 정확도/정밀도/재현율/F1 + 혼동행렬
  • 군집: K-means는 K 사전 지정, 계층적은 덴드로그램
  • 시계열 구성: 추세·계절·순환·불규칙

ADsP 모의고사로 3과목 분석 기법 풀어보기 →

직접 문제를 풀어보세요

매번 새로운 모의고사와 무한 풀이 모드로 실전 감각을 키울 수 있습니다.