먼저 결론부터
2026 ADsP는 3과목·50문항·객관식·90분 구조입니다. 1과목 10문항, 2과목 10문항, 3과목 30문항. 합격선은 전 과목 평균 60점이고, 한 과목이라도 40% 미만이면 과락이에요.
2024년 40회 개편 이후 단답형이 사라지고 전 문항 4지선다가 되면서 합격률은 60%대 후반으로 올라갔지만, 2025년 43·44회를 지나오면서 3과목 난이도가 서서히 올라가는 흐름이 보입니다. 기출 반복 유형이 여전히 60% 이상을 차지하지만, 최근엔 머신러닝·딥러닝 기초 용어, 데이터 거버넌스 최신 이슈, 정형·비정형 데이터 처리 관점을 묻는 신유형이 한두 문제씩 섞여 나와요.
이 글은 2026년 시험 기준으로 "이 개념만 정확히 알면 과락은 안 난다"는 수준을 목표로 정리했습니다.
왜 지금 다시 개념 정리인가
1회(2월 29일), 2회(6월 27일), 3회(9월 26일). 2026년은 ADsP가 연 3회만 시행되기 때문에 한 회차를 놓치면 4개월을 기다려야 해요. 벼락치기가 가능한 시험인 건 맞지만, "개념 흐름"을 잡지 못한 채 기출만 돌리면 2026년 신유형에서 흔들립니다.
2024–2025년 후기들을 보면 공통된 실수가 있어요.
- 예전 기출 PDF 100제만 돌리다가 최근 출제된 ML 용어(과적합·정규화·하이퍼파라미터)에서 당황
- 1·2과목을 "암기만 하면 되는 과목"으로 취급하다가 데이터 거버넌스·분석 마스터플랜 개정 포인트를 놓침
- 3과목 계산 문제는 공식만 외우고 해석을 못 해서 오답 선택
개념을 정의 한 줄 → 구분 기준 → 공식 → 오답 포인트 순서로 묶어두면 기출이 어떻게 변형돼도 흔들리지 않아요.
1과목: 데이터의 이해 (10문항)
데이터 유형 — 정형·반정형·비정형
2026년 출제 경향에서 가장 자주 건드는 영역이에요. 정의보다 예시 매칭이 핵심입니다.
| 유형 | 정의 | 예시 | 저장 방식 |
|---|---|---|---|
| 정형(Structured) | 고정된 스키마 | RDB 테이블, CSV | RDBMS |
| 반정형(Semi-structured) | 스키마는 있지만 유연 | JSON, XML, 로그 | NoSQL, 파일 |
| 비정형(Unstructured) | 스키마 없음 | 이미지, 영상, 텍스트 | 객체 스토리지 |
표만 보면 쉬워 보여도, 시험에선 "JSON = 비정형"이라고 넣은 오답이 단골로 나옵니다. JSON은 반정형이에요. 키–값 구조가 있으니까요.
DIKW 피라미드
데이터 → 정보 → 지식 → 지혜. 사례 매칭 1문항은 거의 고정 출제입니다.
- 데이터: "A매장 라면 10개 판매"
- 정보: "A매장이 B매장보다 라면이 잘 팔린다"
- 지식: "라면 판매는 A매장에 더 많은 재고를 배정해야 한다"
- 지혜: "매장별 판매 패턴을 분석해 재고 배분 시스템을 구축한다"
빅데이터 특성 3V → 5V → 7V
2026년 교재 기준 7V까지 언급되지만 시험은 여전히 3V·5V 중심이에요.
- 3V: Volume(규모), Velocity(속도), Variety(다양성)
- +2V(5V): Veracity(정확성), Value(가치)
- +2V(7V): Validity(유효성), Volatility(휘발성)
"Viability(실현가능성)는 포함되지 않는다" 같은 보기가 오답 낚시로 자주 들어와요.
데이터 사이언티스트 역량
Hard Skill과 Soft Skill 구분은 매회 나옵니다.- Hard Skill: 통계·머신러닝·프로그래밍·데이터베이스·분산처리
- Soft Skill: 커뮤니케이션, 스토리텔링, 도메인 이해, 창의력, 호기심
"통계 분석"을 Soft Skill 쪽에 끼워 넣은 오답 보기가 최근 시험에서도 반복됩니다.
AI·빅데이터 시대 용어
2026 신유형 대비용 기본 용어예요. 정의 한 줄씩 외우세요.
- 데이터 레이크: 원본 그대로 저장하는 대용량 저장소
- 데이터 웨어하우스: 분석용으로 정제된 구조화 저장소
- 데이터 마트: 특정 부서·주제용 소형 웨어하우스
- 엣지 컴퓨팅: 데이터를 수집 지점 근처에서 처리
2과목: 데이터 분석 기획 (10문항)
분석 방법론 3형제
| 방법론 | 주체 | 단계 수 | 특징 |
|---|---|---|---|
| KDD | 학술 | 5단계 | 선택→전처리→변환→마이닝→해석 |
| CRISP-DM | 산업 | 6단계 | 비즈니스→데이터→준비→모델링→평가→배포 |
| SEMMA | SAS | 5단계 | Sample→Explore→Modify→Model→Assess |
CRISP-DM의 "배포(Deployment)" 단계가 매회 출제 포인트예요. KDD·SEMMA에는 배포 단계가 없다는 걸 반대로 쓰면 바로 오답.
분석 과제 발굴 — 하향식 vs 상향식
- 하향식(Top-down): 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토
- 상향식(Bottom-up): 데이터 자체에서 패턴 발견 → 프로토타이핑으로 검증
하향식이 "디자인 사고(Design Thinking)의 발산 단계를 포함한다"는 보기는 혼동을 노린 변형이에요. 디자인 사고는 상향식에 가까운 접근입니다.
분석 성숙도 모델 4단계
도입 → 활용 → 확산 → 최적화. 각 단계 정의는 다음과 같아요.
- 도입: 일부 부서에서 분석 시작
- 활용: 특정 업무에 지속 활용
- 확산: 전사적으로 확대
- 최적화: 분석이 비즈니스 핵심 축이 됨
분석 거버넌스 4대 구성
조직 · 프로세스 · 시스템 · 데이터. 2026년엔 여기에 데이터 품질·보안·AI 윤리 관점이 얹혀서 출제되고 있어요.
- 조직: 분석 전담팀, 역할 정의
- 프로세스: 분석 과제 발굴·관리 체계
- 시스템: 분석 플랫폼·도구
- 데이터: 데이터 표준·품질·메타데이터
"분석 문화"를 5번째 요소로 끼운 오답 보기가 자주 나와요. 4대 구성은 4개예요.
위험 대응 4전략
회피 · 전가 · 완화 · 수용. 사례 매칭 필수 암기.
| 전략 | 의미 | 예시 |
|---|---|---|
| 회피 | 위험 원인 제거 | 프로젝트 자체 중단 |
| 전가 | 제3자에게 이전 | 보험 가입, 외주 |
| 완화 | 위험 크기 축소 | 백업·이중화 |
| 수용 | 감수하고 진행 | 예비비 확보 후 진행 |
분석 마스터플랜 우선순위
시급성 vs 난이도 2차원 매트릭스로 과제 우선순위를 잡습니다. 시급성이 높고 난이도가 낮은 1사분면이 1순위예요. 2026 개정 교재는 여기에 **데이터 준비도(Readiness)**를 추가 축으로 언급하는 경우가 있지만, 시험은 여전히 2축 매트릭스 중심이에요.
3과목: 데이터 분석 (30문항) — 가장 점수 큰 영역
R 기초
x <- c(1, 2, 3, NA, 5)
mean(x, na.rm = TRUE) # 2.75
sum(is.na(x)) # 1
c()벡터,list()리스트,matrix()행렬,data.frame()데이터프레임na.rm = TRUE로 결측치 제거apply(x, 1, fn)은 행 방향,apply(x, 2, fn)은 열 방향
통계 기본 — 기술 vs 추론
- 기술통계: 평균·중앙값·분산·표준편차로 요약
- 추론통계: 표본에서 모집단을 추정 (가설검정·신뢰구간)
가설 검정 오류는 부호 반대로 낸 오답이 자주 나옵니다.
- 제1종 오류 α: 귀무가설이 참인데 기각 (보수적으로 작게 통제)
- 제2종 오류 β: 귀무가설이 거짓인데 채택
- 검정력 = 1 − β
회귀분석 비교표
| 유형 | 종속변수 | 특징 |
|---|---|---|
| 단순 선형 | 연속형 | 독립변수 1개 |
| 다중 선형 | 연속형 | 독립변수 2개 이상, 다중공선성 주의 |
| 로지스틱 | 범주형(0/1) | 시그모이드로 확률 출력 |
| 릿지(Ridge) | 연속형 | L2 규제, 계수 크기 축소 |
| 라쏘(Lasso) | 연속형 | L1 규제, 계수를 0으로 → 변수 선택 |
| 엘라스틱넷 | 연속형 | L1 + L2 결합 |
다중 선형 회귀의 결정계수 공식도 1번쯤 나와요.
R² = 1 − (SSE / SST)
- SSE: 잔차 제곱합 (예측 오차의 제곱합)
- SST: 총 제곱합 (평균 대비 전체 편차 제곱합)
값이 1에 가까울수록 모델이 데이터를 잘 설명합니다.
분류 — 2026 빈출 알고리즘 비교
| 알고리즘 | 핵심 아이디어 | 주요 지표 |
|---|---|---|
| 의사결정나무 | 재귀적 분할로 순도 증가 | 지니·엔트로피·카이제곱 |
| KNN | 가까운 K개의 다수결 | 거리 측도, K 값 |
| SVM | 마진 최대화 초평면 | 커널 트릭 |
| 나이브베이즈 | 조건부 확률 | 사전확률·우도 |
| 랜덤포레스트 | 의사결정나무 배깅 | OOB 오류 |
의사결정나무 불순도에 MSE를 끼워 넣은 오답 보기가 있어요. MSE는 회귀 손실이지 분류 불순도가 아닙니다.
앙상블 — 배깅 vs 부스팅
| 방식 | 학습 방식 | 목적 | 대표 모델 |
|---|---|---|---|
| 배깅(Bagging) | 병렬 | 분산 감소 | 랜덤포레스트 |
| 부스팅(Boosting) | 순차 | 편향 감소 | AdaBoost, XGBoost, LightGBM |
| 스태킹(Stacking) | 메타 모델 | 예측력 향상 | 상위 모델이 하위 출력 학습 |
최근 44회에선 XGBoost·LightGBM 같은 부스팅 계열 용어가 보기로 등장하기 시작했어요. 2026년엔 이름 정도는 알고 들어가는 게 안전합니다.
군집 분석
- K-means: 비지도, 사전에 K 지정, 중심점 갱신 반복, 초기값에 민감
- 계층적 군집: 덴드로그램으로 시각화, 연결법 4종(단일·완전·평균·중심)
- DBSCAN: 밀도 기반, K 지정 불필요, 노이즈 자동 분리 — 2026 신유형으로 이름만 알아두기
거리 측도
| 이름 | 수식 | 특징 |
|---|---|---|
| 유클리디안 | √Σ(xᵢ − yᵢ)² | 직선 거리 |
| 맨해튼 | Σ | xᵢ − yᵢ |
| 마할라노비스 | 공분산 반영 | 상관관계 고려 |
| 자카드 | 교집합 / 합집합 | 이진·집합 데이터 |
| 코사인 | 벡터 각도 | 문서 유사도, 추천 |
문서 데이터에 유클리디안을 쓴다는 보기는 오답이에요. 텍스트·고차원에서는 코사인이 훨씬 적합합니다.
연관분석 공식 (매회 계산 1–2문항)
거래 200건, A 60건, B 80건, A∩B 30건이라고 하면:
- 지지도 Support(A∩B) = 30 / 200 = 0.15
- 신뢰도 Confidence(A→B) = 30 / 60 = 0.5
- 향상도 Lift(A→B) = 0.5 / (80/200) = 0.5 / 0.4 = 1.25
Lift = 1.25 > 1이므로 A가 일어날 때 B도 함께 일어나는 경향이 독립 대비 강해요. 향상도는 1 기준으로 해석합니다.
시계열 분석
- 정상성: 평균·분산·자기공분산이 시간에 불변
- ARIMA(p, d, q): p는 AR 차수, d는 차분 횟수, q는 MA 차수
- 지수평활의 α는 1에 가까울수록 최근 값 반영 ↑
PCA · 차원 축소
- PCA: 분산을 최대 보존하며 차원 축소, 고유값·고유벡터 기반
- 주성분 선택 기준: 고유값 1 이상 / 누적 분산 80% 이상 / 스크리 도표 꺾임
모형 평가
혼동행렬 기반 지표는 공식을 반드시 손으로 써서 외우세요.
| 지표 | 공식 | 의미 |
|---|---|---|
| 정확도 | (TP + TN) / 전체 | 전체 맞춘 비율 |
| 정밀도 | TP / (TP + FP) | 맞다고 한 것 중 진짜 맞는 것 |
| 재현율 | TP / (TP + FN) | 실제 양성 중 맞춘 비율 |
| F1 | 2·(P·R)/(P+R) | 정밀도·재현율 조화평균 |
- ROC: x축 FPR, y축 TPR. 좌상단에 가까울수록 우수
- AUC: 0.5 = 랜덤, 1.0 = 완벽
2026년 신유형 — 딥러닝·머신러닝 기초 용어
ADsP는 모델을 직접 구현하라는 시험은 아니지만, 최근 회차에선 용어 정의를 묻는 보기가 3과목 끝자락에 들어오고 있어요.
- 과적합(Overfitting): 훈련 데이터에 과하게 맞아 일반화 실패
- 정규화(Regularization): 가중치에 패널티 부여로 과적합 완화 (L1·L2)
- 하이퍼파라미터: 학습 전 지정하는 값 (학습률, K, max_depth 등)
- 활성화 함수: ReLU, Sigmoid, Tanh — 비선형성 부여
- 역전파(Backpropagation): 오차를 출력→입력 방향으로 전파하며 가중치 갱신
- Dropout: 학습 시 뉴런을 확률적으로 끄는 과적합 방지 기법
정의 수준만 나오니까 외우는 데 오래 걸리지 않아요.
실제 예시 — 통계·모델 계산 한 번 훑기
예시 1. 로지스틱 회귀 확률 계산
로지스틱 회귀 계수가 β₀ = −2, β₁ = 0.5라고 하면, x = 4일 때:
시그모이드: p = 1 / (1 + e^(−z)), z = β₀ + β₁·x
대입: z = −2 + 0.5 × 4 = 0
확률: p = 1 / (1 + e^0) = 1 / 2 = 0.5
"계수를 주고 확률을 구하라"는 유형은 나오지 않지만, 시그모이드가 0–1 사이 확률을 출력한다는 원리는 개념 문제로 출제됩니다.
예시 2. 혼동행렬 해석
실제 양성 100, 실제 음성 900인 데이터에서 모델이 양성 120, 음성 880을 예측했고 TP = 80이라고 하면:
- FP = 120 − 80 = 40
- FN = 100 − 80 = 20
- 정확도 = (80 + 860) / 1000 = 0.94
- 정밀도 = 80 / 120 ≈ 0.667
- 재현율 = 80 / 100 = 0.8
정확도만 보면 94%로 훌륭해 보이지만, 정밀도가 67%에 불과합니다. 불균형 데이터에서 정확도 하나로 판단하면 안 된다는 게 이 예시의 포인트예요.
자주 하는 실수
- 1·2과목 무시: 3과목 비중이 크다고 1·2과목을 버리면 과락. 1과목 4문제, 2과목 4문제는 확실히 확보해야 해요.
- 공식 암기만: 지지도·신뢰도·향상도는 공식보다 수치 해석이 중요해요.
Lift = 1,Lift > 1,Lift < 1이 각각 어떤 의미인지 입으로 설명할 수 있어야 합니다. - L1·L2 헷갈림: 라쏘가 L1이에요. "라" 발음이 하나 → 1이라고 외우는 분들이 많습니다.
- 군집 vs 분류 혼동: K-means는 비지도(군집), KNN은 지도(분류). 이름이 비슷해서 시험장에서 꼭 한 번 헷갈리는 포인트.
- 예전 기출만 돌리기: 2023년 이전 기출에는 단답형이 섞여 있어요. 2024년 40회 이후 기출을 중심으로 돌리는 게 맞습니다.
시험장 접근법
문제 푸는 순서도 점수에 영향을 줘요. 저는 다음 흐름을 권합니다.
- 1과목 10문항 먼저 (15분) — 암기 중심이라 빠르게 털어냄
- 2과목 10문항 (15분) — 분석 방법론·거버넌스 용어 매칭
- 3과목 30문항 중 이론·정의 문제 먼저 (30분)
- 3과목 계산 문제(연관분석·혼동행렬·거리 측도) (20분)
- 남은 10분 검토 — OMR 마킹 실수 확인
계산 문제를 맨 앞에 두면 시간을 다 쓰고 다른 쉬운 문제를 놓칩니다. 득점이 큰 쉬운 문제부터 확보하는 게 기본 원칙이에요.
과락이 걱정되면 시험지 맨 앞에 각 과목별 최소 득점 문항수(1·2과목 4문제, 3과목 12문제)를 적어두고 체크하면서 푸는 방법도 있어요. 과락 스트레스가 확연히 줄어듭니다.
요약
2026 ADsP는 기본 구조는 그대로이고 3과목 난이도가 조금씩 올라가는 시험입니다. 다음 일곱 개만 정확히 잡으면 합격권에 들어가요.
- 데이터 유형(정형·반정형·비정형) 예시 매칭
- DIKW 순서와 예시
- CRISP-DM 6단계, 배포 단계 포함
- 분석 거버넌스 4대 구성
- 릿지 L2 · 라쏘 L1
- 연관분석 지지도·신뢰도·향상도 공식과 해석
- 혼동행렬 정밀도·재현율 공식
2026 신유형 대비로 과적합·정규화·하이퍼파라미터·Dropout·DBSCAN·XGBoost 이름 수준만 추가로 확인하세요. 시험은 용어 정의를 묻지 구현을 묻지 않아요.
기출을 돌릴 땐 2024년 40회 이후 회차부터. 개념이 머리에 들어왔다고 느껴지면 실제 문제 감각을 체크해보는 게 좋습니다.