📝 기출문제 전체 보기
데이터분석 준전문가(ADsP) 2026년 48회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.
문제 1
4지선다지식 경영의 SECI 모델에 대한 설명으로 적절하지 않은 것은?
- 1.
공통화는 암묵적 노하우를 타인에게 전달하는 과정이다.
- 2.
표출화는 암묵적 노하우를 책 및 교재 등의 형식지로 전환하는 과정이다.
- 3.
연결화는 기존 형식지에 자신의 개인 지식까지 추가 및 보완하여 새로운 암묵지로 창출하는 과정이다.
- 4.
내면화는 축적된 형식지를 참고하여 다른 구성원들이 암묵적 지식으로 체화하는 과정이다.
정답·해설 보기▾
정답
3번
연결화는 기존 형식지에 자신의 개인 지식까지 추가 및 보완하여 새로운 암묵지로 창출하는 과정이다.
해설
정답: 3. 연결화(Combination)는 형식지들을 결합·체계화하여 새로운 형식지를 만드는 과정이다. 새로운 암묵지를 창출한다는 설명은 옳지 않다.
오답 풀이
- 1번: 공통화는 경험 공유를 통한 암묵지→암묵지 전달이다.
- 2번: 표출화는 암묵지를 문서 등 형식지로 변환하는 과정이다.
- 3번: 연결화의 산출물은 암묵지가 아니라 형식지이므로 옳지 않다.
- 4번: 내면화는 형식지를 학습해 개인의 암묵지로 체화하는 과정이다.
보충 개념 SECI 변환 — 공통화(암묵→암묵), 표출화(암묵→형식), 연결화(형식→형식), 내면화(형식→암묵).
- 1.
문제 2
4지선다아래 정성적 데이터와 정량적 데이터의 설명에 대해 옳은 것을 모두 고르시오.
가. 빅데이터 환경에서 정량적 데이터는 정성적 데이터에 비해 분석 및 활용에 더 많은 비용과 고도의 기술이 요구되고 있다. 나. 정성적 데이터는 문자, 언어 등으로 구성되며 형태와 형식이 일정하지 않은 비정형인 경우가 많다. 다. 정성적 데이터는 구체적인 수치 형태로 표현되며, 정량적 데이터에 비해 저장과 분석이 용이한 장점이 있다. 라. 정량적 데이터는 정형화된 틀 안에서 대규모 데이터를 수집하고 일반화하는 데 용이하다. 마. 데이터는 있는 그대로의 객관적 사실을 부여하는 존재적 특성을 가지며 추론 및 예측의 근거로 활용되는 당위적 특성을 가진다.
- 1.
가, 나, 라
- 2.
나, 다, 라
- 3.
나, 라, 마
- 4.
다, 라, 마
정답·해설 보기▾
정답
3번
나, 라, 마
해설
정답: 3. 나·라·마가 옳은 설명이다.
오답 풀이
- 가: 분석에 더 많은 비용·기술이 필요한 것은 비정형 위주의 정성적 데이터이므로 옳지 않다.
- 나: 정성적 데이터는 문자·언어 중심의 비정형 형태가 많다는 옳은 설명이다.
- 다: 수치 형태로 표현되어 저장·분석이 용이한 것은 정량적 데이터이므로 옳지 않다.
- 라: 정량적 데이터의 정형성·일반화 용이성은 옳은 설명이다.
- 마: 데이터의 존재적 특성(객관적 사실)과 당위적 특성(추론·예측의 근거)은 옳은 설명이다.
보충 개념 데이터는 개별 사실(존재적 특성)이자 다른 객체와의 상호 관계 속에서 가치를 갖는 추론·예측의 근거(당위적 특성)이다.
- 1.
문제 3
4지선다다음 중 데이터베이스에 대한 설명으로 적절하지 않은 것은?
- 1.
다수의 사용자가 동시에 공유하고 활용할 수 있도록 구조화하여 통합 저장한 데이터의 집합이다.
- 2.
데이터의 중복을 최소화하고 일관성을 유지함으로써 데이터의 신뢰도를 높이는 시스템이다.
- 3.
응용 프로그램과 데이터가 서로 독립적으로 존재하여, 데이터 구조가 바뀌어도 응용 프로그램에는 영향을 주지 않는 독립성을 가진다.
- 4.
데이터베이스는 데이터, 정보, 지식, 저작물 등의 인식 가능한 모든 자료를 포괄하기 때문에 그 자체로 구조적 체계를 갖지 않는다.
정답·해설 보기▾
정답
4번
데이터베이스는 데이터, 정보, 지식, 저작물 등의 인식 가능한 모든 자료를 포괄하기 때문에 그 자체로 구조적 체계를 갖지 않는다.
해설
정답: 4. 데이터베이스는 일정한 규칙과 구조에 따라 체계적으로 정리·저장된 데이터의 집합으로, 구조적 체계를 갖지 않는다는 설명은 옳지 않다.
오답 풀이
- 1번: 공유·통합 저장된 구조화 데이터 집합이라는 정의로 옳다.
- 2번: 중복 최소화와 일관성 유지를 통한 신뢰도 향상은 옳은 설명이다.
- 3번: 데이터 독립성은 데이터베이스의 핵심 특성이다.
- 4번: 체계적 구조가 데이터베이스의 본질이므로 옳지 않다.
보충 개념 데이터베이스는 통합·저장·공용·운영 데이터로서, DBMS를 통해 구조화된 형태로 관리된다.
- 1.
문제 4
4지선다다음 중 데이터베이스에 대한 특징으로 적절하지 않은 것은?
- 1.
데이터베이스 내 동일 데이터가 중복되지 않는 ‘통합 데이터’이다.
- 2.
컴퓨터가 접근 가능한 저장 매체에 데이터가 저장되어 있는 ‘저장 데이터’이다.
- 3.
다수의 사용자가 동시 접속 및 공유 가능한 ‘공용 데이터’이다.
- 4.
사용자가 데이터를 변경 및 갱신할 수 없는 ‘고정 데이터’이다.
정답·해설 보기▾
정답
4번
사용자가 데이터를 변경 및 갱신할 수 없는 ‘고정 데이터’이다.
해설
정답: 4. 데이터베이스는 삽입·갱신·삭제를 통해 항상 최신 상태를 유지하는 변화되는 데이터이다. ‘고정 데이터’는 데이터베이스의 특징이 아니다.
오답 풀이
- 1번: 통합 데이터(중복 배제)는 옳은 특징이다.
- 2번: 저장 데이터(컴퓨터 접근 가능 매체 저장)는 옳은 특징이다.
- 3번: 공용 데이터(다수 사용자 공유)는 옳은 특징이다.
- 4번: 고정이 아니라 지속적으로 변화하면서도 정확성을 유지하는 데이터이므로 옳지 않다.
보충 개념 데이터베이스의 4대 특징: 통합 데이터, 저장 데이터, 공용 데이터, 운영 데이터(+ 변화되는 데이터).
- 1.
문제 5
4지선다다음 중 ‘공부시간’에 따른 ‘시험성적’의 변화를 분석하기 위한 적절한 분석방법은?
- 1.
연관분석
- 2.
회귀분석
- 3.
군집분석
- 4.
교차분석
정답·해설 보기▾
정답
2번
회귀분석
해설
정답: 2. 연속형 독립변수(공부시간)가 연속형 종속변수(시험성적)에 미치는 영향을 분석하는 것은 회귀분석이다.
오답 풀이
- 1번: 연관분석은 거래 항목 간 동시 발생 규칙을 찾는 기법이다.
- 2번: 변수 간 함수 관계를 추정해 변화를 설명·예측하는 회귀분석이 적절하다.
- 3번: 군집분석은 유사한 개체를 그룹화하는 기법이다.
- 4번: 교차분석은 범주형 변수 간의 관련성을 분석한다.
보충 개념 회귀분석은 독립변수의 변화에 따른 종속변수의 평균적 변화를 모형화하여 영향의 방향과 크기를 추정한다. 단, 관측 자료의 회귀계수가 곧 인과관계를 보장하는 것은 아니다.
- 1.
문제 6
4지선다다음 중 빅데이터의 위기 요인으로 옳은 것을 모두 고르시오.
가. 사생활 침해 나. 데이터 오용 다. 익명화 라. 책임 원칙 훼손 마. 알고리즘 접근 허용
- 1.
가, 나, 다
- 2.
가, 나, 라
- 3.
나, 다, 라
- 4.
다, 라, 마
정답·해설 보기▾
정답
2번
가, 나, 라
해설
정답: 2. 빅데이터 시대의 3대 위기 요인은 사생활 침해(가), 데이터 오용(나), 책임 원칙 훼손(라)이다.
오답 풀이
- 다: 익명화는 위기 요인이 아니라 사생활 침해에 대한 보호 기법이다.
- 마: 알고리즘 접근 허용은 데이터 오용에 대한 통제 방안이다.
보충 개념 위기 요인-통제 방안: 사생활 침해→동의제에서 책임제로, 책임 원칙 훼손→결과 기반 책임 원칙, 데이터 오용→알고리즘 접근권 허용(알고리즈미스트).
- 1.
문제 7
4지선다다음 중 빅데이터 활용을 위한 3대 기본요소가 아닌 것은?
- 1.
데이터
- 2.
프로세스
- 3.
인력
- 4.
기술
정답·해설 보기▾
정답
2번
프로세스
해설
정답: 2. 빅데이터 활용의 3대 기본요소는 데이터, 기술, 인력이며 프로세스는 포함되지 않는다.
오답 풀이
- 1번: 모든 것의 데이터화에 따른 데이터 자원은 기본요소이다.
- 2번: 프로세스는 3대 요소에 해당하지 않는다.
- 3번: 데이터 사이언티스트 등 인력은 기본요소이다.
- 4번: 진화하는 알고리즘·인공지능 등 기술은 기본요소이다.
보충 개념 빅데이터 활용 3요소 — 데이터(모든 것의 데이터화), 기술(진화하는 알고리즘, 인공지능), 인력(데이터 사이언티스트, 알고리즈미스트).
- 1.
문제 8
4지선다데이터 사이언티스트에 대한 설명으로 적절하지 않은 것은?
- 1.
알고리즘 해석을 통해 부당한 피해를 받은 개인 및 집단을 구제하고 법적인 조치를 수행하는 알고리즈미스트로의 역할도 병행해야 한다.
- 2.
통계 및 수학적 원리를 활용하여 데이터의 신뢰성을 검증하고 모델을 설계하는 하드스킬이 요구된다.
- 3.
데이터 시각화와 스토리텔링을 통해 분석 결과의 핵심 메시지를 효과적으로 전달하는 소프트스킬이 요구된다.
- 4.
비즈니스 도메인 지식을 바탕으로 분석 결과를 전략적 인사이트로 변환할 수 있는 통찰력이 필요하다.
정답·해설 보기▾
정답
1번
알고리즘 해석을 통해 부당한 피해를 받은 개인 및 집단을 구제하고 법적인 조치를 수행하는 알고리즈미스트로의 역할도 병행해야 한다.
해설
정답: 1. 알고리즈미스트는 알고리즘으로 인한 피해를 구제하는 별도의 전문 직군이며, 데이터 사이언티스트가 법적 조치까지 병행해야 하는 역할은 아니다.
오답 풀이
- 1번: 알고리즈미스트의 역할을 데이터 사이언티스트의 필수 역할로 서술했으므로 옳지 않다.
- 2번: 통계·수학 기반의 모델 설계는 하드스킬에 해당한다.
- 3번: 시각화·스토리텔링은 소프트스킬에 해당한다.
- 4번: 도메인 지식 기반의 통찰력도 데이터 사이언티스트의 요건이다.
보충 개념 알고리즈미스트는 알고리즘의 부당한 결과로 피해를 본 사람을 구제하는 전문가로, 데이터 오용 위기의 통제 방안과 연결된다.
- 1.
문제 9
4지선다다음 중 데이터 사이언스에 대한 설명으로 적절하지 않은 것은?
- 1.
수집된 데이터의 결측치 처리 및 이상치 제거를 통해 데이터 품질과 분석의 정확도를 높일 수 있다.
- 2.
가용 데이터를 활용해 패턴을 학습하고, 이를 바탕으로 미래 데이터에 대한 예측 및 분류가 가능하다.
- 3.
데이터 사이언티스트의 소프트스킬로는 알고리즘 이해와 분석 능력이 포함된다.
- 4.
탐색적 데이터 분석을 통해 시각화와 기초 통계량을 활용하여 데이터의 분포와 변수 간의 잠재적 관계를 파악할 수 있다.
정답·해설 보기▾
정답
3번
데이터 사이언티스트의 소프트스킬로는 알고리즘 이해와 분석 능력이 포함된다.
해설
정답: 3. 알고리즘 이해와 분석 능력은 이론적 지식·기술 숙련에 해당하는 하드스킬이다. 소프트스킬은 통찰력, 커뮤니케이션, 협력 능력 등을 말한다.
오답 풀이
- 1번: 결측·이상치 처리는 데이터 품질과 분석 정확도를 높인다.
- 2번: 패턴 학습 기반의 예측·분류는 데이터 사이언스의 핵심 기능이다.
- 3번: 하드스킬을 소프트스킬로 분류했으므로 옳지 않다.
- 4번: EDA를 통한 분포·관계 파악은 옳은 설명이다.
보충 개념 하드스킬: 빅데이터 이론적 지식, 분석 기술 숙련. 소프트스킬: 통찰력 있는 분석, 설득력 있는 전달, 다분야 협력.
- 1.
문제 10
4지선다빅데이터 가치 패러다임 변환 과정을 순서대로 나열한 것은?
- 1.
Digitalization → Agency → Connection
- 2.
Digitalization → Connection → Agency
- 3.
Connection → Agency → Digitalization
- 4.
Connection → Digitalization → Agency
정답·해설 보기▾
정답
2번
Digitalization → Connection → Agency
해설
정답: 2. 가치 패러다임은 디지털화(Digitalization) → 연결(Connection) → 에이전시(Agency)의 순서로 변화한다.
오답 풀이
- 1번: Agency는 Connection 이후의 단계이다.
- 3·4번: 패러다임의 출발점은 아날로그의 디지털화이다.
보충 개념 Digitalization은 아날로그 세상의 디지털화, Connection은 디지털화된 정보의 연결(인터넷·모바일), Agency는 복잡한 연결을 효율적으로 관리해 주는 신뢰할 수 있는 대리인(인공지능 등)의 시대를 의미한다.
- 1.
문제 11
4지선다다음 중 분석방법은 알고 있으나, 분석 대상이나 문제 정의가 명확하지 않은 경우에 해당되는 분석 과제 도출 유형은 무엇인가?
- 1.
최적화(Optimization)
- 2.
통찰(Insight)
- 3.
솔루션(Solution)
- 4.
발견(Discovery)
정답·해설 보기▾
정답
2번
통찰(Insight)
해설
정답: 2. 분석 방법(How)은 알지만 분석 대상(What)이 명확하지 않은 경우는 통찰(Insight) 유형이다.
오답 풀이
- 1번: 최적화는 대상과 방법을 모두 아는 경우이다.
- 2번: 대상X·방법O의 조합으로 옳다.
- 3번: 솔루션은 대상은 알지만 방법을 모르는 경우이다.
- 4번: 발견은 대상과 방법을 모두 모르는 경우이다.
보충 개념 분석 주제 유형 4가지 — 최적화(대상O·방법O), 솔루션(대상O·방법X), 통찰(대상X·방법O), 발견(대상X·방법X).
- 1.
문제 12
4지선다CRISP-DM 분석 방법론의 데이터 준비 단계에서 수행하는 활동 중 적절하지 않은 것은?
- 1.
데이터 정제
- 2.
데이터 통합
- 3.
데이터 탐색
- 4.
데이터 포맷팅
정답·해설 보기▾
정답
3번
데이터 탐색
해설
정답: 3. 데이터 탐색은 데이터 이해(Data Understanding) 단계의 활동이다. 데이터 준비 단계는 정제·통합·포맷팅 등 모델링용 데이터셋을 만드는 활동으로 구성된다.
오답 풀이
- 1번: 결측·오류 처리 등 데이터 정제는 준비 단계 활동이다.
- 2번: 여러 원천의 데이터 통합도 준비 단계 활동이다.
- 3번: 탐색은 이해 단계의 활동이므로 옳지 않다.
- 4번: 분석 도구에 맞춘 포맷팅도 준비 단계 활동이다.
보충 개념 CRISP-DM 데이터 준비 단계: 데이터 선택, 정제, 통합, 포맷팅, 새로운 데이터(파생변수) 생성. 데이터 이해 단계: 초기 데이터 수집, 기술(記述), 탐색, 품질 확인.
- 1.
문제 13
4지선다다음 중 상향식 접근 방식의 데이터 분석 방법으로 옳은 것은?
- 1.
비즈니스 모델 기반 문제 탐색
- 2.
외부 참조 모델(벤치마킹) 기반 문제 탐색
- 3.
비지도 학습
- 4.
가설 검정 분석
정답·해설 보기▾
정답
3번
비지도 학습
해설
정답: 3. 상향식 접근은 데이터 자체에서 패턴과 통찰을 발견하는 방식으로, 정답(레이블) 없이 데이터의 구조를 탐색하는 비지도 학습이 대표적이다.
오답 풀이
- 1번: 비즈니스 모델 기반 탐색은 하향식 문제 탐색 기법이다.
- 2번: 외부 참조 모델 기반 탐색도 하향식 기법이다.
- 3번: 군집·연관 분석 등 비지도 학습은 상향식 접근에 해당한다.
- 4번: 가설 검정은 문제(가설)를 먼저 정의하는 하향식 성격의 분석이다.
보충 개념 상향식 접근은 프로토타이핑·시행착오를 통해 데이터로부터 인사이트를 도출하며, 지도학습보다 비지도학습과 유사한 탐색적 방식이다.
- 1.
문제 14
4지선다다음 중 데이터 품질관리의 구성요소에 대한 설명으로 적절하지 않은 것은?
- 1.
데이터 품질 관리는 분석 모델의 정확도와 신뢰성을 확보하기 위해 지속적인 품질 검증과 성능 모니터링을 수행하는 예방적 활동이다.
- 2.
데이터 품질 계획은 기본적인 품질 정책을 수립하고 이를 달성하기 위한 품질관리 기준을 수립하는 단계이다.
- 3.
데이터 품질 관리는 실무단계에서 수행되는 품질 검토와 품질 보증의 두 가지 활동으로만 구성된다.
- 4.
데이터 품질 보증은 산출된 데이터의 품질 신뢰를 부여하기 위해 반복된 오류를 개선하는 등 품질관리 프로세스의 전반적인 점검 및 평가 활동이다.
정답·해설 보기▾
정답
3번
데이터 품질 관리는 실무단계에서 수행되는 품질 검토와 품질 보증의 두 가지 활동으로만 구성된다.
해설
정답: 3. 데이터 품질관리는 품질 계획 수립부터 검토·보증·개선까지 전 과정에 걸친 활동으로, 품질 검토와 품질 보증 두 가지로만 구성된다는 설명은 옳지 않다.
오답 풀이
- 1번: 지속적 검증·모니터링을 통한 예방적 품질 활동이라는 설명은 옳다.
- 2번: 품질 정책·기준 수립은 품질 계획 단계의 활동이다.
- 3번: 계획·통제·개선 등 더 넓은 활동으로 구성되므로 옳지 않다.
- 4번: 품질 보증은 프로세스 전반의 점검·평가 활동이라는 설명으로 옳다.
보충 개념 데이터 품질관리는 정확성·완전성·일관성·적시성 등의 품질 기준을 정의하고, 계획-점검-개선의 사이클로 운영된다.
- 1.
문제 15
4지선다다음 중 분석과제 우선순위에 대한 설명으로 옳은 것을 모두 고르시오.
가. 시급성은 데이터의 양과 범위에 따라 결정된다. 나. 난이도는 데이터 분석 기술의 복잡도, 분석 시스템의 활용도에 따라 결정된다. 다. 분석 과제의 전략적 중요성이 높아질수록 시급성도 높아진다.
- 1.
가
- 2.
가, 나
- 3.
나, 다
- 4.
가, 나, 다
정답·해설 보기▾
정답
3번
나, 다
해설
정답: 3. 나와 다가 옳은 설명이다. 시급성은 데이터의 양이 아니라 전략적 중요도와 목표 가치에 따라 결정된다.
오답 풀이
- 가: 데이터의 양·범위는 난이도(비용) 측면의 요소이므로 옳지 않다.
- 나: 분석 기술의 복잡도·시스템 활용 수준은 난이도 결정 요소가 맞다.
- 다: 전략적 중요도는 시급성의 핵심 판단 기준이므로 옳다.
보충 개념 우선순위 평가 기준 — 시급성: 전략적 중요도·목표 가치(KPI), 난이도: 데이터 획득·저장·가공 비용, 분석 수준·기술 역량.
- 1.
문제 16
4지선다다음 중 분석 성숙도 모델에 대한 설명으로 적절하지 않은 것은?
- 1.
분석 성숙도는 도입, 활용, 확산, 최적화 총 4단계로 구분하여 점검된다.
- 2.
분석 성숙도 모델의 사분면 분석으로는 정착형, 확산형, 준비형, 도입형으로 구성된다.
- 3.
사분면 분석 중 정착형은 준비도가 낮으며 조직, 인력, 분석 업무 등 내부에서 제한적으로 사용되는 단계이다.
- 4.
분석 성숙도 평가는 유사업종 및 경쟁사와 성숙도 수준을 비교하는 것이 주요 목표이다.
정답·해설 보기▾
정답
4번
분석 성숙도 평가는 유사업종 및 경쟁사와 성숙도 수준을 비교하는 것이 주요 목표이다.
해설
정답: 4. 분석 성숙도 평가의 목표는 조직의 현재 분석 수준을 진단하고 단계별 발전 방향을 수립하는 것이지, 경쟁사와의 비교 자체가 주요 목표는 아니다.
오답 풀이
- 1번: 성숙도는 도입→활용→확산→최적화 4단계로 진단한다.
- 2번: 준비도·성숙도를 결합한 사분면 유형은 준비형·정착형·도입형·확산형이다.
- 3번: 정착형은 준비도는 낮으나 조직·인력 등 내부에서 제한적으로 분석이 정착된 유형이다.
- 4번: 비교가 아닌 자체 수준 진단과 개선 방향 수립이 목적이므로 옳지 않다.
보충 개념 사분면 유형 — 준비형(준비도↓·성숙도↓), 정착형(준비도↓·성숙도↑), 도입형(준비도↑·성숙도↓), 확산형(준비도↑·성숙도↑).
- 1.
문제 17
4지선다다음 중 데이터분석 마스터플랜 수립 시 분석 과제 우선순위를 결정하기 위한 고려 요소로 적절하지 않은 것은?
- 1.
비즈니스 성과
- 2.
기술 적용 수준
- 3.
실행 용이성
- 4.
전략적 중요도
정답·해설 보기▾
정답
2번
기술 적용 수준
해설
정답: 2. 기술 적용 수준은 우선순위가 아니라 적용 범위·방식을 결정하는 고려 요소이다.
오답 풀이
- 1번: 비즈니스 성과·ROI는 우선순위 고려 요소이다.
- 2번: 기술 적용 수준은 로드맵의 적용 방식 요소이므로 옳지 않다.
- 3번: 실행 용이성은 우선순위 고려 요소이다.
- 4번: 전략적 중요도는 우선순위의 핵심 요소이다.
보충 개념 마스터플랜 수립 기준 — 우선순위 결정: 전략적 중요도, 비즈니스 성과/ROI, 실행 용이성. 적용 범위·방식: 업무 내재화 수준, 분석 데이터 적용 수준, 기술 적용 수준.
- 1.
문제 18
4지선다다음 중 분석 수준 진단을 위한 조사 대상으로 적절하지 않은 것은?
- 1.
분석 기법
- 2.
분석 데이터
- 3.
분석 문화
- 4.
분석 비즈니스 성과
정답·해설 보기▾
정답
4번
분석 비즈니스 성과
해설
정답: 4. 분석 준비도 진단의 6개 영역은 분석 업무, 인력·조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라이며 비즈니스 성과는 진단 대상이 아니다.
오답 풀이
- 1번: 분석 기법의 보유·활용 수준은 진단 영역이다.
- 2번: 분석 데이터의 충분성·신뢰성도 진단 영역이다.
- 3번: 사실 기반 의사결정 등 분석 문화도 진단 영역이다.
- 4번: 성과는 분석 수행의 결과이지 수준 진단의 조사 영역이 아니다.
보충 개념 분석 수준 진단은 준비도(6개 영역)와 성숙도(비즈니스·조직역량·IT 부문, 4단계)를 함께 평가해 사분면 유형을 도출한다.
- 1.
문제 19
4지선다다음 중 데이터 분석을 위한 조직 구성 모델에 대한 설명으로 적절하지 않은 것은?
- 1.
집중형 조직은 별도 독립적 분석 조직으로 구성되어 전사적 우선순위 관리가 용이하다.
- 2.
집중형 조직은 독립적인 조직으로 분석을 진행하기 때문에 현업 부서와 중복 업무를 수행할 가능성이 높다.
- 3.
기능 중심형 조직은 별도 독립된 분석 조직 없이 각 현업 부서에서 직접 분석하여 전사적인 분석 관리가 어렵다.
- 4.
분산 조직은 데이터 분석 조직을 현업부서에 분산 배치시켜서 새로운 분석 기법을 현업에 신속한 실무적용이 어렵다.
정답·해설 보기▾
정답
4번
분산 조직은 데이터 분석 조직을 현업부서에 분산 배치시켜서 새로운 분석 기법을 현업에 신속한 실무적용이 어렵다.
해설
정답: 4. 분산형 조직은 분석 인력이 현업 부서에 배치되어 있어 분석 결과를 신속하게 실무에 적용할 수 있다는 것이 장점이다. 신속한 적용이 어렵다는 설명은 옳지 않다.
오답 풀이
- 1번: 집중형은 전담 조직이 전사 우선순위에 따라 분석을 수행한다.
- 2번: 집중형은 현업과 분석 업무가 이원화되어 중복 가능성이 있다.
- 3번: 기능형은 부서별 자체 분석으로 전사 핵심 분석이 어렵다.
- 4번: 분산형의 장점을 단점으로 서술했으므로 옳지 않다.
보충 개념 분산형은 신속한 실무 적용이 가능하지만 부서별 분석 수준 편차와 운영 비용 증가가 단점이다.
- 1.
문제 20
4지선다다음 중 데이터 거버넌스의 특징으로 적절하지 않은 것은?
- 1.
데이터 거버넌스의 구성 요소로는 원칙, 조직, 프로세스가 포함된다.
- 2.
데이터 거버넌스의 체계 요소로는 데이터 표준화, 관리체계, 저장소 관리뿐만 아니라 데이터 운용 비용까지 포함된다.
- 3.
데이터 표준화는 표준용어 정립, 명명 규칙 수립, 데이터 사전 구축 등이 포함된다.
- 4.
거버넌스 체계 구축 후에도 표준 준수 여부 확인을 위한 주기적 점검이 필요하다.
정답·해설 보기▾
정답
2번
데이터 거버넌스의 체계 요소로는 데이터 표준화, 관리체계, 저장소 관리뿐만 아니라 데이터 운용 비용까지 포함된다.
해설
정답: 2. 데이터 거버넌스 체계는 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동으로 구성되며 데이터 운용 비용은 체계 요소가 아니다.
오답 풀이
- 1번: 원칙·조직·프로세스는 거버넌스의 3대 구성 요소이다.
- 2번: 운용 비용을 체계 요소에 포함시켰으므로 옳지 않다.
- 3번: 표준용어·명명 규칙·데이터 사전은 표준화의 내용이다.
- 4번: 구축 후 표준 준수 모니터링·점검은 표준화 활동에 해당한다.
보충 개념 데이터 거버넌스 체계: ① 데이터 표준화 ② 데이터 관리 체계 ③ 데이터 저장소 관리 ④ 표준화 활동(모니터링·개선).
- 1.
문제 21
4지선다다음 중 상자그림(Boxplot)에 대한 설명으로 적절하지 않은 것은?
- 1.
상자그림 내부의 수평선은 해당 데이터의 중앙값을 나타낸다.
- 2.
사분위수 범위(IQR)는 전체 데이터의 50%가 분포하는 구간의 길이를 나타낸다.
- 3.
IQR의 1.5배를 초과하여 벗어난 관측치는 이상치로 정의할 수 있다.
- 4.
상자그림의 폭과 길이 비교를 통해 해당 데이터의 관측치 개수를 파악할 수 있다.
정답·해설 보기▾
정답
4번
상자그림의 폭과 길이 비교를 통해 해당 데이터의 관측치 개수를 파악할 수 있다.
해설
정답: 4. 상자그림은 5수치 요약(최소·Q1·중앙값·Q3·최대)을 보여줄 뿐 관측치의 개수는 나타내지 않는다.
오답 풀이
- 1번: 상자 내부의 선은 중앙값이다.
- 2번: IQR(Q3−Q1)은 가운데 50% 데이터 구간의 길이이다.
- 3번: Q1−1.5×IQR, Q3+1.5×IQR을 벗어나면 이상치로 판정한다.
- 4번: 상자의 폭·길이는 산포를 나타낼 뿐 표본 크기와 무관하므로 옳지 않다.
보충 개념 상자그림은 분포의 중심·산포·치우침·이상치를 한눈에 보여주지만, 관측치 수나 다봉성(multimodality)은 표현하지 못한다.
- 1.
문제 22
4지선다다음 중 데이터 이상값 탐지 및 처리 방법에 대한 설명으로 적절하지 않은 것은?
- 1.
상자그림에서 사분위수 범위(IQR)의 1.5배를 기준으로 상한 및 하한 임계치를 설정하여 이상값을 식별한다.
- 2.
데이터가 정규분포를 따른다고 가정할 때, 평균으로부터 표준편차의 3배 이상 떨어진 값을 이상값으로 판단한다.
- 3.
표본 평균의 표준오차 범위를 계산하여 해당 범위를 벗어나는 값을 이상값으로 처리한다.
- 4.
이상값을 삭제하는 대신 경우에 따라 평균, 중앙값 또는 회귀 분석을 통한 예측값으로 바꾸어 데이터의 손실을 최소화할 수 있다.
정답·해설 보기▾
정답
3번
표본 평균의 표준오차 범위를 계산하여 해당 범위를 벗어나는 값을 이상값으로 처리한다.
해설
정답: 3. 표준오차는 표본 평균(추정량)의 변동성을 나타내는 지표이지 개별 관측치의 이상값 판정 기준이 아니다.
오답 풀이
- 1번: IQR의 1.5배 규칙은 대표적인 이상값 탐지 방법이다.
- 2번: 3-시그마(ESD) 규칙도 정규분포 가정 하의 이상값 탐지 방법이다.
- 3번: 표준오차는 추정량의 정밀도 개념이므로 개별 값의 이상 여부 판정에 사용하면 옳지 않다.
- 4번: 삭제 대신 대체(평균·중앙값·예측값)로 손실을 줄이는 처리도 가능하다.
보충 개념 이상값 탐지: IQR 규칙, 3-시그마(ESD), 표준화 점수(Z-score), 거리·밀도 기반 방법(LOF) 등.
- 1.
문제 23
4지선다다음 중 통계적 추론에 대한 설명으로 적절하지 않은 것은?
- 1.
구간 추정 방식으로 일정한 신뢰수준 하에서 모수가 포함될 것으로 기대되는 범위를 정하여 모수를 추정할 수 있다.
- 2.
가설검정 시 사용되는 검정통계량은 하나의 단일 통계값으로 산출하여 판단한다.
- 3.
유의수준은 제1종 오류를 범할 수 있는 허용 한계로 가설 채택 여부를 결정하는 값이다.
- 4.
p-value 값이 유의수준보다 작으면 귀무가설을 기각할 수 있다.
정답·해설 보기▾
정답
2번
가설검정 시 사용되는 검정통계량은 하나의 단일 통계값으로 산출하여 판단한다.
해설
정답: 2. 검정통계량이 표본으로부터 하나의 값으로 산출되는 것은 맞지만, 그 값 자체만으로 기각 여부를 판단하는 것이 아니라 귀무가설 하의 분포(기각역·p-value)와 비교하여 판단한다.
오답 풀이
- 1번: 구간 추정은 신뢰수준 하에서 모수가 포함될 범위를 제시한다.
- 2번: 검정통계량 값 하나만으로 판단한다는 서술은 분포와의 비교 과정을 누락했으므로 옳지 않다.
- 3번: 유의수준은 제1종 오류의 허용 한계로 기각 기준이 된다.
- 4번: p-value < 유의수준이면 귀무가설을 기각한다.
보충 개념 가설검정 절차: 가설 설정 → 유의수준 결정 → 검정통계량 계산 → 분포 기반 p-value(또는 기각역)와 비교 → 결론.
- 1.
문제 24
4지선다다음 중 회귀분석 모형 적합성을 판단하는 설명으로 적절하지 않은 것은?
- 1.
회귀모형의 적합성을 판단하기 위해 잔차 산점도를 확인하며, 잔차가 특정 패턴 없이 무작위로 분포해야 모형의 가정이 충족된 것으로 본다.
- 2.
다중회귀분석에서는 독립변수의 수가 늘어나면 결정계수가 무의미하게 높아지는 단점을 보완하기 위해 수정된 결정계수를 평가지표로 활용하기도 한다.
- 3.
회귀계수의 유의성은 t-검정으로 판단 가능하며, 해당 독립변수가 종속변수를 설명하는 데 유의미한지 확인 가능하다.
- 4.
설명변수 간 상관계수를 확인하면 해당 회귀분석 모형의 적합성을 판단할 수 있다.
정답·해설 보기▾
정답
4번
설명변수 간 상관계수를 확인하면 해당 회귀분석 모형의 적합성을 판단할 수 있다.
해설
정답: 4. 설명변수 간 상관계수는 다중공선성 진단에 활용될 뿐, 모형이 데이터를 얼마나 잘 설명하는지(적합성)를 판단하는 지표가 아니다.
오답 풀이
- 1번: 잔차의 무작위 분포는 등분산성·선형성 가정 충족의 근거이다.
- 2번: 수정된 결정계수는 변수 수 증가에 따른 R² 과대평가를 보정한다.
- 3번: 개별 회귀계수의 유의성은 t-검정으로 판단한다.
- 4번: 변수 간 상관 확인은 공선성 점검이지 적합성 판단이 아니므로 옳지 않다.
보충 개념 모형 적합성 판단: 결정계수·수정 결정계수, F-검정(모형 전체 유의성), t-검정(개별 계수), 잔차 진단(정규성·등분산성·독립성).
- 1.
문제 25
4지선다다음 중 절대 영점이 존재하지 않아 덧셈, 뺄셈 등의 양적 비교는 가능한 척도는?
- 1.
명목척도
- 2.
구간척도
- 3.
비율척도
- 4.
서열척도
정답·해설 보기▾
정답
2번
구간척도
해설
정답: 2. 구간(등간)척도는 간격이 일정하여 덧셈·뺄셈 비교가 가능하지만 절대 영점이 없어 비율 비교는 불가능하다(예: 섭씨온도).
오답 풀이
- 1번: 명목척도는 분류만 가능하다.
- 2번: 절대 영점 없이 간격 비교가 가능한 척도로 옳다.
- 3번: 비율척도는 절대 영점이 존재한다.
- 4번: 서열척도는 순위만 비교 가능하고 간격 연산은 불가하다.
보충 개념 섭씨 0도는 ‘온도가 없음’이 아니므로 구간척도이며, 20℃가 10℃의 두 배로 덥다고 말할 수 없다.
- 1.
문제 26
4지선다다음 중 가설검정에 대한 설명으로 적절하지 않은 것은?
- 1.
p-value가 미리 설정한 유의수준보다 작으면 귀무가설을 기각하고 대립가설을 채택한다.
- 2.
귀무가설이 참이라는 가정하에 검정통계량의 값이 나타날 가능성이 작을수록 귀무가설을 채택한다.
- 3.
제2종 오류는 대립가설이 실제로 참임에도 불구하고, 귀무가설을 기각하지 못하고 채택하는 오류를 의미한다.
- 4.
검정력은 대립가설이 참일 때 이를 올바르게 판정하여 귀무가설을 기각할 확률로, 1 − β로 계산한다.
정답·해설 보기▾
정답
2번
귀무가설이 참이라는 가정하에 검정통계량의 값이 나타날 가능성이 작을수록 귀무가설을 채택한다.
해설
정답: 2. 귀무가설 하에서 관측된 검정통계량이 나타날 가능성이 작다는 것은 귀무가설과 데이터가 모순된다는 의미이므로 귀무가설을 기각해야 한다. 채택한다는 설명은 반대이다.
오답 풀이
- 1번: p-value < 유의수준이면 귀무가설 기각이 옳은 절차이다.
- 2번: 가능성이 작을수록 기각의 근거가 강해지므로 옳지 않다.
- 3번: 제2종 오류(β)의 정의로 옳다.
- 4번: 검정력 = 1 − β의 정의로 옳다.
보충 개념 p-value는 귀무가설 하에서 관측 결과 이상으로 극단적인 값이 나올 확률이며, 작을수록 귀무가설에 불리한 증거이다.
- 1.
문제 27
4지선다다음 중 교차분석에 대한 설명으로 적절하지 않은 것은?
- 1.
통상적으로 관측 빈도와 기대 빈도의 차이를 측정하는 카이제곱 통계량을 사용한다.
- 2.
독립성 검정은 두 범주형 변수 간에 서로 관련이 있는지, 아니면 통계적으로 서로 독립적인지 판단하기 위해 수행된다.
- 3.
동질성 검정은 서로 다른 관찰 집단 간에 해당 변수의 분포가 동일한지를 확인하기 위해 수행된다.
- 4.
교차분석은 두 변수가 연속형 변수인 경우에도 분석이 가능하다.
정답·해설 보기▾
정답
4번
교차분석은 두 변수가 연속형 변수인 경우에도 분석이 가능하다.
해설
정답: 4. 교차분석(카이제곱 검정)은 범주형 변수를 대상으로 하는 분석이다. 연속형 변수는 범주화하지 않는 한 교차분석을 적용할 수 없다.
오답 풀이
- 1번: 관측 빈도와 기대 빈도의 차이를 카이제곱 통계량으로 측정한다.
- 2번: 독립성 검정의 정의로 옳다.
- 3번: 동질성 검정의 정의로 옳다.
- 4번: 연속형 변수에는 상관·회귀 분석이 적합하므로 옳지 않다.
보충 개념 카이제곱 검정의 세 유형: 적합도 검정(한 변수의 분포), 독립성 검정(두 변수의 관련성), 동질성 검정(집단 간 분포 비교).
- 1.
문제 28
4지선다변수 X와 Y의 상관계수가 0.5일 때, 다음 중 옳은 설명은?
- 1.
(X+0.3)과 Y의 상관계수는 0.8이다.
- 2.
(2X)와 Y의 상관계수는 1이다.
- 3.
(X+0.3)과 (Y+0.2)의 상관계수는 0.5이다.
- 4.
(-X)와 (-2Y)의 상관계수는 1이다.
정답·해설 보기▾
정답
3번
(X+0.3)과 (Y+0.2)의 상관계수는 0.5이다.
해설
정답: 3. 상관계수는 위치 이동(상수 덧셈)과 양수 배율에 불변이므로 (X+0.3)과 (Y+0.2)의 상관계수는 그대로 0.5이다.
오답 풀이
- 1번: 상수를 더해도 상관계수는 변하지 않으므로 0.5이다.
- 2번: 양수를 곱해도 상관계수는 변하지 않으므로 0.5이다.
- 3번: 선형변환 불변성에 따라 옳다.
- 4번: 음수를 양쪽 모두에 곱하면 부호가 두 번 바뀌어 상관계수는 0.5로 유지되며, 1이 되지 않는다.
보충 개념 Corr(aX+b, cY+d) = sign(ac)×Corr(X, Y). 한쪽에만 음수를 곱하면 부호가 반대(−0.5)가 되고, 양쪽 모두 음수면 원래 부호(0.5)가 유지된다.
- 1.
문제 29
4지선다회귀분석에 따른 잔차도가 아래 그림과 같을 때, 해당 분석의 해석으로 옳은 것은?
- 1.
잔차가 0을 중심으로 고르게 분포하므로 회귀모형이 적합하다.
- 2.
릿지, 라쏘 모델을 사용하여 해당 분석 결과의 과적합 문제를 해결해야 한다.
- 3.
독립변수와 종속변수 간 비선형성이 확인되어 비선형 모델을 적용해야 한다.
- 4.
해당 잔차도 그래프는 변수에 이상치(outlier)가 많아서 발생한 패턴이다.
정답·해설 보기▾
정답
3번
독립변수와 종속변수 간 비선형성이 확인되어 비선형 모델을 적용해야 한다.
해설
정답: 3. 잔차가 U자형 곡선 패턴을 보이는 것은 선형모형이 포착하지 못한 비선형(곡선) 관계가 남아 있다는 신호이므로, 변수 변환이나 비선형 모형의 적용을 고려해야 한다.
오답 풀이
- 1번: 잔차에 뚜렷한 곡선 패턴이 있으므로 무작위 분포가 아니다.
- 2번: 릿지·라쏘는 과적합·다중공선성 대응 기법이지 비선형성 문제의 해법이 아니다.
- 3번: U자형 잔차 패턴의 표준적 해석으로 옳다.
- 4번: 체계적인 곡선 패턴은 이상치가 아니라 모형의 함수 형태가 잘못되었음을 의미한다.
보충 개념 잔차 진단 — 곡선 패턴: 비선형성(다항항·변환 추가), 깔때기 패턴: 이분산성(가중회귀·변환), 시점에 따른 패턴: 자기상관(시계열 모형).
- 1.
문제 30
4지선다다음 중 통계적 추론에 대한 설명으로 적절하지 않은 것은?
- 1.
통계적 추론은 표본 통계량을 토대로 모집단의 모수를 추측하는 과정이다.
- 2.
신뢰수준은 주어진 신뢰구간에 모수가 포함될 확률이다.
- 3.
표본의 크기가 일정할 때, 신뢰수준을 높이면 신뢰구간의 길이는 더 길어진다.
- 4.
신뢰수준이 일정할 때, 표본의 크기가 커질수록 신뢰구간의 길이는 더 좁아진다.
정답·해설 보기▾
정답
2번
신뢰수준은 주어진 신뢰구간에 모수가 포함될 확률이다.
해설
정답: 2. 모수는 미지의 고정된 값이므로 특정한 하나의 신뢰구간에 모수가 포함될 확률을 말하는 것은 부적절하다. 신뢰수준은 동일한 방법으로 구간을 반복 추정했을 때 그 구간들이 모수를 포함하는 비율을 의미한다.
오답 풀이
- 1번: 표본 통계량으로 모수를 추측하는 것이 통계적 추론의 정의이다.
- 2번: ‘주어진(특정) 구간에 포함될 확률’이라는 해석은 빈도주의 신뢰구간의 의미와 다르므로 옳지 않다.
- 3번: 신뢰수준을 높이면 임계값이 커져 구간이 길어진다.
- 4번: 표본이 커지면 표준오차가 줄어 구간이 좁아진다.
보충 개념 95% 신뢰구간의 올바른 해석: 같은 방식으로 100번 구간을 만들면 그중 약 95개의 구간이 참 모수를 포함한다.
- 1.
문제 31
4지선다다음은 수면유도제 A와 B를 동일한 환자 10명에게 투여하여 수면시간 증가량을 비교한 대응표본 t-검정 결과이다. 해석으로 옳지 않은 것은?
- 1.
동일한 대상에게 두 처리를 적용했으므로 대응표본 t-검정이 적절하다.
- 2.
유의수준 0.05에서 두 수면유도제의 효과 차이는 통계적으로 유의하다.
- 3.
A 약물의 평균 수면시간 증가량이 B 약물보다 1.58시간 길다.
- 4.
평균 차이의 95% 신뢰구간은 0을 포함하지 않는다.
정답·해설 보기▾
정답
3번
A 약물의 평균 수면시간 증가량이 B 약물보다 1.58시간 길다.
해설
정답: 3. 평균 차이(A − B)가 −1.58로 음수이므로 A의 평균 수면시간 증가량이 B보다 1.58시간 짧다. 길다는 해석은 부호를 반대로 읽은 것이다.
오답 풀이
- 1번: 동일 환자에게 두 약물을 투여한 짝지어진 자료이므로 대응표본 t-검정이 적절하다.
- 2번: p-value 0.0028 < 0.05이므로 효과 차이는 유의하다.
- 3번: 차이의 부호 해석이 반대이므로 옳지 않다.
- 4번: 신뢰구간 (−2.46, −0.70)은 0을 포함하지 않아 기각 결론과 일치한다.
보충 개념 대응표본 t-검정은 쌍별 차이 d = x_A − x_B의 평균이 0인지 검정하며, 개인 간 변동을 제거해 독립표본 검정보다 검정력이 높다.
- 1.
문제 32
4지선다주성분 분석에 대한 설명으로 적절하지 않은 것은?
- 1.
주성분 분석을 통해 차원을 축소시켜 다중공선성 문제를 해결할 수 있다.
- 2.
제1주성분에서 제2주성분으로 숫자가 커질수록 각 주성분이 설명하는 분산의 크기도 지속 증가한다.
- 3.
제1주성분은 전체 데이터의 변동을 가장 많이 설명하는 축이다.
- 4.
일반적으로 고유값이 1 이상인 주성분만을 선택하거나, 누적 기여율이 70~90% 이상이 되는 지점까지의 주성분을 사용한다.
정답·해설 보기▾
정답
2번
제1주성분에서 제2주성분으로 숫자가 커질수록 각 주성분이 설명하는 분산의 크기도 지속 증가한다.
해설
정답: 2. 주성분은 설명하는 분산이 큰 순서대로 정의되므로, 주성분 번호가 커질수록 설명하는 분산은 감소한다.
오답 풀이
- 1번: 서로 직교(무상관)하는 주성분으로 변환하므로 다중공선성 해소에 활용된다.
- 2번: 분산 설명량은 PC1 ≥ PC2 ≥ … 순으로 감소하므로 옳지 않다.
- 3번: 제1주성분은 분산을 최대로 설명하는 방향이다.
- 4번: 고유값 1 기준(Kaiser)과 누적 기여율 70~90% 기준은 일반적인 선택 규칙이다.
보충 개념 주성분은 공분산(상관)행렬의 고유벡터 방향이며, 각 주성분의 고유값이 해당 축이 설명하는 분산의 크기이다.
- 1.
문제 33
4지선다다음은 프로야구 선수의 연봉(단위: 백만 원)을 종속변수로 한 다중회귀분석 결과이다. 해석으로 옳지 않은 것은?
- 1.
타율과 홈런은 유의수준 0.05에서 연봉에 유의한 영향을 준다.
- 2.
다른 변수가 일정할 때 홈런이 1개 증가하면 연봉은 평균적으로 약 894만 원 증가한다.
- 3.
경력은 유의수준 0.05에서 통계적으로 유의하지 않다.
- 4.
결정계수가 0.563이므로 이 모형은 연봉 변동의 약 75%를 설명한다.
정답·해설 보기▾
정답
4번
결정계수가 0.563이므로 이 모형은 연봉 변동의 약 75%를 설명한다.
해설
정답: 4. 결정계수 0.563은 모형이 연봉 총 변동의 약 56.3%를 설명한다는 의미이다. 75%는 결정계수의 제곱근(상관계수 수준)을 혼동한 잘못된 해석이다.
오답 풀이
- 1번: 타율(p=4.8e-05)과 홈런(p=4.1e-06) 모두 0.05보다 작아 유의하다.
- 2번: 홈런 계수 8.94(백만 원) = 894만 원의 평균 증가로 옳다.
- 3번: 경력의 p-value 0.2052 > 0.05이므로 유의하지 않다.
- 4번: R² 값 자체가 설명 비율이므로 옳지 않다.
보충 개념 R²는 모형이 설명하는 변동의 비율이며, 다중회귀에서는 변수 수를 보정한 수정 결정계수(Adjusted R²)를 함께 확인한다.
- 1.
문제 34
4지선다로지스틱 회귀분석에 대한 설명으로 적절하지 않은 것은?
- 1.
로지스틱 회귀모형의 연결함수로는 시그모이드 함수를 사용한다.
- 2.
합격/불합격과 같은 이진 분류 문제를 해결하는 데 적합한 회귀분석이다.
- 3.
오즈(Odds)는 범주 A에 속할 확률을 범주 B에 속할 확률로 나눈 값이다.
- 4.
종속변수인 로짓(Logit)과 독립변수는 서로 선형적 관계를 가진다.
정답·해설 보기▾
정답
1번
로지스틱 회귀모형의 연결함수로는 시그모이드 함수를 사용한다.
해설
정답: 1. 로지스틱 회귀의 연결함수(link function)는 로짓 함수 log(p/(1−p))이다. 시그모이드는 로짓의 역함수로 확률을 계산할 때 사용되는 함수이며 연결함수가 아니다.
오답 풀이
- 1번: 연결함수는 로짓이므로 옳지 않다.
- 2번: 이진(0/1) 종속변수의 분류에 적합한 모형이다.
- 3번: 오즈는 성공 확률을 실패 확률로 나눈 값 p/(1−p)이다.
- 4번: 로짓과 독립변수들은 선형 관계 log(p/(1−p)) = β₀ + β₁x₁ + … 를 가진다.
보충 개념 일반화선형모형(GLM)에서 연결함수는 종속변수의 기대값을 선형 예측식과 연결하며, 로지스틱 회귀는 로짓 연결함수를 사용하는 GLM이다.
- 1.
문제 35
4지선다두 숫자형 변수 간의 선형 관계에 대한 설명으로 적절하지 않은 것은?
- 1.
상관계수는 -1 이상, 1 이하의 값을 가지며, 1이나 -1에 가까울수록 두 변수 간의 선형 관계가 강함을 의미한다.
- 2.
0에 가까운 상관계수는 두 변수 사이에 선형적인 관계가 거의 없음을 의미한다.
- 3.
높은 상관계수가 두 변수 간의 인과관계를 보장하지는 않는다.
- 4.
상관계수의 부호가 음수라면 두 변수는 서로 반비례 관계로 볼 수 있다.
정답·해설 보기▾
정답
4번
상관계수의 부호가 음수라면 두 변수는 서로 반비례 관계로 볼 수 있다.
해설
정답: 4. 음의 상관은 한 변수가 증가할 때 다른 변수가 감소하는 경향을 의미할 뿐, 수학적 반비례 관계(y = k/x)를 의미하지 않는다.
오답 풀이
- 1번: 상관계수의 범위와 강도 해석으로 옳다.
- 2번: 0 근처의 상관계수는 선형 관계가 약함을 의미한다(비선형 관계는 있을 수 있음).
- 3번: 상관관계는 인과관계를 보장하지 않는다(제3변수·우연 가능성).
- 4번: 음의 선형 관계와 반비례는 다른 개념이므로 옳지 않다.
보충 개념 반비례(y = k/x)는 곡선 관계로, 피어슨 상관계수가 −1이 되지 않는다. 음의 상관은 ‘감소하는 직선 경향’을 의미한다.
- 1.
문제 36
4지선다다음 중 분해시계열의 주요 요인(Decomposition Factors)으로 적절하지 않은 것은?
- 1.
추세요인
- 2.
규칙요인
- 3.
계절요인
- 4.
순환요인
정답·해설 보기▾
정답
2번
규칙요인
해설
정답: 2. 분해시계열의 4대 구성 요인은 추세요인, 계절요인, 순환요인, 불규칙요인이다. ‘규칙요인’은 존재하지 않는다.
오답 풀이
- 1번: 장기적 증가·감소 경향인 추세요인은 구성 요인이다.
- 2번: 규칙요인이라는 요인은 없으며, 설명되지 않는 변동은 불규칙요인이라 한다.
- 3번: 일정 주기(계절)로 반복되는 계절요인은 구성 요인이다.
- 4번: 경기 변동처럼 알려지지 않은 주기로 반복되는 순환요인도 구성 요인이다.
보충 개념 시계열 분해: 추세(T), 계절(S), 순환(C), 불규칙(I) — 가법모형 Y = T+S+C+I, 승법모형 Y = T×S×C×I.
- 1.
문제 37
4지선다다음은 사료(Diet) 종류에 따른 병아리 체중(weight) 차이를 검정한 일원배치 분산분석(ANOVA) 결과이다. 해석으로 옳지 않은 것은?
- 1.
귀무가설은 ‘네 가지 사료 집단의 평균 체중이 모두 같다’이다.
- 2.
유의수준 0.05에서 사료 종류에 따른 평균 체중 차이가 존재한다고 할 수 있다.
- 3.
분산분석 결과만으로 어떤 사료 집단 간에 차이가 있는지까지 알 수 있다.
- 4.
집단 간 차이를 구체적으로 확인하려면 사후검정이 필요하다.
정답·해설 보기▾
정답
3번
분산분석 결과만으로 어떤 사료 집단 간에 차이가 있는지까지 알 수 있다.
해설
정답: 3. 분산분석은 ‘적어도 한 집단의 평균이 다르다’는 것만 알려줄 뿐, 구체적으로 어느 집단 간에 차이가 있는지는 알려주지 않는다.
오답 풀이
- 1번: 일원배치 ANOVA의 귀무가설은 모든 집단 평균이 같다는 것이다(Diet의 자유도 3 → 집단 4개).
- 2번: p-value 6.43e-07 < 0.05이므로 평균 차이가 유의하다.
- 3번: 어느 쌍이 다른지는 ANOVA 자체로 알 수 없으므로 옳지 않다.
- 4번: Tukey HSD 등 사후검정(다중비교)으로 차이 나는 집단 쌍을 확인한다.
보충 개념 ANOVA의 F통계량 = 집단 간 평균제곱(MSB)/집단 내 평균제곱(MSW)이며, 기각 후에는 사후검정으로 쌍별 비교를 수행한다.
- 1.
문제 38
4지선다다음 중 비정상 시계열 데이터를 정상 시계열로 변환하기 위해 사용되는 방법으로 적절한 것은?
- 1.
지수평활법
- 2.
선형 회귀 분석
- 3.
차분
- 4.
결측치 처리
정답·해설 보기▾
정답
3번
차분
해설
정답: 3. 차분(differencing)은 인접 관측값의 차이를 취해 평균이 일정하지 않은 비정상 시계열을 정상 시계열로 변환하는 대표적인 방법이다.
오답 풀이
- 1번: 지수평활법은 평활·예측 기법이지 정상화 방법이 아니다.
- 2번: 선형 회귀는 변수 간 관계 모형화 기법이다.
- 3번: 1차·2차 차분으로 추세를 제거해 정상성을 확보한다.
- 4번: 결측치 처리는 데이터 품질 관리 활동이다.
보충 개념 평균이 일정하지 않으면 차분, 분산이 일정하지 않으면 변환(로그·제곱근)을 적용한다. ARIMA의 d가 차분 차수이다.
- 1.
문제 39
4지선다다음 중 데이터 분할 방식에 대한 설명으로 적절하지 않은 것은?
- 1.
훈련용 데이터는 모델이 데이터 패턴을 학습하고 가중치를 조정하는 데 사용된다.
- 2.
검증용 데이터는 모델의 과대 및 과소 적합 조정 시 사용된다.
- 3.
검증용 데이터는 해당 모델의 최종 성능을 평가 시 활용된다.
- 4.
평가용 데이터는 모델의 객관적인 성능 측정을 위해 학습에 활용되지 않은 데이터이다.
정답·해설 보기▾
정답
3번
검증용 데이터는 해당 모델의 최종 성능을 평가 시 활용된다.
해설
정답: 3. 모델의 최종 성능 평가는 학습·튜닝에 사용되지 않은 평가용(test) 데이터로 수행한다. 검증용(validation) 데이터는 하이퍼파라미터 튜닝·모형 선택에 사용된다.
오답 풀이
- 1번: 훈련 데이터는 가중치 학습에 사용된다.
- 2번: 검증 데이터는 과대·과소적합 점검과 튜닝에 사용된다.
- 3번: 최종 평가는 평가용 데이터의 역할이므로 옳지 않다.
- 4번: 평가 데이터는 학습 과정에 전혀 사용되지 않아야 객관적 평가가 가능하다.
보충 개념 일반적 분할: 훈련(train) 50~60%, 검증(validation) 20~25%, 평가(test) 20~25%. 데이터가 적으면 교차검증(k-fold)을 활용한다.
- 1.
문제 40
4지선다아래 보기에서 데이터 마이닝 추진 단계를 순서대로 나열한 것은?
가. 데이터 준비 나. 목적 정의 다. 기법 적용 라. 데이터 가공 마. 검증
- 1.
가 → 나 → 라 → 다 → 마
- 2.
나 → 가 → 다 → 라 → 마
- 3.
나 → 가 → 라 → 다 → 마
- 4.
나 → 다 → 가 → 라 → 마
정답·해설 보기▾
정답
3번
나 → 가 → 라 → 다 → 마
해설
정답: 3. 데이터 마이닝은 목적 정의(나) → 데이터 준비(가) → 데이터 가공(라) → 기법 적용(다) → 검증(마)의 순서로 추진한다.
오답 풀이
- 1번: 목적 정의가 첫 단계여야 한다.
- 2번: 기법 적용은 데이터 가공 이후에 수행한다.
- 4번: 데이터 준비·가공 없이 기법을 먼저 적용할 수 없다.
보충 개념 목적 정의 단계에서 분석 목표와 기대 효과를 명확히 하고, 가공 단계에서 모델링 가능한 형태(분석 변수 정의 등)로 데이터를 변환한다.
- 1.
문제 41
4지선다다음 중 의사결정나무 모델에 대한 설명으로 적절하지 않은 것은?
- 1.
데이터 분류 기준으로는 지니 지수 및 엔트로피, 카이제곱 통계량이 활용된다.
- 2.
연속형 변수인 경우, 의사결정나무 모형은 학습 데이터에 대해 항상 예측 정확도 100%의 모델 구현이 가능하다.
- 3.
하위 노드로 내려갈수록 데이터 불순도는 점차 감소한다.
- 4.
불필요한 분기를 제거하는 가지치기를 통해 모델의 일반화 성능을 향상시킬 수 있다.
정답·해설 보기▾
정답
2번
연속형 변수인 경우, 의사결정나무 모형은 학습 데이터에 대해 항상 예측 정확도 100%의 모델 구현이 가능하다.
해설
정답: 2. 동일한 입력값에 서로 다른 목표값이 존재하는 등 데이터에 노이즈가 있으면 학습 데이터에서도 100% 정확도는 불가능하며, 100%에 가깝게 만들더라도 그것은 과적합일 뿐 ‘항상 가능’한 것이 아니다.
오답 풀이
- 1번: 지니·엔트로피·카이제곱은 분류나무의 분리 기준이다.
- 2번: ‘항상 100% 가능’이라는 단정이 옳지 않다.
- 3번: 분리를 거듭할수록 각 노드의 순도가 높아져 불순도는 감소한다.
- 4번: 가지치기는 과적합을 줄여 일반화 성능을 높인다.
보충 개념 의사결정나무는 정지 규칙(최소 관측치 수·최대 깊이)과 가지치기(비용-복잡도)를 통해 과적합을 통제한다.
- 1.
문제 42
4지선다다음 중 인공신경망 모형에서 입력층에서 전달된 신호의 합을 출력값으로 변환하여 다음 층으로 전달하는 함수는?
- 1.
연결 함수
- 2.
활성화 함수
- 3.
출력 함수
- 4.
가중치 함수
정답·해설 보기▾
정답
2번
활성화 함수
해설
정답: 2. 활성화 함수는 노드에 들어온 입력 신호의 가중합을 출력 신호로 변환하여 다음 층으로 전달하는 함수이다.
오답 풀이
- 1번: 연결 함수는 일반화선형모형(GLM)의 용어이다.
- 2번: 시그모이드·ReLU·tanh 등이 활성화 함수에 해당한다.
- 3·4번: 인공신경망의 표준 구성 요소 명칭이 아니다.
보충 개념 각 노드는 z = Σwᵢxᵢ + b(가중합) 계산 후 활성화 함수 f(z)를 적용해 출력하며, 비선형 활성화 함수가 신경망의 비선형 표현력을 만든다.
- 1.
문제 43
4지선다다음 중 변수 간 상관관계를 고려하여 통계적 거리를 측정하는 방법은?
- 1.
유클리드 거리
- 2.
맨해튼 거리
- 3.
체비셰프 거리
- 4.
마할라노비스 거리
정답·해설 보기▾
정답
4번
마할라노비스 거리
해설
정답: 4. 마할라노비스 거리는 공분산 행렬을 반영하여 변수 간 상관관계와 산포를 고려한 통계적 거리이다.
오답 풀이
- 1번: 유클리드 거리는 직선 거리로 변수 간 상관을 고려하지 않는다.
- 2번: 맨해튼 거리는 좌표축 방향 이동 거리의 합이다.
- 3번: 체비셰프 거리는 좌표 차이의 최대값이다.
- 4번: d(x, y) = √((x−y)ᵀ S⁻¹ (x−y))로 공분산을 반영하므로 옳다.
보충 개념 마할라노비스 거리는 변수의 단위·산포에 영향을 받지 않아 다변량 이상치 탐지에도 활용된다.
- 1.
문제 44
4지선다다음 중 아래 설명이 나타내는 모델 성능 평가 지표는?
정밀도(Precision)와 재현율(Recall)의 조화평균으로 계산되며, 특히 데이터가 불균형한 상황에서 모델의 성능을 객관적으로 평가할 수 있다.
- 1.
특이도(Specificity)
- 2.
정확도(Accuracy)
- 3.
F1-score
- 4.
FP rate
정답·해설 보기▾
정답
3번
F1-score
해설
정답: 3. F1-score는 정밀도와 재현율의 조화평균 2×(Precision×Recall)/(Precision+Recall)으로, 클래스 불균형 상황에서 정확도보다 신뢰할 수 있는 지표이다.
오답 풀이
- 1번: 특이도는 실제 음성 중 음성으로 예측한 비율이다.
- 2번: 정확도는 불균형 데이터에서 다수 클래스에 치우쳐 왜곡될 수 있다.
- 3번: 설명과 일치하는 지표이다.
- 4번: FP rate는 실제 음성 중 양성으로 잘못 예측한 비율이다.
보충 개념 조화평균은 두 값 중 작은 값에 민감하므로, F1이 높으려면 정밀도와 재현율이 모두 높아야 한다.
- 1.
문제 45
4지선다연관규칙 분석에서 지지도(Support) 계산방식으로 옳은 것은?
- 1.
A를 포함하는 거래 중 A와 B가 동시에 거래되는 비율
- 2.
전체 거래 중 A와 B가 동시에 포함된 거래 비율
- 3.
A가 구매되지 않았을 때 B의 구매확률
- 4.
A가 구매되지 않았을 때 B의 구매확률에 비해, A가 구매되었을 때 B의 구매확률이 증가한 비율
정답·해설 보기▾
정답
2번
전체 거래 중 A와 B가 동시에 포함된 거래 비율
해설
정답: 2. 지지도는 전체 거래 중 A와 B가 동시에 포함된 거래의 비율 P(A∩B)이다.
오답 풀이
- 1번: A 포함 거래 중 동시 거래 비율은 신뢰도 P(B|A)의 정의이다.
- 2번: 지지도의 정의로 옳다.
- 3번: 지지도·신뢰도·향상도 어느 것의 정의도 아니다.
- 4번: 향상도와 유사한 비교 개념의 서술이다.
보충 개념 연관규칙 평가지표 — 지지도: P(A∩B), 신뢰도: P(B|A), 향상도: P(B|A)/P(B).
- 1.
문제 46
4지선다‘이름’과 ‘성별’로 구성된 고객 데이터에서 이름 변수와 성별 변수가 독립적으로 각각 10%의 결측값을 가지고 있다. 이때 이름 또는 성별 중 하나라도 결측값이 존재하는 고객 데이터를 모두 삭제 시 전체 데이터 중 삭제되는 데이터의 비중은?
- 1.
10%
- 2.
15%
- 3.
19%
- 4.
23%
정답·해설 보기▾
정답
3번
19%
해설
정답: 3. 두 변수가 독립이므로 둘 다 결측이 아닐 확률은 0.9 × 0.9 = 0.81이다. 따라서 하나라도 결측인 비율은 1 − 0.81 = 0.19, 즉 19%이다.
오답 풀이
- 1번: 10%는 한 변수의 결측률만 고려한 값이다.
- 2번: 15%는 근거 없는 중간값이다.
- 4번: 23%는 올바른 산식에서 도출되지 않는 값이다. 단순 합산 20%(10%+10%)에서 중복(둘 다 결측 1%)을 빼면 19%가 된다.
보충 개념 P(A∪B) = P(A) + P(B) − P(A∩B) = 0.1 + 0.1 − 0.01 = 0.19. 독립일 때 P(A∩B) = P(A)×P(B)이다.
- 1.
문제 47
4지선다두 군집이 합쳐졌을 때 군집 내 오차 제곱합(SSE)이 가장 적게 증가하는 방향으로 병합되는 군집분석 연결법은?
- 1.
중심 연결법
- 2.
완전 연결법
- 3.
와드 연결법
- 4.
평균 연결법
정답·해설 보기▾
정답
3번
와드 연결법
해설
정답: 3. 와드 연결법은 병합 시 군집 내 오차 제곱합(SSE)의 증가량이 최소가 되는 두 군집을 합치는 방법이다.
오답 풀이
- 1번: 중심 연결법은 두 군집 중심 간 거리를 기준으로 한다.
- 2번: 완전(최장) 연결법은 가장 먼 개체 쌍의 거리를 기준으로 한다.
- 3번: SSE 증가 최소화 기준이므로 옳다.
- 4번: 평균 연결법은 모든 개체 쌍 거리의 평균을 기준으로 한다.
보충 개념 와드법은 정보 손실(분산 증가)을 최소화하므로 군집 내 동질성이 높은 비슷한 크기의 군집을 만드는 경향이 있다.
- 1.
문제 48
4지선다다음 중 데이터 마이닝 기법에 대한 설명으로 적절하지 않은 것은?
- 1.
반응변수가 주어지지 않은 상태에서 데이터 자체의 결합이나 유사성을 토대로 숨겨진 구조를 찾아내는 기법으로 k-means 군집분석이 활용될 수 있다.
- 2.
의사결정나무는 결과에 대한 이유를 설명하기 어렵기 때문에 화이트박스 모형으로 분류된다.
- 3.
인공신경망(ANN)은 입력층, 은닉층, 출력층으로 구성되며 복잡한 비선형 관계를 파악하는 데 유용하다.
- 4.
연관 규칙 분석은 항목 간의 ‘만약 ~하면, ~하다’라는 형태의 관계를 발견하는 기법으로 장바구니 분석이라고도 한다.
정답·해설 보기▾
정답
2번
의사결정나무는 결과에 대한 이유를 설명하기 어렵기 때문에 화이트박스 모형으로 분류된다.
해설
정답: 2. 의사결정나무는 분리 규칙을 그대로 따라가며 결과를 설명할 수 있는 대표적인 화이트박스 모형이다. ‘설명하기 어렵기 때문에’라는 서술이 모순이다.
오답 풀이
- 1번: k-means는 레이블 없이 유사성으로 군집을 찾는 비지도 기법이다.
- 2번: 화이트박스인 이유는 해석이 쉽기 때문이므로 서술이 옳지 않다.
- 3번: ANN의 구조와 비선형 학습 능력에 대한 옳은 설명이다(대신 해석이 어려운 블랙박스 모형).
- 4번: 연관 규칙의 If-Then 형태와 장바구니 분석 명칭은 옳다.
보충 개념 해석 가능성 비교 — 화이트박스: 의사결정나무·회귀분석, 블랙박스: 인공신경망·앙상블(부분적).
- 1.
문제 49
4지선다아래 품목별 거래 건수 테이블에서 연관규칙 A → B의 신뢰도는?
품목 구매건수 품목 구매건수 A 100 A, D 50 B 50 A, B, C 200 C 150 A, B, C, D 100 A, C 150 B, C, D 100 - 1.
40%
- 2.
50%
- 3.
60%
- 4.
65%
정답·해설 보기▾
정답
2번
50%
해설
정답: 2. A를 포함한 거래 = 100 + 150 + 50 + 200 + 100 = 600건, A와 B를 동시에 포함한 거래 = 200 + 100 = 300건이다. 신뢰도(A→B) = 300/600 = 50%이다.
오답 풀이
- 1번: 40%는 분모를 잘못 집계한 값이다.
- 3번: 60%는 A 단독 거래(100)를 분모에서 누락한 계산이다.
- 4번: 65%는 잘못된 조합의 계산이다.
보충 개념 신뢰도(A→B) = P(A∩B)/P(A) = (A·B 동시 포함 거래 수)/(A 포함 거래 수). 품목 집합에 A가 들어간 모든 행을 빠짐없이 집계하는 것이 핵심이다.
- 1.
문제 50
4지선다다음 중 향상도(Lift)에 대한 설명으로 적절한 것은?
- 1.
향상도는 ‘A와 B가 각각 독립적으로 일어날 확률의 곱’을 ‘A와 B가 동시에 일어날 확률’로 나누어 계산된다.
- 2.
향상도가 1보다 크면 해당 규칙은 양의 상관성을 가진다.
- 3.
향상도가 0일 때, 두 거래 품목 간에는 상관성이 없다.
- 4.
향상도가 0보다 작을 때, 음의 상관성을 가진다.
정답·해설 보기▾
정답
2번
향상도가 1보다 크면 해당 규칙은 양의 상관성을 가진다.
해설
정답: 2. 향상도가 1보다 크면 A 구매가 B 구매 확률을 높이는 양(+)의 연관성이 있음을 의미한다.
오답 풀이
- 1번: 향상도 = P(A∩B)/(P(A)×P(B))로, 분자와 분모가 반대로 서술되었다.
- 2번: Lift > 1의 해석으로 옳다.
- 3번: 상관성이 없는(독립) 기준은 0이 아니라 1이다.
- 4번: 향상도는 확률의 비율이므로 음수가 될 수 없으며, 1보다 작을 때 음의 연관성을 가진다.
보충 개념 Lift = 신뢰도/P(B) = P(A∩B)/(P(A)P(B)) — 1이면 독립, 1보다 크면 양의 연관, 1보다 작으면(0~1) 음의 연관.
- 1.