📝 기출문제 전체 보기
데이터분석 준전문가(ADsP) 2025년 47회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.
문제 1
4지선다다음 암묵지와 형식지의 상호작용으로 옳은 것은?
- 1.
공통화 → 표출화 → 연결화 → 내면화
- 2.
공통화 → 표출화 → 내면화 → 연결화
- 3.
표출화 → 공통화 → 연결화 → 내면화
- 4.
표출화 → 연결화 → 공통화 → 내면화
정답·해설 보기▾
정답
1번
공통화 → 표출화 → 연결화 → 내면화
해설
정답: 1. SECI 모델의 지식 변환 과정은 공통화(Socialization) → 표출화(Externalization) → 연결화(Combination) → 내면화(Internalization) 순서로 순환한다.
오답 풀이
- 1번: 암묵지 공유(공통화)에서 출발해 형식지로 표출하고, 형식지를 결합(연결화)한 뒤 다시 개인의 암묵지로 체화(내면화)하는 올바른 순서이다.
- 2·3·4번: 단계의 순서가 SECI 모델과 다르다.
보충 개념 공통화는 암묵지→암묵지, 표출화는 암묵지→형식지, 연결화는 형식지→형식지, 내면화는 형식지→암묵지의 변환이다.
- 1.
문제 2
4지선다다음 DIKW 단계를 설명하는 것 중 다른 하나는 무엇인가?
- 1.
이번 8월에 지난 1년 매출액의 50%가 집중되어 있다.
- 2.
지난 1년 매출은 1월에서 6월까지 증가하였다.
- 3.
높은 여름 온도로 인해 올해 8월 매출액은 2000만원으로 예상된다.
- 4.
8월 구매 고객의 50%가 대부분 30대 남성 고객이다.
정답·해설 보기▾
정답
3번
높은 여름 온도로 인해 올해 8월 매출액은 2000만원으로 예상된다.
해설
정답: 3. 1·2·4번은 데이터를 정리·요약해 의미를 부여한 정보(Information) 단계인 반면, 3번은 근거를 바탕으로 미래를 예측·추론하는 지혜(Wisdom) 단계에 해당한다.
오답 풀이
- 1번: 매출 집중 현황의 요약으로 정보 단계이다.
- 2번: 기간별 매출 추이 요약으로 정보 단계이다.
- 3번: 아직 발생하지 않은 일을 예상하는 추론으로 다른 보기들과 단계가 다르다.
- 4번: 고객 구성 요약으로 정보 단계이다.
보충 개념 DIKW에서 정보는 데이터의 가공·요약, 지식은 정보의 구조화와 활용, 지혜는 지식에 기반한 창의적 예측·판단이다.
- 1.
문제 3
4지선다아래 설명에 대한 데이터베이스의 특성으로 올바른 것은?
대량의 정보를 정보처리 기기가 읽고 쓸 수 있는 기계 가독성을 가지며, 필요한 정보를 쉽게 찾을 수 있는 검색 가능성, 그리고 원거리에서도 활용할 수 있는 원격 조작성을 가진다.
- 1.
정보 축적 및 전달 측면
- 2.
정보 이용 측면
- 3.
정보 관리 측면
- 4.
정보기술발전 측면
정답·해설 보기▾
정답
1번
정보 축적 및 전달 측면
해설
정답: 1. 기계 가독성·검색 가능성·원격 조작성은 데이터베이스의 정보 축적 및 전달 측면의 특성이다.
오답 풀이
- 1번: 세 가지 특성 모두 축적·전달 측면의 정의와 일치한다.
- 2번: 정보 이용 측면은 다양한 이용자의 요구에 맞는 정보 획득에 관한 특성이다.
- 3번: 정보 관리 측면은 체계적 정리·저장과 갱신·유지를 통한 일관된 관리에 관한 특성이다.
- 4번: 정보기술발전 측면은 DB가 하드웨어·소프트웨어·네트워크 기술 발전을 견인한다는 특성이다.
보충 개념 데이터베이스 특성 측면: 정보 축적·전달(기계가독성·검색가능성·원격조작성), 정보 이용, 정보 관리, 정보기술 발전, 경제·산업 측면.
- 1.
문제 4
4지선다다음 중 개인정보를 타인이 알아볼 수 없도록 식별정보를 제거하거나 변형하는 것을 의미하는 용어는?
- 1.
표준화
- 2.
익명화
- 3.
공용화
- 4.
내면화
정답·해설 보기▾
정답
2번
익명화
해설
정답: 2. 익명화(anonymization)는 개인을 식별할 수 있는 정보를 제거하거나 변형하여 누구인지 알아볼 수 없게 하는 처리이다.
오답 풀이
- 1번: 표준화는 데이터의 형식·규칙을 통일하는 작업이다.
- 2번: 사생활 침해를 방지하기 위한 개인정보 보호 기법으로 옳다.
- 3번: 공용화는 여러 사용자가 함께 사용하도록 하는 것을 의미한다.
- 4번: 내면화는 SECI 모델에서 형식지가 암묵지로 체화되는 과정이다.
보충 개념 익명화 기법에는 가명 처리, 일반화(범주화), 총계 처리, 데이터 삭제, 데이터 마스킹 등이 있다.
- 1.
문제 5
4지선다빅데이터의 특징으로 가장 적절하지 않은 것은?
- 1.
Volume: 기존 데이터베이스의 한계를 뛰어넘는 초대규모의 데이터 양
- 2.
Velocity: 실시간으로 데이터를 생성하고 빠르게 처리해야 하는 속도
- 3.
Variety: 텍스트, 이미지, 영상, 음성 등 다양한 형태의 데이터(정형, 반정형, 비정형)
- 4.
Availability: 데이터가 필요할 때 데이터에 접근할 수 있는 정도
정답·해설 보기▾
정답
4번
Availability: 데이터가 필요할 때 데이터에 접근할 수 있는 정도
해설
정답: 4. 빅데이터의 기본 특징은 3V(Volume, Velocity, Variety)이며 Availability(가용성)는 빅데이터의 특징으로 분류되지 않는다.
오답 풀이
- 1번: Volume(규모)은 3V의 하나로 옳은 설명이다.
- 2번: Velocity(속도)는 실시간 생성·처리 요구를 의미한다.
- 3번: Variety(다양성)는 정형·반정형·비정형 데이터의 다양한 형태를 의미한다.
- 4번: 가용성은 시스템 품질 속성이지 빅데이터의 3V 특징이 아니다.
보충 개념 3V에 Value(가치)·Veracity(정확성)를 더해 4V·5V로 확장하기도 한다.
- 1.
문제 6
4지선다연관분석에 대한 설명으로 가장 적절하지 않은 것은?
- 1.
상품이나 서비스를 구매하는 등 일련의 거래나 사건 안에 존재하는 항목 간의 일정한 연관 규칙을 발견하는 분석이다.
- 2.
연관분석 중 한 종류로 장바구니 분석이 있다.
- 3.
연관분석은 변수 간 선형관계를 파악하는 분석 방법이다.
- 4.
대표적인 측정지표로 지지도, 신뢰도 및 향상도가 있다.
정답·해설 보기▾
정답
3번
연관분석은 변수 간 선형관계를 파악하는 분석 방법이다.
해설
정답: 3. 변수 간 선형관계를 파악하는 것은 상관분석이며, 연관분석은 거래 항목 간의 동시 발생 규칙을 발견하는 기법이다.
오답 풀이
- 1번: 거래·사건 내 항목 간 연관 규칙 발견이 연관분석의 정의이다.
- 2번: 장바구니 분석은 연관분석의 대표 사례이다.
- 3번: 선형관계 파악은 상관분석의 설명이므로 옳지 않다.
- 4번: 지지도·신뢰도·향상도가 연관 규칙의 3대 평가지표이다.
보충 개념 연관분석은 ‘If-Then’ 형태의 규칙으로 결과를 표현하며 비지도 학습에 속한다.
- 1.
문제 7
4지선다다음 보기 중에서 빅데이터 분석 기법과 그 활용 예시가 적절하지 않은 것은?
- 1.
군집분석: 자동차 설계-제작을 반복하여 세대를 걸쳐 최적의 결과를 얻어낸다.
- 2.
연관분석: 고객의 장바구니 데이터를 분석하여 함께 구매할 가능성이 높은 상품을 찾는다.
- 3.
감정분석: 고객의 리뷰를 긍정 및 부정으로 분류한다.
- 4.
사회관계망 분석: SNS 내 사용자들의 상호관계를 이미지로 시각화한다.
정답·해설 보기▾
정답
1번
군집분석: 자동차 설계-제작을 반복하여 세대를 걸쳐 최적의 결과를 얻어낸다.
해설
정답: 1. 세대를 거듭하며 최적 결과를 찾아가는 방식은 유전 알고리즘의 활용 예시이며, 군집분석과는 무관하다.
오답 풀이
- 1번: 군집분석은 유사한 개체를 그룹으로 묶는 기법으로, 진화적 최적화 사례와 연결한 것은 옳지 않다.
- 2번: 장바구니 동시 구매 분석은 연관분석의 대표 사례이다.
- 3번: 리뷰의 긍·부정 분류는 감정분석의 사례이다.
- 4번: 사용자 간 관계 시각화는 사회관계망 분석(SNA)의 사례이다.
보충 개념 빅데이터 분석 기법: 연관 규칙, 유형 분석(분류), 유전 알고리즘, 기계 학습, 회귀 분석, 감정 분석, 소셜 네트워크 분석 등.
- 1.
문제 8
4지선다빅데이터의 위기 요인과 해당 통제 방안에 대해 잘못 연결한 것을 모두 고르시오.
가. 사생활 침해: 정보 제공자의 동의제에서 데이터 사용자의 책임제로 전환 나. 책임원칙 훼손: 데이터 알고리즘 접근권 허용 및 객관적 인증방안 도입 다. 데이터 오용: 결과 기반 책임 원칙 강조
- 1.
가
- 2.
가, 나
- 3.
나, 다
- 4.
가, 나, 다
정답·해설 보기▾
정답
3번
나, 다
해설
정답: 3. 책임원칙 훼손의 통제 방안은 ‘결과 기반 책임 원칙 고수’이고, 데이터 오용의 통제 방안은 ‘알고리즘 접근권 허용(알고리즈미스트)’이다. 나와 다는 통제 방안이 서로 바뀌어 있다.
오답 풀이
- 가: 사생활 침해의 통제 방안은 동의제에서 책임제로의 전환이 맞다.
- 나: 알고리즘 접근권 허용은 데이터 오용에 대한 통제 방안이므로 잘못 연결되었다.
- 다: 결과 기반 책임 원칙은 책임원칙 훼손에 대한 통제 방안이므로 잘못 연결되었다.
보충 개념 위기 요인-통제 방안 매칭: 사생활 침해→사용자 책임제, 책임원칙 훼손→결과 기반 책임 원칙, 데이터 오용→알고리즘 접근권 허용.
- 1.
문제 9
4지선다아래에서 설명하는 데이터베이스 시스템은 무엇인가?
은행 거래, 온라인 쇼핑, 예약 등 실시간으로 발생하는 대규모 데이터 삽입, 업데이트, 삭제와 같은 짧고 빈번한 트랜잭션을 수시로 처리하는 정보 시스템
- 1.
OLAP
- 2.
OLTP
- 3.
CRM
- 4.
SCM
정답·해설 보기▾
정답
2번
OLTP
해설
정답: 2. 짧고 빈번한 트랜잭션(삽입·갱신·삭제)을 실시간으로 처리하는 시스템은 OLTP(Online Transaction Processing)이다.
오답 풀이
- 1번: OLAP는 다차원 데이터의 대화식 분석 시스템이다.
- 2번: 은행 거래·예약 등 온라인 거래 처리는 OLTP의 대표 사례이다.
- 3번: CRM은 고객 관계 관리 시스템이다.
- 4번: SCM은 공급망 관리 시스템이다.
보충 개념 OLTP는 운영계(거래 처리), OLAP는 정보계(분석)로 구분되며 OLTP 데이터가 데이터 웨어하우스를 거쳐 OLAP 분석에 활용된다.
- 1.
문제 10
4지선다데이터 사이언티스트에 대한 설명으로 적절하지 않은 것은?
- 1.
데이터를 수집, 분석하여 숨겨진 패턴을 발견하고 예측 모델을 만들어 비즈니스 문제를 해결하고 새로운 가치를 창출하는 전문가이다.
- 2.
개인 역량과 분석 능력이 최우선되며, 타인과의 의사소통 능력은 상대적으로 중요하지 않다.
- 3.
통계, 프로그래밍, 머신러닝, 그리고 특정 산업 도메인 지식을 종합적으로 활용해 기업의 의사결정을 돕고 수익 증대나 비용 절감에 기여한다.
- 4.
문제 정의부터 모델 개발 및 배포까지 전 과정에 참여하며, AI 엔지니어 등 다른 직군과 협업하기도 한다.
정답·해설 보기▾
정답
2번
개인 역량과 분석 능력이 최우선되며, 타인과의 의사소통 능력은 상대적으로 중요하지 않다.
해설
정답: 2. 데이터 사이언티스트에게는 분석 결과를 설득력 있게 전달하는 커뮤니케이션·스토리텔링 등 소프트 스킬이 하드 스킬 못지않게 중요하다.
오답 풀이
- 1번: 데이터 기반 가치 창출 전문가라는 정의로 옳다.
- 2번: 의사소통 능력을 경시한 설명이므로 옳지 않다.
- 3번: 통계·프로그래밍·도메인 지식의 종합 활용은 옳은 설명이다.
- 4번: 전 과정 참여와 타 직군 협업도 옳은 설명이다.
보충 개념 데이터 사이언티스트의 역량 — 하드 스킬: 분석 기술·모델링 능력, 소프트 스킬: 통찰력 있는 분석, 설득력 있는 전달(스토리텔링), 다분야 협력.
- 1.
문제 11
4지선다다음 중 분석 기획 단계에서 수행해야 하는 업무로 가장 적절하지 않은 것은?
- 1.
해결하려는 문제를 기반으로 분석 목적과 기대 효과를 명확하게 정의한다.
- 2.
분석 정확도를 높이기 위해 최대한 복잡한 분석 모형을 설정한다.
- 3.
분석에 필요한 데이터의 종류와 양을 설정한다.
- 4.
분석을 방해하는 장애 요소들에 대해 사전 계획을 수립한다.
정답·해설 보기▾
정답
2번
분석 정확도를 높이기 위해 최대한 복잡한 분석 모형을 설정한다.
해설
정답: 2. 분석 모형은 정확도뿐 아니라 해석 가능성·운영 효율을 함께 고려해야 하며, 복잡할수록 좋은 것이 아니다. 모형의 복잡도 결정은 기획 단계의 업무도 아니다.
오답 풀이
- 1번: 분석 목적·기대 효과 정의는 기획 단계의 핵심 업무이다.
- 2번: 복잡한 모형은 과적합·해석 곤란을 유발할 수 있어 옳지 않다.
- 3번: 필요 데이터의 종류·양 설정은 기획 단계 업무이다.
- 4번: 장애 요소에 대한 사전 계획(위험 관리)도 기획 단계 업무이다.
보충 개념 분석 기획 시 고려사항: 가용 데이터, 적절한 유스케이스, 장애 요소에 대한 사전 계획 수립.
- 1.
문제 12
4지선다다음 중 데이터 형태에 대한 설명으로 적절하지 않은 것은?
- 1.
정형 데이터는 행/열로 구성된 스프레드시트 형태로 나타낼 수 있다.
- 2.
IoT 기기에서 생성되는 로그 데이터는 대표적인 정형 데이터이다.
- 3.
반정형 데이터는 데이터 구조에 대한 메타 정보를 데이터 내부에 포함한다.
- 4.
대표적인 반정형 데이터로는 HTML, XML, JSON 등 웹 기반 데이터가 있다.
정답·해설 보기▾
정답
2번
IoT 기기에서 생성되는 로그 데이터는 대표적인 정형 데이터이다.
해설
정답: 2. 기계·센서가 생성하는 로그 데이터는 대표적인 반정형 데이터이며, 정형 데이터로 분류하는 것은 옳지 않다.
오답 풀이
- 1번: 정형 데이터는 고정된 스키마(행/열)를 가지며 스프레드시트·RDB 테이블로 표현된다.
- 2번: 로그는 스키마가 데이터에 포함된 반정형 데이터이므로 옳지 않다.
- 3번: 반정형 데이터는 태그 등 메타 정보를 데이터 안에 포함한다.
- 4번: HTML·XML·JSON은 대표적인 반정형 데이터이다.
보충 개념 정형(RDB·스프레드시트) / 반정형(XML·JSON·HTML·로그·센서 데이터) / 비정형(텍스트·이미지·영상·음성)으로 구분한다.
- 1.
문제 13
4지선다다음 중 데이터 탐색 과정 단계에 대한 설명으로 적절하지 않은 것은?
- 1.
구체적인 문제 해결 방안을 체계적으로 설계한다.
- 2.
탐색 단계 결과를 통해 분석 방향과 방법을 구체화할 수 있다.
- 3.
외부에서 적절한 참조 모델을 통해 보다 분석 속도를 향상시킬 수 있다.
- 4.
분석 대상 데이터의 특성을 검토하고 주요 변수의 의미를 파악한다.
정답·해설 보기▾
정답
1번
구체적인 문제 해결 방안을 체계적으로 설계한다.
해설
정답: 1. 구체적인 해결 방안의 체계적 설계는 탐색 이후의 문제 정의·해결 방안 탐색 단계에서 수행하는 활동이며, 탐색 단계의 활동이 아니다.
오답 풀이
- 1번: 탐색 단계는 가능성을 발굴하는 단계이지 해결 방안을 설계하는 단계가 아니므로 옳지 않다.
- 2번: 탐색 결과는 분석 방향·방법 구체화의 근거가 된다.
- 3번: 외부 참조 모델(벤치마킹)을 활용하면 탐색·분석 속도를 높일 수 있다.
- 4번: 데이터 특성 검토와 변수 의미 파악은 탐색 단계의 핵심 활동이다.
보충 개념 하향식 접근은 문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 검토의 순서로 진행된다.
- 1.
문제 14
4지선다분석 과제 발굴 시 분석 대상은 명확하나 분석 방법을 모르는 경우 해당되는 분석 주제는?
- 1.
솔루션
- 2.
통찰
- 3.
최적화
- 4.
발견
정답·해설 보기▾
정답
1번
솔루션
해설
정답: 1. 분석 대상(What)은 알지만 분석 방법(How)을 모르는 경우는 솔루션(Solution) 유형에 해당한다.
오답 풀이
- 1번: 대상O·방법X의 조합으로 옳다.
- 2번: 통찰은 대상은 모르지만 방법은 아는 경우이다.
- 3번: 최적화는 대상과 방법을 모두 아는 경우이다.
- 4번: 발견은 대상과 방법을 모두 모르는 경우이다.
보충 개념 분석 주제 유형 4가지 — 최적화(대상O·방법O), 솔루션(대상O·방법X), 통찰(대상X·방법O), 발견(대상X·방법X).
- 1.
문제 15
4지선다상향식 접근 방식에 대한 설명으로 적절하지 않은 것은?
- 1.
반복적 시행착오를 통해 문제를 도출하는 프로토타이핑 접근 방식을 사용한다.
- 2.
제시된 문제가 확실한 경우 체계적인 단계화로 문제를 해결하는 방식이다.
- 3.
분석 주제 유형이 ‘통찰’ 및 ‘발견’일 때 사용되는 방식이다.
- 4.
비지도 학습과 유사한 탐색적 분석 방식이다.
정답·해설 보기▾
정답
2번
제시된 문제가 확실한 경우 체계적인 단계화로 문제를 해결하는 방식이다.
해설
정답: 2. 문제가 확실할 때 체계적으로 단계화하여 해결하는 것은 하향식 접근 방식의 특징이다.
오답 풀이
- 1번: 프로토타이핑을 통한 반복적 시행착오는 상향식의 특징이다.
- 2번: 확실한 문제의 체계적 단계화는 하향식이므로 옳지 않다.
- 3번: 문제 정의가 어려운 통찰·발견 유형에서 상향식이 사용된다.
- 4번: 상향식은 데이터에서 패턴을 찾는 비지도 학습적·탐색적 성격을 가진다.
보충 개념 하향식은 문제가 주어진 상태에서 해법을 찾는 수렴적 접근, 상향식은 데이터 기반으로 문제를 발굴하는 발산적 접근이다.
- 1.
문제 16
4지선다분석 마스터 플랜 수립 시 우선 고려사항을 모두 고르시오.
가. 전략적 중요도 나. 비즈니스 성과 다. 실행 용이성
- 1.
가
- 2.
가, 나
- 3.
나, 다
- 4.
가, 나, 다
정답·해설 보기▾
정답
4번
가, 나, 다
해설
정답: 4. 분석 마스터 플랜의 우선순위 고려 요소는 전략적 중요도, 비즈니스 성과 및 ROI, 실행 용이성으로 세 가지 모두 해당한다.
오답 풀이
- 가: 전략 목표와의 부합 정도는 핵심 고려 요소이다.
- 나: 비즈니스 성과·투자 수익률(ROI)도 고려 요소이다.
- 다: 투자·기술 측면의 실행 용이성도 고려 요소이다.
보충 개념 마스터 플랜에서는 우선순위(전략적 중요도·비즈니스 성과·실행 용이성)와 함께 적용 범위·방식(업무 내재화 수준, 분석 데이터 적용 수준, 기술 적용 수준)을 고려해 로드맵을 수립한다.
- 1.
문제 17
4지선다아래 설명에 해당되는 분석 성숙도 단계는 무엇인가?
분석이 막 시작되는 단계로 일부 부서에서만 분석이 활용되고 있으며 분석 가능한 환경과 기반 및 시스템을 구축하기 시작하는 단계이다.
- 1.
도입
- 2.
활용
- 3.
확산
- 4.
최적화
정답·해설 보기▾
정답
1번
도입
해설
정답: 1. 분석을 막 시작해 환경과 시스템을 구축하기 시작하는 단계는 성숙도 모델의 첫 단계인 도입 단계이다.
오답 풀이
- 1번: 도입 단계의 정의로 옳다.
- 2번: 활용 단계는 분석 결과를 실제 업무에 적용하는 단계이다.
- 3번: 확산 단계는 전사 차원에서 분석을 관리·공유하는 단계이다.
- 4번: 최적화 단계는 분석을 진화시켜 혁신·성과 향상에 기여하는 단계이다.
보충 개념 분석 성숙도 모델은 도입 → 활용 → 확산 → 최적화의 4단계로, 비즈니스·조직역량·IT의 3개 부문을 평가한다.
- 1.
문제 18
4지선다분석 업무를 별도의 전담 조직에서 담당하여 회사 차원의 우선순위에 따라 일괄 수행하는 분석 조직 유형은 무엇인가?
- 1.
분산형 조직
- 2.
협업형 조직
- 3.
집중형 조직
- 4.
기능 중심형 조직
정답·해설 보기▾
정답
3번
집중형 조직
해설
정답: 3. 집중형(집중 구조) 조직은 전사 분석 업무를 별도의 전담 조직에서 담당하며 회사 차원의 우선순위에 따라 수행한다.
오답 풀이
- 1번: 분산형은 분석 인력을 현업 부서에 직접 배치하는 구조이다.
- 2번: 협업형은 일반적인 분류(집중·기능·분산)에 해당하지 않는 용어이다.
- 3번: 전담 조직의 일괄 수행 구조로 옳다.
- 4번: 기능 중심형은 별도 조직 없이 각 부서에서 자체 분석하는 구조이다.
보충 개념 분석 조직 구조 — 집중형: 전담 조직·전사 우선순위(현업과 이원화 우려), 기능형: 부서별 자체 분석(전사 관점 부재), 분산형: 분석 인력의 현업 배치(신속한 실무 적용).
- 1.
문제 19
4지선다데이터 거버넌스에 대한 설명으로 적절하지 않은 것은?
- 1.
조직의 데이터를 안전하고 정확하며 신뢰할 수 있도록 관리하기 위한 정책, 프로세스, 표준, 역할, 기술을 정의하고 실행하는 체계적인 접근 방식이다.
- 2.
구성 요소로는 원칙, 조직, 프로세스가 있다.
- 3.
데이터 표준용어 설정, 명명 규칙 수립 등 데이터 표준화 작업이 필요하다.
- 4.
데이터 거버넌스는 전담 조직에서 독립적으로 운영되어야 한다.
정답·해설 보기▾
정답
4번
데이터 거버넌스는 전담 조직에서 독립적으로 운영되어야 한다.
해설
정답: 4. 데이터 거버넌스는 특정 전담 조직만의 독립 업무가 아니라 전사 차원에서 정책·표준을 수립하고 모든 조직이 함께 준수하는 체계이다.
오답 풀이
- 1번: 데이터 관리 정책·프로세스·표준·역할의 체계적 접근이라는 정의로 옳다.
- 2번: 거버넌스의 3대 구성 요소는 원칙·조직·프로세스이다.
- 3번: 표준용어·명명 규칙·데이터 사전 등 표준화는 거버넌스 체계의 핵심 요소이다.
- 4번: 독립 운영이 아닌 전사적 협력·연계가 필요하므로 옳지 않다.
보충 개념 데이터 거버넌스 체계: 데이터 표준화 → 표준화 활동(모니터링·개선), 관리 체계(메타데이터·데이터 사전), 저장소 관리.
- 1.
문제 20
4지선다분석 준비도 평가 요소로 적절하지 않은 것은?
- 1.
분석 업무에 투입 가능한 인력 및 조직
- 2.
분석에 사용할 분석 기법
- 3.
분석에 활용할 데이터
- 4.
분석에 필요한 비용 및 예산
정답·해설 보기▾
정답
4번
분석에 필요한 비용 및 예산
해설
정답: 4. 분석 준비도는 인력·조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라, 분석 업무의 6개 영역으로 진단하며 비용·예산은 평가 요소가 아니다.
오답 풀이
- 1번: 인력 및 조직은 준비도 평가 영역이다.
- 2번: 분석 기법 보유·활용 수준도 평가 영역이다.
- 3번: 분석 데이터의 보유·품질도 평가 영역이다.
- 4번: 비용·예산은 준비도 진단 항목에 포함되지 않는다.
보충 개념 준비도(Readiness)는 현재의 분석 수용 태세를, 성숙도(Maturity)는 분석 역량의 발전 단계를 진단한다.
- 1.
문제 21
4지선다절대적 기준인 영점(0)이 존재하는 척도는?
- 1.
명목척도
- 2.
서열척도
- 3.
등간척도
- 4.
비율척도
정답·해설 보기▾
정답
4번
비율척도
해설
정답: 4. 비율척도는 절대 영점이 존재하여 사칙연산이 모두 가능한 척도이다(예: 무게, 키, 소득).
오답 풀이
- 1번: 명목척도는 단순 분류(성별·혈액형)로 영점 개념이 없다.
- 2번: 서열척도는 순위 정보만 가진다(만족도 등급).
- 3번: 등간척도는 간격은 일정하지만 절대 영점이 없다(온도 ℃).
- 4번: 절대 영점이 있어 비율 비교(2배, 3배)가 가능한 척도로 옳다.
보충 개념 척도 위계: 명목 < 서열 < 등간 < 비율. 등간척도까지는 덧셈·뺄셈만, 비율척도는 곱셈·나눗셈(비율 해석)까지 가능하다.
- 1.
문제 22
4지선다다음 중 탐색적 데이터 분석(EDA)의 특징으로 적절하지 않은 것은?
- 1.
데이터의 전반적인 구조를 파악하고 이상치 및 결측치를 발견하는 단계이다.
- 2.
동일한 분석 결과를 얻기 위해 재현성을 검증하는 단계이다.
- 3.
상관관계 분석 및 시각화를 통해 종속변수에 영향을 주는 주요 독립변수를 탐색한다.
- 4.
변수의 개수, 데이터 타입 및 기초 통계량(평균, 중앙값)을 확인하는 단계이다.
정답·해설 보기▾
정답
2번
동일한 분석 결과를 얻기 위해 재현성을 검증하는 단계이다.
해설
정답: 2. 재현성 검증은 모델 평가·검증 단계의 활동이며, EDA는 데이터의 구조와 패턴을 탐색하는 단계이다.
오답 풀이
- 1번: 분포·이상치·결측 파악은 EDA의 핵심 활동이다.
- 2번: 재현성 검증은 EDA의 특징이 아니므로 옳지 않다.
- 3번: 상관분석·시각화를 통한 주요 변수 탐색은 EDA 활동이다.
- 4번: 변수 구성·기초 통계량 확인도 EDA의 기본 활동이다.
보충 개념 EDA의 4가지 주제: 저항성, 잔차 해석, 자료 재표현, 현시성(시각화).
- 1.
문제 23
4지선다아래 상자그림(Box Plot)을 참고하여 이상치를 판단하는 하한과 상한의 값은?
- 1.
-4, 20
- 2.
-4, 24
- 3.
-8, 20
- 4.
-8, 24
정답·해설 보기▾
정답
4번
-8, 24
해설
정답: 4. 상자그림에서 Q1 = 4, Q3 = 12이므로 IQR = 12 − 4 = 8이다. 이상치 판단 하한 = Q1 − 1.5×IQR = 4 − 12 = −8, 상한 = Q3 + 1.5×IQR = 12 + 12 = 24이다.
오답 풀이
- 1번: 하한·상한 모두 1×IQR 또는 잘못된 사분위수로 계산한 값이다.
- 2번: 하한을 Q1 − IQR로 잘못 계산한 값이다.
- 3번: 상한을 Q3 + IQR로 잘못 계산한 값이다.
- 4번: 1.5×IQR 규칙을 정확히 적용한 값이다.
보충 개념 상자그림의 수염 끝(최소 2, 최대 15)이 아니라 상자의 경계(Q1, Q3)를 기준으로 1.5×IQR 규칙을 적용해야 한다.
- 1.
문제 24
4지선다다음 중 가설검정의 제1종 및 2종 오류 해석에 대한 설명으로 적절하지 않은 것은?
- 1.
제1종 오류는 귀무가설이 실제로는 참인데도 불구하고, 이를 기각하고 대립가설을 채택하는 오류이다.
- 2.
제2종 오류는 실제로는 대립가설이 참인데도 불구하고, 귀무가설을 기각하지 못하고 채택하는 통계적 오류이다.
- 3.
유의수준(α)은 제1종 오류의 최소 허용 한계이다.
- 4.
유의수준을 너무 작게 설정하면 2종 오류를 범할 확률이 높아진다.
정답·해설 보기▾
정답
3번
유의수준(α)은 제1종 오류의 최소 허용 한계이다.
해설
정답: 3. 유의수준 α는 제1종 오류를 범할 확률의 최대 허용 한계이며, 최소 허용 한계가 아니다.
오답 풀이
- 1번: 참인 귀무가설을 기각하는 것이 제1종 오류이다.
- 2번: 거짓인 귀무가설을 기각하지 못하는 것이 제2종 오류이다.
- 3번: ‘최소’가 아니라 ‘최대’ 허용 한계이므로 옳지 않다.
- 4번: α를 줄이면 기각이 어려워져 β(2종 오류 확률)는 커지는 상충 관계가 있다.
보충 개념 검정력(1−β)은 거짓인 귀무가설을 올바르게 기각할 확률로, 표본 크기를 늘리면 α를 유지하면서 β를 줄일 수 있다.
- 1.
문제 25
4지선다다음 중 표본 조사에 대한 설명으로 적절하지 않은 것은?
- 1.
표본 오차는 표본이 모집단을 완벽히 대표하지 못해 생기는 오차이다.
- 2.
표본의 크기가 커질수록 표본 오차는 0에 가까워진다.
- 3.
표본추출을 통해 비표본 오차를 최소화할 수 있다.
- 4.
비표본 오차는 표본의 크기나 추출 방법에 관계없이 발생 가능하다.
정답·해설 보기▾
정답
3번
표본추출을 통해 비표본 오차를 최소화할 수 있다.
해설
정답: 3. 비표본 오차는 측정 오류·무응답·입력 실수 등 표본추출 이외의 원인으로 발생하므로 표본추출로 최소화할 수 없다. 오히려 조사 규모가 커지면 비표본 오차는 늘어날 수 있다.
오답 풀이
- 1번: 표본 오차는 표본이 모집단을 완전히 대표하지 못해 발생하는 오차가 맞다.
- 2번: 표본 크기가 커질수록 표본 오차는 줄어들어 0에 가까워진다.
- 3번: 표본추출은 표본 오차에 관련된 것이지 비표본 오차의 통제 수단이 아니므로 옳지 않다.
- 4번: 비표본 오차는 표본 크기·추출 방법과 무관하게 발생할 수 있다.
보충 개념 전수조사도 비표본 오차(측정·집계 오류)는 피할 수 없으며, 표본조사의 품질은 두 오차를 함께 관리해야 한다.
- 1.
문제 26
4지선다다음 오른쪽 꼬리 분포에서 A, B, C에 해당되는 통계량은?
- 1.
A: 최빈값 / B: 평균 / C: 중앙값
- 2.
A: 최빈값 / B: 중앙값 / C: 평균
- 3.
A: 평균 / B: 중앙값 / C: 최빈값
- 4.
A: 중앙값 / B: 최빈값 / C: 평균
정답·해설 보기▾
정답
2번
A: 최빈값 / B: 중앙값 / C: 평균
해설
정답: 2. 오른쪽 꼬리(양의 왜도) 분포에서는 최빈값 < 중앙값 < 평균 순서로 위치한다. 봉우리에 있는 A가 최빈값, 가운데 B가 중앙값, 꼬리 쪽으로 끌려간 C가 평균이다.
오답 풀이
- 1번: 평균은 꼬리 방향으로 가장 많이 끌려가므로 B가 아니라 C이다.
- 3번: 평균이 봉우리에 위치한다는 것은 왼쪽 꼬리 분포에서도 성립하지 않는 배치이다.
- 4번: 최빈값은 항상 분포의 봉우리(A)에 위치한다.
보충 개념 왜도 방향과 대표값 순서 — 오른쪽 꼬리(양의 왜도): 최빈값 < 중앙값 < 평균, 왼쪽 꼬리(음의 왜도): 평균 < 중앙값 < 최빈값, 대칭 분포: 세 값이 일치.
- 1.
문제 27
4지선다표본추출방법에 대한 설명으로 적절하지 않은 것은?
- 1.
단순무작위추출법: 표본 선택 확률을 모두 동일하게 무작위로 표본을 추출한다.
- 2.
계통추출법: 일련번호를 부여한 각 개체를 일정한 간격으로 나누고 각 구간에서 무작위 추출하는 방법이다.
- 3.
집락추출법: 모집단에서 집단을 일차적으로 표집한 다음, 선정된 각 집단에서 구성원을 표본으로 추출하는 다단계 표집방법이다.
- 4.
층화추출법: 모집단을 서로 중복되지 않는 집단 및 층(strata)으로 구분하고 각 집단 내에서 표본을 무작위 추출한다.
정답·해설 보기▾
정답
2번
계통추출법: 일련번호를 부여한 각 개체를 일정한 간격으로 나누고 각 구간에서 무작위 추출하는 방법이다.
해설
정답: 2. 계통추출법은 첫 구간에서만 무작위로 시작점을 정한 뒤 일정한 간격(매 k번째)으로 표본을 추출하는 방법이다. 각 구간마다 무작위 추출하는 것이 아니다.
오답 풀이
- 1번: 단순무작위추출은 모든 개체의 선택 확률이 동일하다.
- 2번: 시작점만 무작위이고 이후는 등간격 추출이므로 옳지 않다.
- 3번: 집락추출은 집락(군집)을 먼저 표집한 후 구성원을 추출하는 다단계 방법이다.
- 4번: 층화추출은 동질적인 층으로 나눈 뒤 각 층에서 무작위 추출한다.
보충 개념 층화추출은 층 내 동질·층 간 이질, 집락추출은 집락 내 이질·집락 간 동질일 때 효과적이다.
- 1.
문제 28
4지선다다음 중 통계적 유의성에 대한 설명으로 적절하지 않은 것은?
- 1.
표본의 크기가 커질수록 표준 오차가 작아지므로, 신뢰구간의 길이는 점점 짧아진다.
- 2.
p-value가 클수록 귀무가설을 기각하고 대립가설을 채택할 확률이 높아진다.
- 3.
표본의 크기가 커질수록 아주 작은 차이도 통계적으로 유의미하게 나타날 가능성이 높아진다.
- 4.
신뢰수준을 95%에서 99%로 높이면 신뢰구간의 폭은 더 넓어지고, 정밀도는 떨어진다.
정답·해설 보기▾
정답
2번
p-value가 클수록 귀무가설을 기각하고 대립가설을 채택할 확률이 높아진다.
해설
정답: 2. p-value가 작을수록 귀무가설을 기각할 근거가 강해진다. p-value가 클수록 기각 가능성이 높아진다는 설명은 반대로 서술된 것이다.
오답 풀이
- 1번: 표준오차 σ/√n이 줄어들면 신뢰구간도 짧아진다.
- 2번: 기각은 p-value가 유의수준보다 작을 때 일어나므로 옳지 않다.
- 3번: 표본이 매우 크면 실질적으로 미미한 차이도 통계적으로 유의해질 수 있다.
- 4번: 신뢰수준을 높이면 임계값이 커져 구간이 넓어지고 정밀도는 낮아진다.
보충 개념 통계적 유의성과 실질적(실무적) 유의성은 다르며, 효과 크기(effect size)를 함께 확인해야 한다.
- 1.
문제 29
4지선다아래는 어느 학급의 수학 점수를 나타낸 상자그림(Boxplot)이다. 해석으로 옳지 않은 것은?
- 1.
점수의 중앙값은 70점이다.
- 2.
사분위수 범위(IQR)는 20점이다.
- 3.
전체 학생의 약 50%가 60점과 80점 사이에 있다.
- 4.
학생들의 평균 점수는 70점이다.
정답·해설 보기▾
정답
4번
학생들의 평균 점수는 70점이다.
해설
정답: 4. 상자그림으로는 평균을 알 수 없다. 상자 안의 선은 중앙값이며, 분포가 비대칭이면 평균은 70점과 다를 수 있다.
오답 풀이
- 1번: 상자 내부의 선이 70에 위치하므로 중앙값은 70점이다.
- 2번: IQR = Q3 − Q1 = 80 − 60 = 20점이다.
- 3번: 상자(Q1~Q3) 구간에는 가운데 50%의 데이터가 포함된다.
- 4번: 평균은 상자그림에 표시되지 않으므로 70점이라고 단정할 수 없어 옳지 않다.
보충 개념 상자그림은 최소값·Q1·중앙값·Q3·최대값의 5수치 요약을 보여주며, 평균과 중앙값은 분포가 치우칠수록 차이가 커진다.
- 1.
문제 30
4지선다다음은 주성분 분석(PCA) 결과 각 주성분의 분산 설명 비율이다. 누적 분산 비율이 80% 이상이 되도록 할 때 선택해야 할 최소 주성분의 수는?
주성분 PC1 PC2 PC3 PC4 PC5 분산 설명 비율 0.45 0.25 0.15 0.10 0.05 - 1.
2
- 2.
3
- 3.
4
- 4.
5
정답·해설 보기▾
정답
2번
3
해설
정답: 2. 누적 분산 비율은 PC1까지 0.45, PC2까지 0.70, PC3까지 0.85이다. 80% 이상을 처음 만족하는 것은 PC3까지이므로 최소 3개의 주성분이 필요하다.
오답 풀이
- 1번: PC2까지의 누적 비율은 0.70으로 80%에 미달한다.
- 3·4번: 3개로 이미 0.85 ≥ 0.80을 만족하므로 최소 개수가 아니다.
보충 개념 주성분 수 선택 기준: 누적 분산 비율(통상 70~90%), 고유값 1 이상(Kaiser 기준), Scree plot의 엘보 지점.
- 1.
문제 31
4지선다단순회귀모형에서 SSE가 20이고 샘플이 10이라면 MSE는 얼마인가?
- 1.
2
- 2.
2.22
- 3.
2.5
- 4.
30
정답·해설 보기▾
정답
3번
2.5
해설
정답: 3. MSE = SSE/자유도 = SSE/(n − k − 1)이다. 단순회귀는 k = 1이므로 자유도 = 10 − 1 − 1 = 8이고, MSE = 20/8 = 2.5이다.
오답 풀이
- 1번: 2는 SSE를 n(10)으로 나눈 잘못된 계산이다.
- 2번: 2.22는 SSE를 n − 1(9)로 나눈 잘못된 계산이다.
- 4번: 30은 자유도 개념을 적용하지 않은 값이다.
보충 개념 회귀분석 분산분석표(ANOVA)의 자유도 — 회귀: k(회귀계수 개수), 잔차: n − k − 1, 총: n − 1.
요인 제곱합 자유도 제곱평균 회귀 SSR k(독립변수 개수) MSR = SSR/k 잔차 SSE n − k − 1 MSE = SSE/(n − k − 1) 총 SST = SSR + SSE n − 1 - - 1.
문제 32
4지선다다중회귀분석에서 다중공선성을 해결할 수 있는 방안으로 적절하지 않은 것은?
- 1.
라쏘 회귀(Lasso)
- 2.
릿지 회귀(Ridge)
- 3.
엘라스틱넷 회귀(Elastic Net)
- 4.
로지스틱 회귀(Logistic)
정답·해설 보기▾
정답
4번
로지스틱 회귀(Logistic)
해설
정답: 4. 로지스틱 회귀는 이진 분류를 위한 회귀모형일 뿐 다중공선성 해결 기법이 아니다.
오답 풀이
- 1번: 라쏘는 L1 페널티로 일부 계수를 0으로 만들어 변수 선택 효과가 있다.
- 2번: 릿지는 L2 페널티로 계수를 축소해 공선성에 따른 분산 팽창을 완화한다.
- 3번: 엘라스틱넷은 L1+L2 페널티를 결합한 정규화 기법이다.
- 4번: 분류용 모형으로 공선성 해결과 무관하므로 옳지 않다.
보충 개념 다중공선성 대응: 상관 높은 변수 제거, 주성분 분석(PCA), 정규화 회귀(릿지·라쏘·엘라스틱넷), VIF 점검(통상 10 이상이면 의심).
- 1.
문제 33
4지선다다중회귀분석에서 다중공선성에 대한 설명으로 적절하지 않은 것은?
- 1.
다중공선성이 존재하더라도 회귀계수의 분산은 항상 동일하다.
- 2.
독립변수 간 높은 상관관계로 회귀계수 추정이 불안정해진다.
- 3.
다중공선성은 VIF 지표로 측정 가능하다.
- 4.
높은 상관관계를 갖는 설명변수를 모형에서 제거하여 해결 가능하다.
정답·해설 보기▾
정답
1번
다중공선성이 존재하더라도 회귀계수의 분산은 항상 동일하다.
해설
정답: 1. 다중공선성이 존재하면 회귀계수 추정량의 분산이 크게 팽창하여 추정이 불안정해진다. 분산이 항상 동일하다는 설명은 옳지 않다.
오답 풀이
- 1번: 공선성은 계수의 표준오차를 키우므로 옳지 않다.
- 2번: 독립변수 간 강한 상관은 계수 추정의 불안정을 초래한다.
- 3번: VIF(분산팽창요인)가 대표적인 진단 지표이다.
- 4번: 상관 높은 변수의 제거는 기본적인 해결 방법이다.
보충 개념 VIF = 1/(1 − Rⱼ²)로 계산하며, 통상 10 이상(엄격하게는 5 이상)이면 다중공선성을 의심한다.
- 1.
문제 34
4지선다다음은 사립학교와 공립학교 학생의 시험 점수 차이를 비교하기 위해 R에서 독립표본 t-검정을 수행한 결과이다. 해석으로 옳지 않은 것은?
- 1.
유의수준 0.05에서 두 집단의 평균 점수 차이는 통계적으로 유의하다.
- 2.
사립학교 표본의 평균 점수가 공립학교보다 4.3점 높다.
- 3.
평균 차이의 95% 신뢰구간은 0을 포함하지 않는다.
- 4.
유의수준 0.01에서도 귀무가설을 기각할 수 있다.
정답·해설 보기▾
정답
4번
유의수준 0.01에서도 귀무가설을 기각할 수 있다.
해설
정답: 4. p-value = 0.031은 0.01보다 크므로 유의수준 0.01에서는 귀무가설을 기각할 수 없다.
오답 풀이
- 1번: 0.031 < 0.05이므로 유의수준 0.05에서는 평균 차이가 유의하다.
- 2번: 표본평균 차이는 74.3 − 70.0 = 4.3점이다.
- 3번: 신뢰구간 (0.42, 8.18)은 0을 포함하지 않으며, 이는 유의수준 0.05의 기각 결론과 일치한다.
- 4번: 0.031 > 0.01이므로 옳지 않다.
보충 개념 95% 신뢰구간이 0을 포함하지 않는 것과 양측검정 p-value < 0.05는 동치이다. 유의수준을 바꾸면 기각 여부가 달라질 수 있다.
- 1.
문제 35
4지선다다음은 광고비(adv)에 따른 매출액(sales)의 단순회귀분석 결과이다. 해석으로 옳지 않은 것은?
- 1.
광고비가 1 증가하면 매출액은 평균적으로 약 2.874 증가한다.
- 2.
회귀모형은 매출액 변동의 약 67.4%를 설명한다.
- 3.
광고비의 회귀계수는 유의수준 0.05에서 통계적으로 유의하다.
- 4.
광고비와 매출액 사이에는 음의 상관관계가 있다.
정답·해설 보기▾
정답
4번
광고비와 매출액 사이에는 음의 상관관계가 있다.
해설
정답: 4. adv의 회귀계수가 양수(2.874)이므로 광고비와 매출액은 양의 관계이다. 음의 상관관계라는 해석은 옳지 않다.
오답 풀이
- 1번: 기울기 2.874는 광고비 1단위 증가 시 매출액의 평균 증가량이다.
- 2번: 결정계수 R² = 0.674는 매출액 총 변동 중 67.4%를 모형이 설명함을 의미한다.
- 3번: adv의 p-value < 2e-16 < 0.05이므로 유의하다.
- 4번: 계수의 부호가 양수이므로 옳지 않다.
보충 개념 단순회귀에서 기울기의 부호는 상관계수의 부호와 일치하며, R²는 상관계수의 제곱과 같다(r ≈ √0.674 ≈ 0.82).
- 1.
문제 36
4지선다다음 중 시계열 분석에 대한 설명으로 적절하지 않은 것은?
- 1.
비정상 시계열인 경우 차분 및 변환을 통해 정상성을 확보할 수 있다.
- 2.
정상 시계열인 경우 자기회귀(AR) 또는 이동평균(MA) 모형을 적용할 수 있다.
- 3.
백색잡음(White noise)은 대표적인 비정상 시계열이다.
- 4.
정상성 확보를 위해 평균이 일정하지 않으면 차분을, 분산이 일정하지 않으면 변환이 사용된다.
정답·해설 보기▾
정답
3번
백색잡음(White noise)은 대표적인 비정상 시계열이다.
해설
정답: 3. 백색잡음은 평균 0, 일정한 분산을 가지며 자기상관이 없는 대표적인 정상 시계열이다.
오답 풀이
- 1번: 차분(평균 안정화)·변환(분산 안정화)으로 정상성을 확보할 수 있다.
- 2번: AR·MA·ARMA 모형은 정상 시계열을 전제로 한다.
- 3번: 백색잡음을 비정상으로 분류했으므로 옳지 않다.
- 4번: 평균 비일정→차분, 분산 비일정→변환(로그 등)의 대응이 맞다.
보충 개념 백색잡음은 시계열 모형의 잔차가 가져야 할 이상적인 형태로, 잔차가 백색잡음이면 모형이 정보를 충분히 추출했다고 본다.
- 1.
문제 37
4지선다다음 중 변수 간의 비선형 관계를 분석할 수 있는 지표는?
- 1.
피어슨 상관계수
- 2.
스피어만 상관계수
- 3.
코사인 유사도
- 4.
자카드 계수
정답·해설 보기▾
정답
2번
스피어만 상관계수
해설
정답: 2. 스피어만 상관계수는 값 자체가 아닌 순위(rank)를 이용하므로 단조(monotonic) 비선형 관계도 측정할 수 있다.
오답 풀이
- 1번: 피어슨 상관계수는 선형 관계만 측정한다.
- 2번: 순위 기반이므로 곡선적이어도 단조 증가·감소 관계를 포착할 수 있어 옳다.
- 3번: 코사인 유사도는 두 벡터 사이 각도 기반의 유사도 측도이다.
- 4번: 자카드 계수는 집합 간 유사도(교집합/합집합) 측도이다.
보충 개념 스피어만 상관은 이상치에 강건하며 서열척도 자료에도 적용 가능하다. 켄달의 타우도 순위 기반 상관 측도이다.
- 1.
문제 38
4지선다다음 중 ARIMA 모델에 대한 설명으로 적절하지 않은 것은?
- 1.
ARIMA(p, d, q) 형태로 표현되며 p, d, q는 각각 자기회귀 차수, 차분 차수, 이동평균 차수를 의미한다.
- 2.
일반적으로 자기회귀 차수를 먼저 정하고, 차분 차수를 정한다.
- 3.
시계열 데이터의 과거 값과 오차를 이용해 미래를 예측하는 통계 모델이다.
- 4.
데이터를 정상 시계열로 변환하여 분석하므로 통계적 안정성이 높다.
정답·해설 보기▾
정답
2번
일반적으로 자기회귀 차수를 먼저 정하고, 차분 차수를 정한다.
해설
정답: 2. ARIMA 모형 식별은 먼저 차분(d)으로 정상성을 확보한 뒤, ACF·PACF를 보고 AR 차수(p)와 MA 차수(q)를 결정하는 순서로 진행한다.
오답 풀이
- 1번: ARIMA(p, d, q)의 표기와 각 차수의 의미로 옳다.
- 2번: 차분 차수를 먼저 정해야 하므로 순서가 반대로 서술되어 옳지 않다.
- 3번: 과거 관측값(AR)과 과거 오차(MA)를 함께 사용하는 모형이다.
- 4번: 정상화 후 분석하므로 추정의 안정성이 높다.
보충 개념 Box-Jenkins 절차: 정상성 확인·차분 → 모형 식별(ACF/PACF) → 모수 추정 → 잔차 진단(백색잡음 확인) → 예측.
- 1.
문제 39
4지선다다음은 신용카드 부채(Balance)를 종속변수로 하고 수입(Income)과 학생 여부(Student: 학생=Yes)를 독립변수로 한 다중회귀분석 결과이다. 해석으로 옳지 않은 것은?
- 1.
Income이 1 증가할 때 Balance는 평균적으로 약 5.98 증가한다.
- 2.
학생은 비학생에 비해 Balance가 평균적으로 약 382.67 높다.
- 3.
Student 변수는 더미변수로 처리되어 기준 범주(비학생) 대비 효과를 나타낸다.
- 4.
StudentYes의 회귀계수가 Income보다 크므로 Student가 Balance에 가장 중요한 변수이다.
정답·해설 보기▾
정답
4번
StudentYes의 회귀계수가 Income보다 크므로 Student가 Balance에 가장 중요한 변수이다.
해설
정답: 4. 회귀계수의 크기는 변수의 측정 단위에 의존하므로 계수의 절대값만으로 변수의 중요도를 비교할 수 없다. 중요도 비교에는 표준화 회귀계수 등이 필요하다.
오답 풀이
- 1번: 다른 변수가 일정할 때 Income 1단위 증가에 따른 Balance의 평균 증가량은 5.984이다.
- 2번: StudentYes 계수는 비학생 대비 학생의 평균 Balance 차이(약 382.67)를 의미한다.
- 3번: 범주형 변수는 더미변수(0/1)로 변환되어 기준 범주 대비 효과로 해석된다.
- 4번: 단위가 다른 변수 간 계수 크기 비교는 부적절하므로 옳지 않다.
보충 개념 더미변수는 범주가 k개일 때 k−1개를 생성하며, 변수 중요도 비교에는 표준화 계수·t값·부분 결정계수 등을 활용한다.
- 1.
문제 40
4지선다다음 중 시계열 자료의 정상성에 대한 설명으로 적절하지 않은 것은?
- 1.
분산은 시점에 의존하지 않는다.
- 2.
공분산은 시차(Lag)에만 의존한다.
- 3.
시계열의 평균이 모든 시점에서 일정하다.
- 4.
시계열의 자기상관계수가 시간에 따라 감소한다.
정답·해설 보기▾
정답
4번
시계열의 자기상관계수가 시간에 따라 감소한다.
해설
정답: 4. 자기상관계수가 시간에 따라 감소한다는 것은 정상성의 정의 조건이 아니다. 정상 시계열의 자기상관은 시점이 아니라 시차의 함수이다.
오답 풀이
- 1번: 분산이 시점에 의존하지 않는 것은 정상성 조건이다.
- 2번: 공분산이 시차에만 의존하는 것도 정상성 조건이다.
- 3번: 평균이 모든 시점에서 일정한 것도 정상성 조건이다.
- 4번: 정상성의 3조건(평균·분산·공분산)에 해당하지 않으므로 옳지 않다.
보충 개념 약정상성 조건: ① E(Xₜ) = μ(일정) ② Var(Xₜ) = σ²(일정) ③ Cov(Xₜ, Xₜ₊ₖ)는 k(시차)에만 의존.
- 1.
문제 41
4지선다다음 중 소프트맥스(Softmax) 활성화 함수로 옳은 것은?
- 1.
f(a) = 1 / (1 + e^(-a))
- 2.
f(aᵢ) = e^(aᵢ) / Σⱼ e^(aⱼ)
- 3.
f(a) = (e^a - e^(-a)) / (e^a + e^(-a))
- 4.
f(a) = max(0, a)
정답·해설 보기▾
정답
2번
f(aᵢ) = e^(aᵢ) / Σⱼ e^(aⱼ)
해설
정답: 2. 소프트맥스는 각 출력값의 지수를 전체 지수 합으로 나누어 합이 1인 확률 분포로 변환하는 함수이다.
오답 풀이
- 1번: 시그모이드 함수이다.
- 2번: 소프트맥스의 정의로 옳다.
- 3번: 하이퍼볼릭 탄젠트(tanh) 함수이다.
- 4번: ReLU 함수이다.
보충 개념 소프트맥스는 다범주 분류의 출력층에서 사용되며, 클래스가 2개일 때는 시그모이드와 동등하다.
- 1.
문제 42
4지선다앙상블 학습에 대한 설명으로 적절하지 않은 것은?
- 1.
배깅(Bagging)은 복원추출 기반의 부트스트랩 샘플을 생성하여 각 샘플마다 학습시킨 후 모든 모델의 예측 결과를 하나로 합치는 방식이다.
- 2.
부스팅(Boosting)은 개별 모델에 동일한 가중치를 부여하여 순차적으로 학습한다.
- 3.
보팅(Voting)은 각 모델 예측 결과 중 가장 많이 나온 결과를 최종 결과로 채택한다.
- 4.
랜덤포레스트(Random Forest)는 배깅 방식을 기반으로 하여 복수의 독립적인 의사결정나무를 생성 후 예측을 수행한다.
정답·해설 보기▾
정답
2번
부스팅(Boosting)은 개별 모델에 동일한 가중치를 부여하여 순차적으로 학습한다.
해설
정답: 2. 부스팅은 이전 모델이 틀린 데이터에 더 높은 가중치를 부여하며 순차 학습한다. 동일한 가중치를 부여한다는 설명은 옳지 않다.
오답 풀이
- 1번: 배깅은 부트스트랩 샘플별 학습 후 집계(보팅·평균)하는 방식이다.
- 2번: 오분류 데이터의 가중치를 갱신하므로 동일 가중치가 아니다.
- 3번: 다수결 보팅의 정의로 옳다.
- 4번: 랜덤포레스트는 배깅 + 변수 무작위 선택으로 다수의 트리를 만든다.
보충 개념 AdaBoost는 오분류 표본의 가중치를 키우고, GBM은 잔차(기울기)를 다음 모델이 학습하는 방식의 부스팅이다.
- 1.
문제 43
4지선다아래 설명에서 해당하는 활성화 함수는 무엇인가?
입력층이 직접 출력층으로 연결되고 출력층의 노드가 1개인 인공 신경망에서 이 활성화 함수를 사용하면 로지스틱 회귀 모형과 작동 원리가 동일해진다.
- 1.
Sigmoid
- 2.
Tanh
- 3.
ReLU
- 4.
Softmax
정답·해설 보기▾
정답
1번
Sigmoid
해설
정답: 1. 은닉층 없이 입력이 출력 노드 1개로 연결된 신경망에서 시그모이드 활성화 함수를 사용하면 로지스틱 회귀와 동일한 모형이 된다.
오답 풀이
- 1번: 시그모이드는 선형결합을 0~1 확률로 변환하므로 로지스틱 회귀와 동일한 구조를 만든다.
- 2번: Tanh는 출력 범위가 −1~1로 로지스틱 회귀와 다르다.
- 3번: ReLU는 max(0, x)로 확률 해석이 불가하다.
- 4번: Softmax는 다범주 출력에 사용된다.
보충 개념 로지스틱 회귀: P(y=1) = 1/(1+e^(−(β₀+β₁x₁+…))) — 단층 신경망 + 시그모이드와 수식이 동일하다.
- 1.
문제 44
4지선다아래 오분류표를 참고하여 민감도를 구하시오.
구분 예측 True(P) 예측 False(N) 실제 True 200 (TP) 400 (FN) 실제 False 100 (FP) 300 (TN) - 1.
0.33
- 2.
0.5
- 3.
0.75
- 4.
0.8
정답·해설 보기▾
정답
1번
0.33
해설
정답: 1. 민감도(Sensitivity) = TP/(TP+FN) = 200/(200+400) = 200/600 ≈ 0.33이다.
오답 풀이
- 2번: 0.5는 전체 정확도 (200+300)/1000을 계산한 값이다.
- 3번: 0.75는 특이도 TN/(TN+FP) = 300/400을 계산한 값이다.
- 4번: 0.8은 잘못된 조합의 계산 값이다.
보충 개념 민감도(재현율)는 실제 양성 중 양성으로 예측한 비율, 특이도는 실제 음성 중 음성으로 예측한 비율, 정밀도는 양성 예측 중 실제 양성의 비율이다.
- 1.
문제 45
4지선다혼합분포군집 모델에서 최대가능도추정을 보완하기 위해 사용되는 분석 기법은?
- 1.
K-NN 알고리즘
- 2.
K-평균 알고리즘
- 3.
Apriori 알고리즘
- 4.
EM 알고리즘
정답·해설 보기▾
정답
4번
EM 알고리즘
해설
정답: 4. 혼합분포군집(예: 가우시안 혼합 모델)은 잠재변수가 있어 가능도를 직접 최대화하기 어려우므로 EM(Expectation-Maximization) 알고리즘으로 모수를 추정한다.
오답 풀이
- 1번: K-NN은 최근접 이웃 기반의 분류·회귀 기법이다.
- 2번: K-평균은 거리 기반 군집화 알고리즘이다.
- 3번: Apriori는 연관 규칙 탐색 알고리즘이다.
- 4번: E단계(소속 확률 계산)와 M단계(모수 갱신)를 반복하는 EM이 정답이다.
보충 개념 EM 알고리즘은 로그 가능도가 수렴할 때까지 E단계와 M단계를 반복하며, 초기값에 따라 국소 최적해에 빠질 수 있다.
- 1.
문제 46
4지선다아래 주성분 분석(PCA)의 Scree plot을 통해 유의미한 주성분의 수로 적절한 것은?
- 1.
1
- 2.
3
- 3.
5
- 4.
7
정답·해설 보기▾
정답
2번
3
해설
정답: 2. Scree plot에서 고유값이 가파르게 감소하다가 완만해지는 엘보(elbow) 지점이 4번째 주성분부터이며, 고유값 1 기준선 위에 있는 주성분도 3개까지이므로 유의미한 주성분 수는 3개이다.
오답 풀이
- 1번: 1개만 선택하면 두 번째·세 번째 주성분이 설명하는 큰 분산을 놓친다.
- 3·4번: 4번째 이후의 주성분은 고유값이 1 미만으로 작아 추가 설명력이 미미하다.
보충 개념 Scree plot은 주성분 번호별 고유값을 그린 그래프로, 곡선이 완만해지기 직전까지의 주성분을 선택한다. 고유값 1 이상 기준(Kaiser)과 함께 사용된다.
- 1.
문제 47
4지선다다음 중 군집분석 기법에 대한 설명으로 적절하지 않은 것은?
- 1.
DBSCAN은 밀도 기반 군집화 방식으로 초기 중심값 설정이 불필요하다.
- 2.
가우시안 혼합 모델(GMM)은 EM 알고리즘을 사용하여 모델 매개변수를 추정하며, 초기 중심값 설정에 따라 그 결과가 달라질 수 있다.
- 3.
자기 조직화 지도(SOM)는 비지도 학습으로 차원축소와 군집화를 동시에 수행한다.
- 4.
자기 조직화 지도(SOM)는 모든 입력 노드에 동일한 수의 데이터가 할당된다.
정답·해설 보기▾
정답
4번
자기 조직화 지도(SOM)는 모든 입력 노드에 동일한 수의 데이터가 할당된다.
해설
정답: 4. SOM의 각 노드(뉴런)에 할당되는 데이터 수는 데이터 분포에 따라 달라지며, 모든 노드에 동일한 수가 할당된다는 보장은 없다.
오답 풀이
- 1번: DBSCAN은 밀도 임계값(eps, minPts)으로 군집을 형성하므로 초기 중심이 필요 없다.
- 2번: GMM은 EM으로 추정하며 초기값에 따라 국소해가 달라질 수 있다.
- 3번: SOM은 고차원 데이터를 저차원 격자에 사상하여 차원축소와 군집화를 함께 수행한다.
- 4번: 노드별 데이터 할당 수는 균등하지 않으므로 옳지 않다.
보충 개념 SOM은 경쟁 학습으로 승자 노드와 이웃 노드의 가중치를 갱신하며, 입력 공간의 위상(topology)을 보존하는 특징이 있다.
- 1.
문제 48
4지선다군집분석에 대한 설명으로 적절하지 않은 것은?
- 1.
계층적 군집분석은 덴드로그램을 통해 시각화하여 직관적으로 표현할 수 있다.
- 2.
K-평균 군집분석에서 초기 중심값 설정은 군집분석 결과에 영향을 주지 않는다.
- 3.
이상치(Outlier)나 소음(Noise) 데이터는 군집분석의 성능에 영향을 줄 수 있으므로 전처리 과정에서 제거할 필요가 있다.
- 4.
DBSCAN 방식은 군집 개수를 미리 정할 필요가 없다.
정답·해설 보기▾
정답
2번
K-평균 군집분석에서 초기 중심값 설정은 군집분석 결과에 영향을 주지 않는다.
해설
정답: 2. K-평균은 초기 중심값에 따라 수렴하는 군집 결과가 달라질 수 있다. 영향을 주지 않는다는 설명은 옳지 않다.
오답 풀이
- 1번: 계층적 군집은 병합 과정을 덴드로그램으로 시각화할 수 있다.
- 2번: 초기 중심 민감성은 K-평균의 대표적 한계이므로 옳지 않다.
- 3번: 이상치는 군집 중심을 왜곡할 수 있어 전처리에서 처리해야 한다.
- 4번: DBSCAN은 밀도 기반으로 군집 수를 사전에 지정하지 않는다.
보충 개념 K-평균의 초기값 민감성 보완: 여러 초기값으로 반복 수행, k-means++ 초기화, 계층적 군집 결과를 초기값으로 활용.
- 1.
문제 49
4지선다다음 중 군집 내 오차 제곱합(SSE)을 최소화하는 방식으로 군집을 수행하는 방식은?
- 1.
중심 연결법
- 2.
평균 연결법
- 3.
와드 연결법
- 4.
단일 연결법
정답·해설 보기▾
정답
3번
와드 연결법
해설
정답: 3. 와드 연결법(Ward linkage)은 군집 병합 시 군집 내 오차 제곱합(SSE)의 증가량이 최소가 되는 군집들을 합치는 방법이다.
오답 풀이
- 1번: 중심 연결법은 군집 중심 간 거리를 기준으로 한다.
- 2번: 평균 연결법은 모든 개체 쌍 거리의 평균을 기준으로 한다.
- 3번: SSE 증가 최소화 기준이므로 옳다.
- 4번: 단일(최단) 연결법은 가장 가까운 개체 쌍의 거리를 기준으로 한다.
보충 개념 와드법은 군집 내 동질성을 중시해 비슷한 크기의 조밀한 군집을 만드는 경향이 있다.
- 1.
문제 50
4지선다아래 특정 기간 동안 판매된 음료 구매 건수를 통해 “우유 → 커피”의 지지도는?
음료 커피 우유 커피+우유 전체 거래 건수 구매건수 20 50 30 100 - 1.
0.2
- 2.
0.3
- 3.
0.4
- 4.
0.5
정답·해설 보기▾
정답
2번
0.3
해설
정답: 2. 지지도(우유 → 커피) = (우유와 커피가 동시에 포함된 거래 수)/(전체 거래 수) = 30/100 = 0.3이다.
오답 풀이
- 1번: 0.2는 커피 단독 구매 건수(20)를 분자로 쓴 잘못된 계산이다.
- 3번: 0.4는 신뢰도(우유→커피) = 30/80 = 0.375를 지지도로 잘못 적용한 값에 가깝다.
- 4번: 0.5는 우유 구매 건수(50)를 분자로 쓴 잘못된 계산이다.
보충 개념 지지도는 규칙의 방향과 무관하게 동시 거래 비율로 계산되므로 지지도(우유→커피) = 지지도(커피→우유)이다. 반면 신뢰도는 방향에 따라 달라진다.
- 1.