[ADsP] 2025년 47회 기출 복원

자격증	ADsP(데이터분석 준전문가)
연도	2025년
회차	47회
문항 수	50문항

과목	문항 수	비중
데이터 이해	10문항	20%
데이터 분석 기획	10문항	20%
데이터 분석	30문항	60%

📝 기출문제 전체 보기

데이터분석 준전문가(ADsP) 2025년 47회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.

문제 1
4지선다
다음 암묵지와 형식지의 상호작용으로 옳은 것은?
- 1.
  공통화 → 표출화 → 연결화 → 내면화
- 2.
  공통화 → 표출화 → 내면화 → 연결화
- 3.
  표출화 → 공통화 → 연결화 → 내면화
- 4.
  표출화 → 연결화 → 공통화 → 내면화
정답·해설 보기▾▴
정답
1번
공통화 → 표출화 → 연결화 → 내면화
해설
정답: 1. SECI 모델의 지식 변환 과정은 공통화(Socialization) → 표출화(Externalization) → 연결화(Combination) → 내면화(Internalization) 순서로 순환한다.

오답 풀이

1번: 암묵지 공유(공통화)에서 출발해 형식지로 표출하고, 형식지를 결합(연결화)한 뒤 다시 개인의 암묵지로 체화(내면화)하는 올바른 순서이다.

2·3·4번: 단계의 순서가 SECI 모델과 다르다.

보충 개념 공통화는 암묵지→암묵지, 표출화는 암묵지→형식지, 연결화는 형식지→형식지, 내면화는 형식지→암묵지의 변환이다.
문제 2
4지선다
다음 DIKW 단계를 설명하는 것 중 다른 하나는 무엇인가?
- 1.
  이번 8월에 지난 1년 매출액의 50%가 집중되어 있다.
- 2.
  지난 1년 매출은 1월에서 6월까지 증가하였다.
- 3.
  높은 여름 온도로 인해 올해 8월 매출액은 2000만원으로 예상된다.
- 4.
  8월 구매 고객의 50%가 대부분 30대 남성 고객이다.
정답·해설 보기▾▴
정답
3번
높은 여름 온도로 인해 올해 8월 매출액은 2000만원으로 예상된다.
해설
정답: 3. 1·2·4번은 데이터를 정리·요약해 의미를 부여한 정보(Information) 단계인 반면, 3번은 근거를 바탕으로 미래를 예측·추론하는 지혜(Wisdom) 단계에 해당한다.

오답 풀이

1번: 매출 집중 현황의 요약으로 정보 단계이다.

2번: 기간별 매출 추이 요약으로 정보 단계이다.

3번: 아직 발생하지 않은 일을 예상하는 추론으로 다른 보기들과 단계가 다르다.

4번: 고객 구성 요약으로 정보 단계이다.

보충 개념 DIKW에서 정보는 데이터의 가공·요약, 지식은 정보의 구조화와 활용, 지혜는 지식에 기반한 창의적 예측·판단이다.
문제 3
4지선다
아래 설명에 대한 데이터베이스의 특성으로 올바른 것은?

대량의 정보를 정보처리 기기가 읽고 쓸 수 있는 기계 가독성을 가지며, 필요한 정보를 쉽게 찾을 수 있는 검색 가능성, 그리고 원거리에서도 활용할 수 있는 원격 조작성을 가진다.
- 1.
  정보 축적 및 전달 측면
- 2.
  정보 이용 측면
- 3.
  정보 관리 측면
- 4.
  정보기술발전 측면
정답·해설 보기▾▴
정답
1번
정보 축적 및 전달 측면
해설
정답: 1. 기계 가독성·검색 가능성·원격 조작성은 데이터베이스의 정보 축적 및 전달 측면의 특성이다.

오답 풀이

1번: 세 가지 특성 모두 축적·전달 측면의 정의와 일치한다.

2번: 정보 이용 측면은 다양한 이용자의 요구에 맞는 정보 획득에 관한 특성이다.

3번: 정보 관리 측면은 체계적 정리·저장과 갱신·유지를 통한 일관된 관리에 관한 특성이다.

4번: 정보기술발전 측면은 DB가 하드웨어·소프트웨어·네트워크 기술 발전을 견인한다는 특성이다.

보충 개념 데이터베이스 특성 측면: 정보 축적·전달(기계가독성·검색가능성·원격조작성), 정보 이용, 정보 관리, 정보기술 발전, 경제·산업 측면.
문제 4
4지선다
다음 중 개인정보를 타인이 알아볼 수 없도록 식별정보를 제거하거나 변형하는 것을 의미하는 용어는?
- 1.
  표준화
- 2.
  익명화
- 3.
  공용화
- 4.
  내면화
정답·해설 보기▾▴
정답
2번
익명화
해설
정답: 2. 익명화(anonymization)는 개인을 식별할 수 있는 정보를 제거하거나 변형하여 누구인지 알아볼 수 없게 하는 처리이다.

오답 풀이

1번: 표준화는 데이터의 형식·규칙을 통일하는 작업이다.

2번: 사생활 침해를 방지하기 위한 개인정보 보호 기법으로 옳다.

3번: 공용화는 여러 사용자가 함께 사용하도록 하는 것을 의미한다.

4번: 내면화는 SECI 모델에서 형식지가 암묵지로 체화되는 과정이다.

보충 개념 익명화 기법에는 가명 처리, 일반화(범주화), 총계 처리, 데이터 삭제, 데이터 마스킹 등이 있다.
문제 5
4지선다
빅데이터의 특징으로 가장 적절하지 않은 것은?
- 1.
  Volume: 기존 데이터베이스의 한계를 뛰어넘는 초대규모의 데이터 양
- 2.
  Velocity: 실시간으로 데이터를 생성하고 빠르게 처리해야 하는 속도
- 3.
  Variety: 텍스트, 이미지, 영상, 음성 등 다양한 형태의 데이터(정형, 반정형, 비정형)
- 4.
  Availability: 데이터가 필요할 때 데이터에 접근할 수 있는 정도
정답·해설 보기▾▴
정답
4번
Availability: 데이터가 필요할 때 데이터에 접근할 수 있는 정도
해설
정답: 4. 빅데이터의 기본 특징은 3V(Volume, Velocity, Variety)이며 Availability(가용성)는 빅데이터의 특징으로 분류되지 않는다.

오답 풀이

1번: Volume(규모)은 3V의 하나로 옳은 설명이다.

2번: Velocity(속도)는 실시간 생성·처리 요구를 의미한다.

3번: Variety(다양성)는 정형·반정형·비정형 데이터의 다양한 형태를 의미한다.

4번: 가용성은 시스템 품질 속성이지 빅데이터의 3V 특징이 아니다.

보충 개념 3V에 Value(가치)·Veracity(정확성)를 더해 4V·5V로 확장하기도 한다.
문제 6
4지선다
연관분석에 대한 설명으로 가장 적절하지 않은 것은?
- 1.
  상품이나 서비스를 구매하는 등 일련의 거래나 사건 안에 존재하는 항목 간의 일정한 연관 규칙을 발견하는 분석이다.
- 2.
  연관분석 중 한 종류로 장바구니 분석이 있다.
- 3.
  연관분석은 변수 간 선형관계를 파악하는 분석 방법이다.
- 4.
  대표적인 측정지표로 지지도, 신뢰도 및 향상도가 있다.
정답·해설 보기▾▴
정답
3번
연관분석은 변수 간 선형관계를 파악하는 분석 방법이다.
해설
정답: 3. 변수 간 선형관계를 파악하는 것은 상관분석이며, 연관분석은 거래 항목 간의 동시 발생 규칙을 발견하는 기법이다.

오답 풀이

1번: 거래·사건 내 항목 간 연관 규칙 발견이 연관분석의 정의이다.

2번: 장바구니 분석은 연관분석의 대표 사례이다.

3번: 선형관계 파악은 상관분석의 설명이므로 옳지 않다.

4번: 지지도·신뢰도·향상도가 연관 규칙의 3대 평가지표이다.

보충 개념 연관분석은 ‘If-Then’ 형태의 규칙으로 결과를 표현하며 비지도 학습에 속한다.
문제 7
4지선다
다음 보기 중에서 빅데이터 분석 기법과 그 활용 예시가 적절하지 않은 것은?
- 1.
  군집분석: 자동차 설계-제작을 반복하여 세대를 걸쳐 최적의 결과를 얻어낸다.
- 2.
  연관분석: 고객의 장바구니 데이터를 분석하여 함께 구매할 가능성이 높은 상품을 찾는다.
- 3.
  감정분석: 고객의 리뷰를 긍정 및 부정으로 분류한다.
- 4.
  사회관계망 분석: SNS 내 사용자들의 상호관계를 이미지로 시각화한다.
정답·해설 보기▾▴
정답
1번
군집분석: 자동차 설계-제작을 반복하여 세대를 걸쳐 최적의 결과를 얻어낸다.
해설
정답: 1. 세대를 거듭하며 최적 결과를 찾아가는 방식은 유전 알고리즘의 활용 예시이며, 군집분석과는 무관하다.

오답 풀이

1번: 군집분석은 유사한 개체를 그룹으로 묶는 기법으로, 진화적 최적화 사례와 연결한 것은 옳지 않다.

2번: 장바구니 동시 구매 분석은 연관분석의 대표 사례이다.

3번: 리뷰의 긍·부정 분류는 감정분석의 사례이다.

4번: 사용자 간 관계 시각화는 사회관계망 분석(SNA)의 사례이다.

보충 개념 빅데이터 분석 기법: 연관 규칙, 유형 분석(분류), 유전 알고리즘, 기계 학습, 회귀 분석, 감정 분석, 소셜 네트워크 분석 등.
문제 8
4지선다
빅데이터의 위기 요인과 해당 통제 방안에 대해 잘못 연결한 것을 모두 고르시오.

가. 사생활 침해: 정보 제공자의 동의제에서 데이터 사용자의 책임제로 전환 나. 책임원칙 훼손: 데이터 알고리즘 접근권 허용 및 객관적 인증방안 도입 다. 데이터 오용: 결과 기반 책임 원칙 강조
- 1.
  가
- 2.
  가, 나
- 3.
  나, 다
- 4.
  가, 나, 다
정답·해설 보기▾▴
정답
3번
나, 다
해설
정답: 3. 책임원칙 훼손의 통제 방안은 ‘결과 기반 책임 원칙 고수’이고, 데이터 오용의 통제 방안은 ‘알고리즘 접근권 허용(알고리즈미스트)’이다. 나와 다는 통제 방안이 서로 바뀌어 있다.

오답 풀이

가: 사생활 침해의 통제 방안은 동의제에서 책임제로의 전환이 맞다.

나: 알고리즘 접근권 허용은 데이터 오용에 대한 통제 방안이므로 잘못 연결되었다.

다: 결과 기반 책임 원칙은 책임원칙 훼손에 대한 통제 방안이므로 잘못 연결되었다.

보충 개념 위기 요인-통제 방안 매칭: 사생활 침해→사용자 책임제, 책임원칙 훼손→결과 기반 책임 원칙, 데이터 오용→알고리즘 접근권 허용.
문제 9
4지선다
아래에서 설명하는 데이터베이스 시스템은 무엇인가?

은행 거래, 온라인 쇼핑, 예약 등 실시간으로 발생하는 대규모 데이터 삽입, 업데이트, 삭제와 같은 짧고 빈번한 트랜잭션을 수시로 처리하는 정보 시스템
- 1.
  OLAP
- 2.
  OLTP
- 3.
  CRM
- 4.
  SCM
정답·해설 보기▾▴
정답
2번
OLTP
해설
정답: 2. 짧고 빈번한 트랜잭션(삽입·갱신·삭제)을 실시간으로 처리하는 시스템은 OLTP(Online Transaction Processing)이다.

오답 풀이

1번: OLAP는 다차원 데이터의 대화식 분석 시스템이다.

2번: 은행 거래·예약 등 온라인 거래 처리는 OLTP의 대표 사례이다.

3번: CRM은 고객 관계 관리 시스템이다.

4번: SCM은 공급망 관리 시스템이다.

보충 개념 OLTP는 운영계(거래 처리), OLAP는 정보계(분석)로 구분되며 OLTP 데이터가 데이터 웨어하우스를 거쳐 OLAP 분석에 활용된다.
문제 10
4지선다
데이터 사이언티스트에 대한 설명으로 적절하지 않은 것은?
- 1.
  데이터를 수집, 분석하여 숨겨진 패턴을 발견하고 예측 모델을 만들어 비즈니스 문제를 해결하고 새로운 가치를 창출하는 전문가이다.
- 2.
  개인 역량과 분석 능력이 최우선되며, 타인과의 의사소통 능력은 상대적으로 중요하지 않다.
- 3.
  통계, 프로그래밍, 머신러닝, 그리고 특정 산업 도메인 지식을 종합적으로 활용해 기업의 의사결정을 돕고 수익 증대나 비용 절감에 기여한다.
- 4.
  문제 정의부터 모델 개발 및 배포까지 전 과정에 참여하며, AI 엔지니어 등 다른 직군과 협업하기도 한다.
정답·해설 보기▾▴
정답
2번
개인 역량과 분석 능력이 최우선되며, 타인과의 의사소통 능력은 상대적으로 중요하지 않다.
해설
정답: 2. 데이터 사이언티스트에게는 분석 결과를 설득력 있게 전달하는 커뮤니케이션·스토리텔링 등 소프트 스킬이 하드 스킬 못지않게 중요하다.

오답 풀이

1번: 데이터 기반 가치 창출 전문가라는 정의로 옳다.

2번: 의사소통 능력을 경시한 설명이므로 옳지 않다.

3번: 통계·프로그래밍·도메인 지식의 종합 활용은 옳은 설명이다.

4번: 전 과정 참여와 타 직군 협업도 옳은 설명이다.

보충 개념 데이터 사이언티스트의 역량 — 하드 스킬: 분석 기술·모델링 능력, 소프트 스킬: 통찰력 있는 분석, 설득력 있는 전달(스토리텔링), 다분야 협력.
문제 11
4지선다
다음 중 분석 기획 단계에서 수행해야 하는 업무로 가장 적절하지 않은 것은?
- 1.
  해결하려는 문제를 기반으로 분석 목적과 기대 효과를 명확하게 정의한다.
- 2.
  분석 정확도를 높이기 위해 최대한 복잡한 분석 모형을 설정한다.
- 3.
  분석에 필요한 데이터의 종류와 양을 설정한다.
- 4.
  분석을 방해하는 장애 요소들에 대해 사전 계획을 수립한다.
정답·해설 보기▾▴
정답
2번
분석 정확도를 높이기 위해 최대한 복잡한 분석 모형을 설정한다.
해설
정답: 2. 분석 모형은 정확도뿐 아니라 해석 가능성·운영 효율을 함께 고려해야 하며, 복잡할수록 좋은 것이 아니다. 모형의 복잡도 결정은 기획 단계의 업무도 아니다.

오답 풀이

1번: 분석 목적·기대 효과 정의는 기획 단계의 핵심 업무이다.

2번: 복잡한 모형은 과적합·해석 곤란을 유발할 수 있어 옳지 않다.

3번: 필요 데이터의 종류·양 설정은 기획 단계 업무이다.

4번: 장애 요소에 대한 사전 계획(위험 관리)도 기획 단계 업무이다.

보충 개념 분석 기획 시 고려사항: 가용 데이터, 적절한 유스케이스, 장애 요소에 대한 사전 계획 수립.
문제 12
4지선다
다음 중 데이터 형태에 대한 설명으로 적절하지 않은 것은?
- 1.
  정형 데이터는 행/열로 구성된 스프레드시트 형태로 나타낼 수 있다.
- 2.
  IoT 기기에서 생성되는 로그 데이터는 대표적인 정형 데이터이다.
- 3.
  반정형 데이터는 데이터 구조에 대한 메타 정보를 데이터 내부에 포함한다.
- 4.
  대표적인 반정형 데이터로는 HTML, XML, JSON 등 웹 기반 데이터가 있다.
정답·해설 보기▾▴
정답
2번
IoT 기기에서 생성되는 로그 데이터는 대표적인 정형 데이터이다.
해설
정답: 2. 기계·센서가 생성하는 로그 데이터는 대표적인 반정형 데이터이며, 정형 데이터로 분류하는 것은 옳지 않다.

오답 풀이

1번: 정형 데이터는 고정된 스키마(행/열)를 가지며 스프레드시트·RDB 테이블로 표현된다.

2번: 로그는 스키마가 데이터에 포함된 반정형 데이터이므로 옳지 않다.

3번: 반정형 데이터는 태그 등 메타 정보를 데이터 안에 포함한다.

4번: HTML·XML·JSON은 대표적인 반정형 데이터이다.

보충 개념 정형(RDB·스프레드시트) / 반정형(XML·JSON·HTML·로그·센서 데이터) / 비정형(텍스트·이미지·영상·음성)으로 구분한다.
문제 13
4지선다
다음 중 데이터 탐색 과정 단계에 대한 설명으로 적절하지 않은 것은?
- 1.
  구체적인 문제 해결 방안을 체계적으로 설계한다.
- 2.
  탐색 단계 결과를 통해 분석 방향과 방법을 구체화할 수 있다.
- 3.
  외부에서 적절한 참조 모델을 통해 보다 분석 속도를 향상시킬 수 있다.
- 4.
  분석 대상 데이터의 특성을 검토하고 주요 변수의 의미를 파악한다.
정답·해설 보기▾▴
정답
1번
구체적인 문제 해결 방안을 체계적으로 설계한다.
해설
정답: 1. 구체적인 해결 방안의 체계적 설계는 탐색 이후의 문제 정의·해결 방안 탐색 단계에서 수행하는 활동이며, 탐색 단계의 활동이 아니다.

오답 풀이

1번: 탐색 단계는 가능성을 발굴하는 단계이지 해결 방안을 설계하는 단계가 아니므로 옳지 않다.

2번: 탐색 결과는 분석 방향·방법 구체화의 근거가 된다.

3번: 외부 참조 모델(벤치마킹)을 활용하면 탐색·분석 속도를 높일 수 있다.

4번: 데이터 특성 검토와 변수 의미 파악은 탐색 단계의 핵심 활동이다.

보충 개념 하향식 접근은 문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 검토의 순서로 진행된다.
문제 14
4지선다
분석 과제 발굴 시 분석 대상은 명확하나 분석 방법을 모르는 경우 해당되는 분석 주제는?
- 1.
  솔루션
- 2.
  통찰
- 3.
  최적화
- 4.
  발견
정답·해설 보기▾▴
정답
1번
솔루션
해설
정답: 1. 분석 대상(What)은 알지만 분석 방법(How)을 모르는 경우는 솔루션(Solution) 유형에 해당한다.

오답 풀이

1번: 대상O·방법X의 조합으로 옳다.

2번: 통찰은 대상은 모르지만 방법은 아는 경우이다.

3번: 최적화는 대상과 방법을 모두 아는 경우이다.

4번: 발견은 대상과 방법을 모두 모르는 경우이다.

보충 개념 분석 주제 유형 4가지 — 최적화(대상O·방법O), 솔루션(대상O·방법X), 통찰(대상X·방법O), 발견(대상X·방법X).
문제 15
4지선다
상향식 접근 방식에 대한 설명으로 적절하지 않은 것은?
- 1.
  반복적 시행착오를 통해 문제를 도출하는 프로토타이핑 접근 방식을 사용한다.
- 2.
  제시된 문제가 확실한 경우 체계적인 단계화로 문제를 해결하는 방식이다.
- 3.
  분석 주제 유형이 ‘통찰’ 및 ‘발견’일 때 사용되는 방식이다.
- 4.
  비지도 학습과 유사한 탐색적 분석 방식이다.
정답·해설 보기▾▴
정답
2번
제시된 문제가 확실한 경우 체계적인 단계화로 문제를 해결하는 방식이다.
해설
정답: 2. 문제가 확실할 때 체계적으로 단계화하여 해결하는 것은 하향식 접근 방식의 특징이다.

오답 풀이

1번: 프로토타이핑을 통한 반복적 시행착오는 상향식의 특징이다.

2번: 확실한 문제의 체계적 단계화는 하향식이므로 옳지 않다.

3번: 문제 정의가 어려운 통찰·발견 유형에서 상향식이 사용된다.

4번: 상향식은 데이터에서 패턴을 찾는 비지도 학습적·탐색적 성격을 가진다.

보충 개념 하향식은 문제가 주어진 상태에서 해법을 찾는 수렴적 접근, 상향식은 데이터 기반으로 문제를 발굴하는 발산적 접근이다.
문제 16
4지선다
분석 마스터 플랜 수립 시 우선 고려사항을 모두 고르시오.

가. 전략적 중요도 나. 비즈니스 성과 다. 실행 용이성
- 1.
  가
- 2.
  가, 나
- 3.
  나, 다
- 4.
  가, 나, 다
정답·해설 보기▾▴
정답
4번
가, 나, 다
해설
정답: 4. 분석 마스터 플랜의 우선순위 고려 요소는 전략적 중요도, 비즈니스 성과 및 ROI, 실행 용이성으로 세 가지 모두 해당한다.

오답 풀이

가: 전략 목표와의 부합 정도는 핵심 고려 요소이다.

나: 비즈니스 성과·투자 수익률(ROI)도 고려 요소이다.

다: 투자·기술 측면의 실행 용이성도 고려 요소이다.

보충 개념 마스터 플랜에서는 우선순위(전략적 중요도·비즈니스 성과·실행 용이성)와 함께 적용 범위·방식(업무 내재화 수준, 분석 데이터 적용 수준, 기술 적용 수준)을 고려해 로드맵을 수립한다.
문제 17
4지선다
아래 설명에 해당되는 분석 성숙도 단계는 무엇인가?

분석이 막 시작되는 단계로 일부 부서에서만 분석이 활용되고 있으며 분석 가능한 환경과 기반 및 시스템을 구축하기 시작하는 단계이다.
- 1.
  도입
- 2.
  활용
- 3.
  확산
- 4.
  최적화
정답·해설 보기▾▴
정답
1번
도입
해설
정답: 1. 분석을 막 시작해 환경과 시스템을 구축하기 시작하는 단계는 성숙도 모델의 첫 단계인 도입 단계이다.

오답 풀이

1번: 도입 단계의 정의로 옳다.

2번: 활용 단계는 분석 결과를 실제 업무에 적용하는 단계이다.

3번: 확산 단계는 전사 차원에서 분석을 관리·공유하는 단계이다.

4번: 최적화 단계는 분석을 진화시켜 혁신·성과 향상에 기여하는 단계이다.

보충 개념 분석 성숙도 모델은 도입 → 활용 → 확산 → 최적화의 4단계로, 비즈니스·조직역량·IT의 3개 부문을 평가한다.
문제 18
4지선다
분석 업무를 별도의 전담 조직에서 담당하여 회사 차원의 우선순위에 따라 일괄 수행하는 분석 조직 유형은 무엇인가?
- 1.
  분산형 조직
- 2.
  협업형 조직
- 3.
  집중형 조직
- 4.
  기능 중심형 조직
정답·해설 보기▾▴
정답
3번
집중형 조직
해설
정답: 3. 집중형(집중 구조) 조직은 전사 분석 업무를 별도의 전담 조직에서 담당하며 회사 차원의 우선순위에 따라 수행한다.

오답 풀이

1번: 분산형은 분석 인력을 현업 부서에 직접 배치하는 구조이다.

2번: 협업형은 일반적인 분류(집중·기능·분산)에 해당하지 않는 용어이다.

3번: 전담 조직의 일괄 수행 구조로 옳다.

4번: 기능 중심형은 별도 조직 없이 각 부서에서 자체 분석하는 구조이다.

보충 개념 분석 조직 구조 — 집중형: 전담 조직·전사 우선순위(현업과 이원화 우려), 기능형: 부서별 자체 분석(전사 관점 부재), 분산형: 분석 인력의 현업 배치(신속한 실무 적용).
문제 19
4지선다
데이터 거버넌스에 대한 설명으로 적절하지 않은 것은?
- 1.
  조직의 데이터를 안전하고 정확하며 신뢰할 수 있도록 관리하기 위한 정책, 프로세스, 표준, 역할, 기술을 정의하고 실행하는 체계적인 접근 방식이다.
- 2.
  구성 요소로는 원칙, 조직, 프로세스가 있다.
- 3.
  데이터 표준용어 설정, 명명 규칙 수립 등 데이터 표준화 작업이 필요하다.
- 4.
  데이터 거버넌스는 전담 조직에서 독립적으로 운영되어야 한다.
정답·해설 보기▾▴
정답
4번
데이터 거버넌스는 전담 조직에서 독립적으로 운영되어야 한다.
해설
정답: 4. 데이터 거버넌스는 특정 전담 조직만의 독립 업무가 아니라 전사 차원에서 정책·표준을 수립하고 모든 조직이 함께 준수하는 체계이다.

오답 풀이

1번: 데이터 관리 정책·프로세스·표준·역할의 체계적 접근이라는 정의로 옳다.

2번: 거버넌스의 3대 구성 요소는 원칙·조직·프로세스이다.

3번: 표준용어·명명 규칙·데이터 사전 등 표준화는 거버넌스 체계의 핵심 요소이다.

4번: 독립 운영이 아닌 전사적 협력·연계가 필요하므로 옳지 않다.

보충 개념 데이터 거버넌스 체계: 데이터 표준화 → 표준화 활동(모니터링·개선), 관리 체계(메타데이터·데이터 사전), 저장소 관리.
문제 20
4지선다
분석 준비도 평가 요소로 적절하지 않은 것은?
- 1.
  분석 업무에 투입 가능한 인력 및 조직
- 2.
  분석에 사용할 분석 기법
- 3.
  분석에 활용할 데이터
- 4.
  분석에 필요한 비용 및 예산
정답·해설 보기▾▴
정답
4번
분석에 필요한 비용 및 예산
해설
정답: 4. 분석 준비도는 인력·조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라, 분석 업무의 6개 영역으로 진단하며 비용·예산은 평가 요소가 아니다.

오답 풀이

1번: 인력 및 조직은 준비도 평가 영역이다.

2번: 분석 기법 보유·활용 수준도 평가 영역이다.

3번: 분석 데이터의 보유·품질도 평가 영역이다.

4번: 비용·예산은 준비도 진단 항목에 포함되지 않는다.

보충 개념 준비도(Readiness)는 현재의 분석 수용 태세를, 성숙도(Maturity)는 분석 역량의 발전 단계를 진단한다.
문제 21
4지선다
절대적 기준인 영점(0)이 존재하는 척도는?
- 1.
  명목척도
- 2.
  서열척도
- 3.
  등간척도
- 4.
  비율척도
정답·해설 보기▾▴
정답
4번
비율척도
해설
정답: 4. 비율척도는 절대 영점이 존재하여 사칙연산이 모두 가능한 척도이다(예: 무게, 키, 소득).

오답 풀이

1번: 명목척도는 단순 분류(성별·혈액형)로 영점 개념이 없다.

2번: 서열척도는 순위 정보만 가진다(만족도 등급).

3번: 등간척도는 간격은 일정하지만 절대 영점이 없다(온도 ℃).

4번: 절대 영점이 있어 비율 비교(2배, 3배)가 가능한 척도로 옳다.

보충 개념 척도 위계: 명목 < 서열 < 등간 < 비율. 등간척도까지는 덧셈·뺄셈만, 비율척도는 곱셈·나눗셈(비율 해석)까지 가능하다.
문제 22
4지선다
다음 중 탐색적 데이터 분석(EDA)의 특징으로 적절하지 않은 것은?
- 1.
  데이터의 전반적인 구조를 파악하고 이상치 및 결측치를 발견하는 단계이다.
- 2.
  동일한 분석 결과를 얻기 위해 재현성을 검증하는 단계이다.
- 3.
  상관관계 분석 및 시각화를 통해 종속변수에 영향을 주는 주요 독립변수를 탐색한다.
- 4.
  변수의 개수, 데이터 타입 및 기초 통계량(평균, 중앙값)을 확인하는 단계이다.
정답·해설 보기▾▴
정답
2번
동일한 분석 결과를 얻기 위해 재현성을 검증하는 단계이다.
해설
정답: 2. 재현성 검증은 모델 평가·검증 단계의 활동이며, EDA는 데이터의 구조와 패턴을 탐색하는 단계이다.

오답 풀이

1번: 분포·이상치·결측 파악은 EDA의 핵심 활동이다.

2번: 재현성 검증은 EDA의 특징이 아니므로 옳지 않다.

3번: 상관분석·시각화를 통한 주요 변수 탐색은 EDA 활동이다.

4번: 변수 구성·기초 통계량 확인도 EDA의 기본 활동이다.

보충 개념 EDA의 4가지 주제: 저항성, 잔차 해석, 자료 재표현, 현시성(시각화).
문제 23
4지선다
아래 상자그림(Box Plot)을 참고하여 이상치를 판단하는 하한과 상한의 값은?
- 1.
  -4, 20
- 2.
  -4, 24
- 3.
  -8, 20
- 4.
  -8, 24
정답·해설 보기▾▴
정답
4번
-8, 24
해설
정답: 4. 상자그림에서 Q1 = 4, Q3 = 12이므로 IQR = 12 − 4 = 8이다. 이상치 판단 하한 = Q1 − 1.5×IQR = 4 − 12 = −8, 상한 = Q3 + 1.5×IQR = 12 + 12 = 24이다.

오답 풀이

1번: 하한·상한 모두 1×IQR 또는 잘못된 사분위수로 계산한 값이다.

2번: 하한을 Q1 − IQR로 잘못 계산한 값이다.

3번: 상한을 Q3 + IQR로 잘못 계산한 값이다.

4번: 1.5×IQR 규칙을 정확히 적용한 값이다.

보충 개념 상자그림의 수염 끝(최소 2, 최대 15)이 아니라 상자의 경계(Q1, Q3)를 기준으로 1.5×IQR 규칙을 적용해야 한다.
문제 24
4지선다
다음 중 가설검정의 제1종 및 2종 오류 해석에 대한 설명으로 적절하지 않은 것은?
- 1.
  제1종 오류는 귀무가설이 실제로는 참인데도 불구하고, 이를 기각하고 대립가설을 채택하는 오류이다.
- 2.
  제2종 오류는 실제로는 대립가설이 참인데도 불구하고, 귀무가설을 기각하지 못하고 채택하는 통계적 오류이다.
- 3.
  유의수준(α)은 제1종 오류의 최소 허용 한계이다.
- 4.
  유의수준을 너무 작게 설정하면 2종 오류를 범할 확률이 높아진다.
정답·해설 보기▾▴
정답
3번
유의수준(α)은 제1종 오류의 최소 허용 한계이다.
해설
정답: 3. 유의수준 α는 제1종 오류를 범할 확률의 최대 허용 한계이며, 최소 허용 한계가 아니다.

오답 풀이

1번: 참인 귀무가설을 기각하는 것이 제1종 오류이다.

2번: 거짓인 귀무가설을 기각하지 못하는 것이 제2종 오류이다.

3번: ‘최소’가 아니라 ‘최대’ 허용 한계이므로 옳지 않다.

4번: α를 줄이면 기각이 어려워져 β(2종 오류 확률)는 커지는 상충 관계가 있다.

보충 개념 검정력(1−β)은 거짓인 귀무가설을 올바르게 기각할 확률로, 표본 크기를 늘리면 α를 유지하면서 β를 줄일 수 있다.
문제 25
4지선다
다음 중 표본 조사에 대한 설명으로 적절하지 않은 것은?
- 1.
  표본 오차는 표본이 모집단을 완벽히 대표하지 못해 생기는 오차이다.
- 2.
  표본의 크기가 커질수록 표본 오차는 0에 가까워진다.
- 3.
  표본추출을 통해 비표본 오차를 최소화할 수 있다.
- 4.
  비표본 오차는 표본의 크기나 추출 방법에 관계없이 발생 가능하다.
정답·해설 보기▾▴
정답
3번
표본추출을 통해 비표본 오차를 최소화할 수 있다.
해설
정답: 3. 비표본 오차는 측정 오류·무응답·입력 실수 등 표본추출 이외의 원인으로 발생하므로 표본추출로 최소화할 수 없다. 오히려 조사 규모가 커지면 비표본 오차는 늘어날 수 있다.

오답 풀이

1번: 표본 오차는 표본이 모집단을 완전히 대표하지 못해 발생하는 오차가 맞다.

2번: 표본 크기가 커질수록 표본 오차는 줄어들어 0에 가까워진다.

3번: 표본추출은 표본 오차에 관련된 것이지 비표본 오차의 통제 수단이 아니므로 옳지 않다.

4번: 비표본 오차는 표본 크기·추출 방법과 무관하게 발생할 수 있다.

보충 개념 전수조사도 비표본 오차(측정·집계 오류)는 피할 수 없으며, 표본조사의 품질은 두 오차를 함께 관리해야 한다.
문제 26
4지선다
다음 오른쪽 꼬리 분포에서 A, B, C에 해당되는 통계량은?
- 1.
  A: 최빈값 / B: 평균 / C: 중앙값
- 2.
  A: 최빈값 / B: 중앙값 / C: 평균
- 3.
  A: 평균 / B: 중앙값 / C: 최빈값
- 4.
  A: 중앙값 / B: 최빈값 / C: 평균
정답·해설 보기▾▴
정답
2번
A: 최빈값 / B: 중앙값 / C: 평균
해설
정답: 2. 오른쪽 꼬리(양의 왜도) 분포에서는 최빈값 < 중앙값 < 평균 순서로 위치한다. 봉우리에 있는 A가 최빈값, 가운데 B가 중앙값, 꼬리 쪽으로 끌려간 C가 평균이다.

오답 풀이

1번: 평균은 꼬리 방향으로 가장 많이 끌려가므로 B가 아니라 C이다.

3번: 평균이 봉우리에 위치한다는 것은 왼쪽 꼬리 분포에서도 성립하지 않는 배치이다.

4번: 최빈값은 항상 분포의 봉우리(A)에 위치한다.

보충 개념 왜도 방향과 대표값 순서 — 오른쪽 꼬리(양의 왜도): 최빈값 < 중앙값 < 평균, 왼쪽 꼬리(음의 왜도): 평균 < 중앙값 < 최빈값, 대칭 분포: 세 값이 일치.
문제 27
4지선다
표본추출방법에 대한 설명으로 적절하지 않은 것은?
- 1.
  단순무작위추출법: 표본 선택 확률을 모두 동일하게 무작위로 표본을 추출한다.
- 2.
  계통추출법: 일련번호를 부여한 각 개체를 일정한 간격으로 나누고 각 구간에서 무작위 추출하는 방법이다.
- 3.
  집락추출법: 모집단에서 집단을 일차적으로 표집한 다음, 선정된 각 집단에서 구성원을 표본으로 추출하는 다단계 표집방법이다.
- 4.
  층화추출법: 모집단을 서로 중복되지 않는 집단 및 층(strata)으로 구분하고 각 집단 내에서 표본을 무작위 추출한다.
정답·해설 보기▾▴
정답
2번
계통추출법: 일련번호를 부여한 각 개체를 일정한 간격으로 나누고 각 구간에서 무작위 추출하는 방법이다.
해설
정답: 2. 계통추출법은 첫 구간에서만 무작위로 시작점을 정한 뒤 일정한 간격(매 k번째)으로 표본을 추출하는 방법이다. 각 구간마다 무작위 추출하는 것이 아니다.

오답 풀이

1번: 단순무작위추출은 모든 개체의 선택 확률이 동일하다.

2번: 시작점만 무작위이고 이후는 등간격 추출이므로 옳지 않다.

3번: 집락추출은 집락(군집)을 먼저 표집한 후 구성원을 추출하는 다단계 방법이다.

4번: 층화추출은 동질적인 층으로 나눈 뒤 각 층에서 무작위 추출한다.

보충 개념 층화추출은 층 내 동질·층 간 이질, 집락추출은 집락 내 이질·집락 간 동질일 때 효과적이다.
문제 28
4지선다
다음 중 통계적 유의성에 대한 설명으로 적절하지 않은 것은?
- 1.
  표본의 크기가 커질수록 표준 오차가 작아지므로, 신뢰구간의 길이는 점점 짧아진다.
- 2.
  p-value가 클수록 귀무가설을 기각하고 대립가설을 채택할 확률이 높아진다.
- 3.
  표본의 크기가 커질수록 아주 작은 차이도 통계적으로 유의미하게 나타날 가능성이 높아진다.
- 4.
  신뢰수준을 95%에서 99%로 높이면 신뢰구간의 폭은 더 넓어지고, 정밀도는 떨어진다.
정답·해설 보기▾▴
정답
2번
p-value가 클수록 귀무가설을 기각하고 대립가설을 채택할 확률이 높아진다.
해설
정답: 2. p-value가 작을수록 귀무가설을 기각할 근거가 강해진다. p-value가 클수록 기각 가능성이 높아진다는 설명은 반대로 서술된 것이다.

오답 풀이

1번: 표준오차 σ/√n이 줄어들면 신뢰구간도 짧아진다.

2번: 기각은 p-value가 유의수준보다 작을 때 일어나므로 옳지 않다.

3번: 표본이 매우 크면 실질적으로 미미한 차이도 통계적으로 유의해질 수 있다.

4번: 신뢰수준을 높이면 임계값이 커져 구간이 넓어지고 정밀도는 낮아진다.

보충 개념 통계적 유의성과 실질적(실무적) 유의성은 다르며, 효과 크기(effect size)를 함께 확인해야 한다.
문제 29
4지선다
아래는 어느 학급의 수학 점수를 나타낸 상자그림(Boxplot)이다. 해석으로 옳지 않은 것은?
- 1.
  점수의 중앙값은 70점이다.
- 2.
  사분위수 범위(IQR)는 20점이다.
- 3.
  전체 학생의 약 50%가 60점과 80점 사이에 있다.
- 4.
  학생들의 평균 점수는 70점이다.
정답·해설 보기▾▴
정답
4번
학생들의 평균 점수는 70점이다.
해설
정답: 4. 상자그림으로는 평균을 알 수 없다. 상자 안의 선은 중앙값이며, 분포가 비대칭이면 평균은 70점과 다를 수 있다.

오답 풀이

1번: 상자 내부의 선이 70에 위치하므로 중앙값은 70점이다.

2번: IQR = Q3 − Q1 = 80 − 60 = 20점이다.

3번: 상자(Q1~Q3) 구간에는 가운데 50%의 데이터가 포함된다.

4번: 평균은 상자그림에 표시되지 않으므로 70점이라고 단정할 수 없어 옳지 않다.

보충 개념 상자그림은 최소값·Q1·중앙값·Q3·최대값의 5수치 요약을 보여주며, 평균과 중앙값은 분포가 치우칠수록 차이가 커진다.
문제 30
4지선다
다음은 주성분 분석(PCA) 결과 각 주성분의 분산 설명 비율이다. 누적 분산 비율이 80% 이상이 되도록 할 때 선택해야 할 최소 주성분의 수는?

주성분 PC1 PC2 PC3 PC4 PC5
분산 설명 비율 0.45 0.25 0.15 0.10 0.05
- 1.
  2
- 2.
  3
- 3.
  4
- 4.
  5
정답·해설 보기▾▴
정답
2번
3
해설
정답: 2. 누적 분산 비율은 PC1까지 0.45, PC2까지 0.70, PC3까지 0.85이다. 80% 이상을 처음 만족하는 것은 PC3까지이므로 최소 3개의 주성분이 필요하다.

오답 풀이

1번: PC2까지의 누적 비율은 0.70으로 80%에 미달한다.

3·4번: 3개로 이미 0.85 ≥ 0.80을 만족하므로 최소 개수가 아니다.

보충 개념 주성분 수 선택 기준: 누적 분산 비율(통상 70~90%), 고유값 1 이상(Kaiser 기준), Scree plot의 엘보 지점.
문제 31
4지선다
단순회귀모형에서 SSE가 20이고 샘플이 10이라면 MSE는 얼마인가?
- 1.
  2
- 2.
  2.22
- 3.
  2.5
- 4.
  30
정답·해설 보기▾▴
정답
3번
2.5
해설
정답: 3. MSE = SSE/자유도 = SSE/(n − k − 1)이다. 단순회귀는 k = 1이므로 자유도 = 10 − 1 − 1 = 8이고, MSE = 20/8 = 2.5이다.

오답 풀이

1번: 2는 SSE를 n(10)으로 나눈 잘못된 계산이다.

2번: 2.22는 SSE를 n − 1(9)로 나눈 잘못된 계산이다.

4번: 30은 자유도 개념을 적용하지 않은 값이다.

보충 개념 회귀분석 분산분석표(ANOVA)의 자유도 — 회귀: k(회귀계수 개수), 잔차: n − k − 1, 총: n − 1.

요인 제곱합 자유도 제곱평균
회귀 SSR k(독립변수 개수) MSR = SSR/k
잔차 SSE n − k − 1 MSE = SSE/(n − k − 1)
총 SST = SSR + SSE n − 1 -
문제 32
4지선다
다중회귀분석에서 다중공선성을 해결할 수 있는 방안으로 적절하지 않은 것은?
- 1.
  라쏘 회귀(Lasso)
- 2.
  릿지 회귀(Ridge)
- 3.
  엘라스틱넷 회귀(Elastic Net)
- 4.
  로지스틱 회귀(Logistic)
정답·해설 보기▾▴
정답
4번
로지스틱 회귀(Logistic)
해설
정답: 4. 로지스틱 회귀는 이진 분류를 위한 회귀모형일 뿐 다중공선성 해결 기법이 아니다.

오답 풀이

1번: 라쏘는 L1 페널티로 일부 계수를 0으로 만들어 변수 선택 효과가 있다.

2번: 릿지는 L2 페널티로 계수를 축소해 공선성에 따른 분산 팽창을 완화한다.

3번: 엘라스틱넷은 L1+L2 페널티를 결합한 정규화 기법이다.

4번: 분류용 모형으로 공선성 해결과 무관하므로 옳지 않다.

보충 개념 다중공선성 대응: 상관 높은 변수 제거, 주성분 분석(PCA), 정규화 회귀(릿지·라쏘·엘라스틱넷), VIF 점검(통상 10 이상이면 의심).
문제 33
4지선다
다중회귀분석에서 다중공선성에 대한 설명으로 적절하지 않은 것은?
- 1.
  다중공선성이 존재하더라도 회귀계수의 분산은 항상 동일하다.
- 2.
  독립변수 간 높은 상관관계로 회귀계수 추정이 불안정해진다.
- 3.
  다중공선성은 VIF 지표로 측정 가능하다.
- 4.
  높은 상관관계를 갖는 설명변수를 모형에서 제거하여 해결 가능하다.
정답·해설 보기▾▴
정답
1번
다중공선성이 존재하더라도 회귀계수의 분산은 항상 동일하다.
해설
정답: 1. 다중공선성이 존재하면 회귀계수 추정량의 분산이 크게 팽창하여 추정이 불안정해진다. 분산이 항상 동일하다는 설명은 옳지 않다.

오답 풀이

1번: 공선성은 계수의 표준오차를 키우므로 옳지 않다.

2번: 독립변수 간 강한 상관은 계수 추정의 불안정을 초래한다.

3번: VIF(분산팽창요인)가 대표적인 진단 지표이다.

4번: 상관 높은 변수의 제거는 기본적인 해결 방법이다.

보충 개념 VIF = 1/(1 − Rⱼ²)로 계산하며, 통상 10 이상(엄격하게는 5 이상)이면 다중공선성을 의심한다.
문제 34
4지선다
다음은 사립학교와 공립학교 학생의 시험 점수 차이를 비교하기 위해 R에서 독립표본 t-검정을 수행한 결과이다. 해석으로 옳지 않은 것은?
- 1.
  유의수준 0.05에서 두 집단의 평균 점수 차이는 통계적으로 유의하다.
- 2.
  사립학교 표본의 평균 점수가 공립학교보다 4.3점 높다.
- 3.
  평균 차이의 95% 신뢰구간은 0을 포함하지 않는다.
- 4.
  유의수준 0.01에서도 귀무가설을 기각할 수 있다.
정답·해설 보기▾▴
정답
4번
유의수준 0.01에서도 귀무가설을 기각할 수 있다.
해설
정답: 4. p-value = 0.031은 0.01보다 크므로 유의수준 0.01에서는 귀무가설을 기각할 수 없다.

오답 풀이

1번: 0.031 < 0.05이므로 유의수준 0.05에서는 평균 차이가 유의하다.

2번: 표본평균 차이는 74.3 − 70.0 = 4.3점이다.

3번: 신뢰구간 (0.42, 8.18)은 0을 포함하지 않으며, 이는 유의수준 0.05의 기각 결론과 일치한다.

4번: 0.031 > 0.01이므로 옳지 않다.

보충 개념 95% 신뢰구간이 0을 포함하지 않는 것과 양측검정 p-value < 0.05는 동치이다. 유의수준을 바꾸면 기각 여부가 달라질 수 있다.
문제 35
4지선다
다음은 광고비(adv)에 따른 매출액(sales)의 단순회귀분석 결과이다. 해석으로 옳지 않은 것은?
- 1.
  광고비가 1 증가하면 매출액은 평균적으로 약 2.874 증가한다.
- 2.
  회귀모형은 매출액 변동의 약 67.4%를 설명한다.
- 3.
  광고비의 회귀계수는 유의수준 0.05에서 통계적으로 유의하다.
- 4.
  광고비와 매출액 사이에는 음의 상관관계가 있다.
정답·해설 보기▾▴
정답
4번
광고비와 매출액 사이에는 음의 상관관계가 있다.
해설
정답: 4. adv의 회귀계수가 양수(2.874)이므로 광고비와 매출액은 양의 관계이다. 음의 상관관계라는 해석은 옳지 않다.

오답 풀이

1번: 기울기 2.874는 광고비 1단위 증가 시 매출액의 평균 증가량이다.

2번: 결정계수 R² = 0.674는 매출액 총 변동 중 67.4%를 모형이 설명함을 의미한다.

3번: adv의 p-value < 2e-16 < 0.05이므로 유의하다.

4번: 계수의 부호가 양수이므로 옳지 않다.

보충 개념 단순회귀에서 기울기의 부호는 상관계수의 부호와 일치하며, R²는 상관계수의 제곱과 같다(r ≈ √0.674 ≈ 0.82).
문제 36
4지선다
다음 중 시계열 분석에 대한 설명으로 적절하지 않은 것은?
- 1.
  비정상 시계열인 경우 차분 및 변환을 통해 정상성을 확보할 수 있다.
- 2.
  정상 시계열인 경우 자기회귀(AR) 또는 이동평균(MA) 모형을 적용할 수 있다.
- 3.
  백색잡음(White noise)은 대표적인 비정상 시계열이다.
- 4.
  정상성 확보를 위해 평균이 일정하지 않으면 차분을, 분산이 일정하지 않으면 변환이 사용된다.
정답·해설 보기▾▴
정답
3번
백색잡음(White noise)은 대표적인 비정상 시계열이다.
해설
정답: 3. 백색잡음은 평균 0, 일정한 분산을 가지며 자기상관이 없는 대표적인 정상 시계열이다.

오답 풀이

1번: 차분(평균 안정화)·변환(분산 안정화)으로 정상성을 확보할 수 있다.

2번: AR·MA·ARMA 모형은 정상 시계열을 전제로 한다.

3번: 백색잡음을 비정상으로 분류했으므로 옳지 않다.

4번: 평균 비일정→차분, 분산 비일정→변환(로그 등)의 대응이 맞다.

보충 개념 백색잡음은 시계열 모형의 잔차가 가져야 할 이상적인 형태로, 잔차가 백색잡음이면 모형이 정보를 충분히 추출했다고 본다.
문제 37
4지선다
다음 중 변수 간의 비선형 관계를 분석할 수 있는 지표는?
- 1.
  피어슨 상관계수
- 2.
  스피어만 상관계수
- 3.
  코사인 유사도
- 4.
  자카드 계수
정답·해설 보기▾▴
정답
2번
스피어만 상관계수
해설
정답: 2. 스피어만 상관계수는 값 자체가 아닌 순위(rank)를 이용하므로 단조(monotonic) 비선형 관계도 측정할 수 있다.

오답 풀이

1번: 피어슨 상관계수는 선형 관계만 측정한다.

2번: 순위 기반이므로 곡선적이어도 단조 증가·감소 관계를 포착할 수 있어 옳다.

3번: 코사인 유사도는 두 벡터 사이 각도 기반의 유사도 측도이다.

4번: 자카드 계수는 집합 간 유사도(교집합/합집합) 측도이다.

보충 개념 스피어만 상관은 이상치에 강건하며 서열척도 자료에도 적용 가능하다. 켄달의 타우도 순위 기반 상관 측도이다.
문제 38
4지선다
다음 중 ARIMA 모델에 대한 설명으로 적절하지 않은 것은?
- 1.
  ARIMA(p, d, q) 형태로 표현되며 p, d, q는 각각 자기회귀 차수, 차분 차수, 이동평균 차수를 의미한다.
- 2.
  일반적으로 자기회귀 차수를 먼저 정하고, 차분 차수를 정한다.
- 3.
  시계열 데이터의 과거 값과 오차를 이용해 미래를 예측하는 통계 모델이다.
- 4.
  데이터를 정상 시계열로 변환하여 분석하므로 통계적 안정성이 높다.
정답·해설 보기▾▴
정답
2번
일반적으로 자기회귀 차수를 먼저 정하고, 차분 차수를 정한다.
해설
정답: 2. ARIMA 모형 식별은 먼저 차분(d)으로 정상성을 확보한 뒤, ACF·PACF를 보고 AR 차수(p)와 MA 차수(q)를 결정하는 순서로 진행한다.

오답 풀이

1번: ARIMA(p, d, q)의 표기와 각 차수의 의미로 옳다.

2번: 차분 차수를 먼저 정해야 하므로 순서가 반대로 서술되어 옳지 않다.

3번: 과거 관측값(AR)과 과거 오차(MA)를 함께 사용하는 모형이다.

4번: 정상화 후 분석하므로 추정의 안정성이 높다.

보충 개념 Box-Jenkins 절차: 정상성 확인·차분 → 모형 식별(ACF/PACF) → 모수 추정 → 잔차 진단(백색잡음 확인) → 예측.
문제 39
4지선다
다음은 신용카드 부채(Balance)를 종속변수로 하고 수입(Income)과 학생 여부(Student: 학생=Yes)를 독립변수로 한 다중회귀분석 결과이다. 해석으로 옳지 않은 것은?
- 1.
  Income이 1 증가할 때 Balance는 평균적으로 약 5.98 증가한다.
- 2.
  학생은 비학생에 비해 Balance가 평균적으로 약 382.67 높다.
- 3.
  Student 변수는 더미변수로 처리되어 기준 범주(비학생) 대비 효과를 나타낸다.
- 4.
  StudentYes의 회귀계수가 Income보다 크므로 Student가 Balance에 가장 중요한 변수이다.
정답·해설 보기▾▴
정답
4번
StudentYes의 회귀계수가 Income보다 크므로 Student가 Balance에 가장 중요한 변수이다.
해설
정답: 4. 회귀계수의 크기는 변수의 측정 단위에 의존하므로 계수의 절대값만으로 변수의 중요도를 비교할 수 없다. 중요도 비교에는 표준화 회귀계수 등이 필요하다.

오답 풀이

1번: 다른 변수가 일정할 때 Income 1단위 증가에 따른 Balance의 평균 증가량은 5.984이다.

2번: StudentYes 계수는 비학생 대비 학생의 평균 Balance 차이(약 382.67)를 의미한다.

3번: 범주형 변수는 더미변수(0/1)로 변환되어 기준 범주 대비 효과로 해석된다.

4번: 단위가 다른 변수 간 계수 크기 비교는 부적절하므로 옳지 않다.

보충 개념 더미변수는 범주가 k개일 때 k−1개를 생성하며, 변수 중요도 비교에는 표준화 계수·t값·부분 결정계수 등을 활용한다.
문제 40
4지선다
다음 중 시계열 자료의 정상성에 대한 설명으로 적절하지 않은 것은?
- 1.
  분산은 시점에 의존하지 않는다.
- 2.
  공분산은 시차(Lag)에만 의존한다.
- 3.
  시계열의 평균이 모든 시점에서 일정하다.
- 4.
  시계열의 자기상관계수가 시간에 따라 감소한다.
정답·해설 보기▾▴
정답
4번
시계열의 자기상관계수가 시간에 따라 감소한다.
해설
정답: 4. 자기상관계수가 시간에 따라 감소한다는 것은 정상성의 정의 조건이 아니다. 정상 시계열의 자기상관은 시점이 아니라 시차의 함수이다.

오답 풀이

1번: 분산이 시점에 의존하지 않는 것은 정상성 조건이다.

2번: 공분산이 시차에만 의존하는 것도 정상성 조건이다.

3번: 평균이 모든 시점에서 일정한 것도 정상성 조건이다.

4번: 정상성의 3조건(평균·분산·공분산)에 해당하지 않으므로 옳지 않다.

보충 개념 약정상성 조건: ① E(Xₜ) = μ(일정) ② Var(Xₜ) = σ²(일정) ③ Cov(Xₜ, Xₜ₊ₖ)는 k(시차)에만 의존.
문제 41
4지선다
다음 중 소프트맥스(Softmax) 활성화 함수로 옳은 것은?
- 1.
  f(a) = 1 / (1 + e^(-a))
- 2.
  f(aᵢ) = e^(aᵢ) / Σⱼ e^(aⱼ)
- 3.
  f(a) = (e^a - e^(-a)) / (e^a + e^(-a))
- 4.
  f(a) = max(0, a)
정답·해설 보기▾▴
정답
2번
f(aᵢ) = e^(aᵢ) / Σⱼ e^(aⱼ)
해설
정답: 2. 소프트맥스는 각 출력값의 지수를 전체 지수 합으로 나누어 합이 1인 확률 분포로 변환하는 함수이다.

오답 풀이

1번: 시그모이드 함수이다.

2번: 소프트맥스의 정의로 옳다.

3번: 하이퍼볼릭 탄젠트(tanh) 함수이다.

4번: ReLU 함수이다.

보충 개념 소프트맥스는 다범주 분류의 출력층에서 사용되며, 클래스가 2개일 때는 시그모이드와 동등하다.
문제 42
4지선다
앙상블 학습에 대한 설명으로 적절하지 않은 것은?
- 1.
  배깅(Bagging)은 복원추출 기반의 부트스트랩 샘플을 생성하여 각 샘플마다 학습시킨 후 모든 모델의 예측 결과를 하나로 합치는 방식이다.
- 2.
  부스팅(Boosting)은 개별 모델에 동일한 가중치를 부여하여 순차적으로 학습한다.
- 3.
  보팅(Voting)은 각 모델 예측 결과 중 가장 많이 나온 결과를 최종 결과로 채택한다.
- 4.
  랜덤포레스트(Random Forest)는 배깅 방식을 기반으로 하여 복수의 독립적인 의사결정나무를 생성 후 예측을 수행한다.
정답·해설 보기▾▴
정답
2번
부스팅(Boosting)은 개별 모델에 동일한 가중치를 부여하여 순차적으로 학습한다.
해설
정답: 2. 부스팅은 이전 모델이 틀린 데이터에 더 높은 가중치를 부여하며 순차 학습한다. 동일한 가중치를 부여한다는 설명은 옳지 않다.

오답 풀이

1번: 배깅은 부트스트랩 샘플별 학습 후 집계(보팅·평균)하는 방식이다.

2번: 오분류 데이터의 가중치를 갱신하므로 동일 가중치가 아니다.

3번: 다수결 보팅의 정의로 옳다.

4번: 랜덤포레스트는 배깅 + 변수 무작위 선택으로 다수의 트리를 만든다.

보충 개념 AdaBoost는 오분류 표본의 가중치를 키우고, GBM은 잔차(기울기)를 다음 모델이 학습하는 방식의 부스팅이다.
문제 43
4지선다
아래 설명에서 해당하는 활성화 함수는 무엇인가?

입력층이 직접 출력층으로 연결되고 출력층의 노드가 1개인 인공 신경망에서 이 활성화 함수를 사용하면 로지스틱 회귀 모형과 작동 원리가 동일해진다.
- 1.
  Sigmoid
- 2.
  Tanh
- 3.
  ReLU
- 4.
  Softmax
정답·해설 보기▾▴
정답
1번
Sigmoid
해설
정답: 1. 은닉층 없이 입력이 출력 노드 1개로 연결된 신경망에서 시그모이드 활성화 함수를 사용하면 로지스틱 회귀와 동일한 모형이 된다.

오답 풀이

1번: 시그모이드는 선형결합을 0~1 확률로 변환하므로 로지스틱 회귀와 동일한 구조를 만든다.

2번: Tanh는 출력 범위가 −1~1로 로지스틱 회귀와 다르다.

3번: ReLU는 max(0, x)로 확률 해석이 불가하다.

4번: Softmax는 다범주 출력에 사용된다.

보충 개념 로지스틱 회귀: P(y=1) = 1/(1+e^(−(β₀+β₁x₁+…))) — 단층 신경망 + 시그모이드와 수식이 동일하다.
문제 44
4지선다
아래 오분류표를 참고하여 민감도를 구하시오.

구분 예측 True(P) 예측 False(N)
실제 True 200 (TP) 400 (FN)
실제 False 100 (FP) 300 (TN)
- 1.
  0.33
- 2.
  0.5
- 3.
  0.75
- 4.
  0.8
정답·해설 보기▾▴
정답
1번
0.33
해설
정답: 1. 민감도(Sensitivity) = TP/(TP+FN) = 200/(200+400) = 200/600 ≈ 0.33이다.

오답 풀이

2번: 0.5는 전체 정확도 (200+300)/1000을 계산한 값이다.

3번: 0.75는 특이도 TN/(TN+FP) = 300/400을 계산한 값이다.

4번: 0.8은 잘못된 조합의 계산 값이다.

보충 개념 민감도(재현율)는 실제 양성 중 양성으로 예측한 비율, 특이도는 실제 음성 중 음성으로 예측한 비율, 정밀도는 양성 예측 중 실제 양성의 비율이다.
문제 45
4지선다
혼합분포군집 모델에서 최대가능도추정을 보완하기 위해 사용되는 분석 기법은?
- 1.
  K-NN 알고리즘
- 2.
  K-평균 알고리즘
- 3.
  Apriori 알고리즘
- 4.
  EM 알고리즘
정답·해설 보기▾▴
정답
4번
EM 알고리즘
해설
정답: 4. 혼합분포군집(예: 가우시안 혼합 모델)은 잠재변수가 있어 가능도를 직접 최대화하기 어려우므로 EM(Expectation-Maximization) 알고리즘으로 모수를 추정한다.

오답 풀이

1번: K-NN은 최근접 이웃 기반의 분류·회귀 기법이다.

2번: K-평균은 거리 기반 군집화 알고리즘이다.

3번: Apriori는 연관 규칙 탐색 알고리즘이다.

4번: E단계(소속 확률 계산)와 M단계(모수 갱신)를 반복하는 EM이 정답이다.

보충 개념 EM 알고리즘은 로그 가능도가 수렴할 때까지 E단계와 M단계를 반복하며, 초기값에 따라 국소 최적해에 빠질 수 있다.
문제 46
4지선다
아래 주성분 분석(PCA)의 Scree plot을 통해 유의미한 주성분의 수로 적절한 것은?
- 1.
  1
- 2.
  3
- 3.
  5
- 4.
  7
정답·해설 보기▾▴
정답
2번
3
해설
정답: 2. Scree plot에서 고유값이 가파르게 감소하다가 완만해지는 엘보(elbow) 지점이 4번째 주성분부터이며, 고유값 1 기준선 위에 있는 주성분도 3개까지이므로 유의미한 주성분 수는 3개이다.

오답 풀이

1번: 1개만 선택하면 두 번째·세 번째 주성분이 설명하는 큰 분산을 놓친다.

3·4번: 4번째 이후의 주성분은 고유값이 1 미만으로 작아 추가 설명력이 미미하다.

보충 개념 Scree plot은 주성분 번호별 고유값을 그린 그래프로, 곡선이 완만해지기 직전까지의 주성분을 선택한다. 고유값 1 이상 기준(Kaiser)과 함께 사용된다.
문제 47
4지선다
다음 중 군집분석 기법에 대한 설명으로 적절하지 않은 것은?
- 1.
  DBSCAN은 밀도 기반 군집화 방식으로 초기 중심값 설정이 불필요하다.
- 2.
  가우시안 혼합 모델(GMM)은 EM 알고리즘을 사용하여 모델 매개변수를 추정하며, 초기 중심값 설정에 따라 그 결과가 달라질 수 있다.
- 3.
  자기 조직화 지도(SOM)는 비지도 학습으로 차원축소와 군집화를 동시에 수행한다.
- 4.
  자기 조직화 지도(SOM)는 모든 입력 노드에 동일한 수의 데이터가 할당된다.
정답·해설 보기▾▴
정답
4번
자기 조직화 지도(SOM)는 모든 입력 노드에 동일한 수의 데이터가 할당된다.
해설
정답: 4. SOM의 각 노드(뉴런)에 할당되는 데이터 수는 데이터 분포에 따라 달라지며, 모든 노드에 동일한 수가 할당된다는 보장은 없다.

오답 풀이

1번: DBSCAN은 밀도 임계값(eps, minPts)으로 군집을 형성하므로 초기 중심이 필요 없다.

2번: GMM은 EM으로 추정하며 초기값에 따라 국소해가 달라질 수 있다.

3번: SOM은 고차원 데이터를 저차원 격자에 사상하여 차원축소와 군집화를 함께 수행한다.

4번: 노드별 데이터 할당 수는 균등하지 않으므로 옳지 않다.

보충 개념 SOM은 경쟁 학습으로 승자 노드와 이웃 노드의 가중치를 갱신하며, 입력 공간의 위상(topology)을 보존하는 특징이 있다.
문제 48
4지선다
군집분석에 대한 설명으로 적절하지 않은 것은?
- 1.
  계층적 군집분석은 덴드로그램을 통해 시각화하여 직관적으로 표현할 수 있다.
- 2.
  K-평균 군집분석에서 초기 중심값 설정은 군집분석 결과에 영향을 주지 않는다.
- 3.
  이상치(Outlier)나 소음(Noise) 데이터는 군집분석의 성능에 영향을 줄 수 있으므로 전처리 과정에서 제거할 필요가 있다.
- 4.
  DBSCAN 방식은 군집 개수를 미리 정할 필요가 없다.
정답·해설 보기▾▴
정답
2번
K-평균 군집분석에서 초기 중심값 설정은 군집분석 결과에 영향을 주지 않는다.
해설
정답: 2. K-평균은 초기 중심값에 따라 수렴하는 군집 결과가 달라질 수 있다. 영향을 주지 않는다는 설명은 옳지 않다.

오답 풀이

1번: 계층적 군집은 병합 과정을 덴드로그램으로 시각화할 수 있다.

2번: 초기 중심 민감성은 K-평균의 대표적 한계이므로 옳지 않다.

3번: 이상치는 군집 중심을 왜곡할 수 있어 전처리에서 처리해야 한다.

4번: DBSCAN은 밀도 기반으로 군집 수를 사전에 지정하지 않는다.

보충 개념 K-평균의 초기값 민감성 보완: 여러 초기값으로 반복 수행, k-means++ 초기화, 계층적 군집 결과를 초기값으로 활용.
문제 49
4지선다
다음 중 군집 내 오차 제곱합(SSE)을 최소화하는 방식으로 군집을 수행하는 방식은?
- 1.
  중심 연결법
- 2.
  평균 연결법
- 3.
  와드 연결법
- 4.
  단일 연결법
정답·해설 보기▾▴
정답
3번
와드 연결법
해설
정답: 3. 와드 연결법(Ward linkage)은 군집 병합 시 군집 내 오차 제곱합(SSE)의 증가량이 최소가 되는 군집들을 합치는 방법이다.

오답 풀이

1번: 중심 연결법은 군집 중심 간 거리를 기준으로 한다.

2번: 평균 연결법은 모든 개체 쌍 거리의 평균을 기준으로 한다.

3번: SSE 증가 최소화 기준이므로 옳다.

4번: 단일(최단) 연결법은 가장 가까운 개체 쌍의 거리를 기준으로 한다.

보충 개념 와드법은 군집 내 동질성을 중시해 비슷한 크기의 조밀한 군집을 만드는 경향이 있다.
문제 50
4지선다
아래 특정 기간 동안 판매된 음료 구매 건수를 통해 “우유 → 커피”의 지지도는?

음료 커피 우유 커피+우유 전체 거래 건수
구매건수 20 50 30 100
- 1.
  0.2
- 2.
  0.3
- 3.
  0.4
- 4.
  0.5
정답·해설 보기▾▴
정답
2번
0.3
해설
정답: 2. 지지도(우유 → 커피) = (우유와 커피가 동시에 포함된 거래 수)/(전체 거래 수) = 30/100 = 0.3이다.

오답 풀이

1번: 0.2는 커피 단독 구매 건수(20)를 분자로 쓴 잘못된 계산이다.

3번: 0.4는 신뢰도(우유→커피) = 30/80 = 0.375를 지지도로 잘못 적용한 값에 가깝다.

4번: 0.5는 우유 구매 건수(50)를 분자로 쓴 잘못된 계산이다.

보충 개념 지지도는 규칙의 방향과 무관하게 동시 거래 비율로 계산되므로 지지도(우유→커피) = 지지도(커피→우유)이다. 반면 신뢰도는 방향에 따라 달라진다.

[ADsP] 2025년 47회 기출 복원

📋 회차 정보

📊 출제 영역 한눈에

💡 학습 팁

📝 기출문제 전체 보기

이번엔 직접 풀어보세요

ADsP 다른 회차 기출 복원

함께 읽으면 좋은 글

요인	제곱합	자유도	제곱평균
회귀	SSR	k(독립변수 개수)	MSR = SSR/k
잔차	SSE	n − k − 1	MSE = SSE/(n − k − 1)
총	SST = SSR + SSE	n − 1	-

구분	예측 True(P)	예측 False(N)
실제 True	200 (TP)	400 (FN)
실제 False	100 (FP)	300 (TN)