ADsP· 50문항· 조회 1전문가 검수

[ADsP] 2025년 46회 기출 복원

ADsP(데이터분석 준전문가) 2025년 46회 기출 복원 50문항을 정답·해설과 함께 정리했습니다. 검색해서 들어오신 분들도 바로 풀어보고 채점까지 가능합니다.

안녕하세요. 문어입니다 🐙


📋 회차 정보

이번 글은 ADsP(데이터분석 준전문가) 2025년 46회 기출 복원입니다. 아래는 시험 응시 정보 요약이에요.

자격증ADsP(데이터분석 준전문가)
연도2025
회차46
문항 수50문항

📊 출제 영역 한눈에

이번 회차의 과목별 문항 분포입니다. 비중이 큰 영역부터 우선 풀이하면 효율적이에요.

과목문항 수비중
데이터 이해10문항20%
데이터 분석 기획10문항20%
데이터 분석30문항60%

💡 학습 팁

ADsP 는 데이터 이해·분석 기획·분석 50문항 4지선다입니다. 2024년 개편 후 통계 비중이 늘었으니 기출 복원에서 통계 계산 문제를 우선 보세요.

📝 기출문제 전체 보기

데이터분석 준전문가(ADsP) 2025년 46회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.

  1. 문제 1

    4지선다

    DIKW 모델에 대한 설명과 용어가 가장 잘 연결된 것은?

    가. A마트는 100원에, B마트는 500원에 연필을 판매한다. 나. 다른 제품들도 A마트가 B마트보다 저렴할 것이다. 다. 상대적으로 저렴한 A마트에서 연필을 사야겠다. 라. A마트는 연필 가격이 저렴하다.

    • 1.

      가: 데이터, 나: 지혜, 다: 지식, 라: 정보

    • 2.

      가: 데이터, 나: 정보, 다: 지식, 라: 지혜

    • 3.

      가: 정보, 나: 지혜, 다: 지식, 라: 데이터

    • 4.

      가: 지혜, 나: 정보, 다: 데이터, 라: 지식

    정답·해설 보기

    정답

    1

    가: 데이터, 나: 지혜, 다: 지식, 라: 정보

    해설

    정답: 1. 가는 가공 전의 객관적 사실(데이터), 라는 데이터를 비교·가공해 의미를 부여한 정보, 다는 정보를 바탕으로 한 행동 판단(지식), 나는 지식을 다른 대상까지 일반화해 추론한 지혜이다.

    오답 풀이

    • 1번: 데이터→정보→지식→지혜의 흐름에 맞게 연결되어 옳다.
    • 2번: 나(다른 제품도 저렴할 것이라는 추론)는 정보가 아니라 지혜에 해당한다.
    • 3번: 가는 가공되지 않은 사실이므로 정보가 아니라 데이터이다.
    • 4번: 가를 지혜로, 다를 데이터로 본 것은 위계가 반대로 연결된 것이다.

    보충 개념 DIKW 피라미드는 데이터(사실) → 정보(의미 부여) → 지식(행동 근거) → 지혜(일반화된 통찰) 순으로 위계가 높아진다.

  2. 문제 2

    4지선다

    데이터에 대한 설명으로 옳은 것은?

    • 1.

      습도, 기온, 체온 데이터는 정성적 데이터이다.

    • 2.

      정량적 데이터는 분석하기 매우 어렵다.

    • 3.

      정성적 데이터는 주로 비정형 형태로, 정량적 데이터에 비해 상대적으로 가공, 분석, 활용에 많은 비용과 기술이 필요하다.

    • 4.

      음성, 비디오, SNS 데이터는 반정형 데이터이다.

    정답·해설 보기

    정답

    3

    정성적 데이터는 주로 비정형 형태로, 정량적 데이터에 비해 상대적으로 가공, 분석, 활용에 많은 비용과 기술이 필요하다.

    해설

    정답: 3. 정성적 데이터는 문자·언어 중심의 비정형 데이터가 많아 저장·분석에 상대적으로 더 많은 비용과 고급 기술이 필요하다.

    오답 풀이

    • 1번: 습도·기온·체온은 수치로 측정되는 정량적 데이터이다.
    • 2번: 정량적 데이터는 정형화되어 있어 통계 분석이 상대적으로 용이하다.
    • 3번: 정성적 데이터의 특성을 올바르게 설명했다.
    • 4번: 음성·비디오·SNS 텍스트는 대표적인 비정형 데이터이다.

    보충 개념 정량적 데이터는 수치·도형·기호 등 정형화된 형태, 정성적 데이터는 언어·문자 등 비정형 형태가 일반적이다.

  3. 문제 3

    4지선다

    데이터베이스의 특징으로 적절한 것은?

    • 1.

      통합 데이터: 동일한 내용이 중복되어 있지 않다.

    • 2.

      공유 데이터: 동일 사용자가 동일 데이터를 다른 목적으로 이용한다.

    • 3.

      운영 데이터: 데이터베이스에 저장된 데이터는 삭제가 불가하다.

    • 4.

      저장 데이터: 사용자가 접근 불가한 매체에 데이터가 저장된다.

    정답·해설 보기

    정답

    1

    통합 데이터: 동일한 내용이 중복되어 있지 않다.

    해설

    정답: 1. 통합 데이터(integrated data)는 동일한 데이터가 중복되지 않도록 통합되어 저장된 데이터를 의미한다.

    오답 풀이

    • 1번: 통합 데이터의 정의를 올바르게 설명했다.
    • 2번: 공유 데이터는 여러 사용자가 서로 다른 목적으로 함께 이용하는 데이터를 말한다.
    • 3번: 운영 데이터는 조직의 고유 업무 수행에 지속적으로 필요한 데이터라는 뜻이며, 삭제가 불가능하다는 의미가 아니다.
    • 4번: 저장 데이터는 컴퓨터가 접근 가능한 저장 매체에 저장된 데이터를 의미한다.

    보충 개념 데이터베이스의 4대 특징: 통합 데이터, 저장 데이터, 공용(공유) 데이터, 운영 데이터.

  4. 문제 4

    4지선다

    기업 내부 데이터베이스에 대한 설명으로 옳지 않은 것은?

    • 1.

      OLTP는 데이터 조회 및 분석에 주로 사용된다.

    • 2.

      OLAP는 다차원의 데이터를 대화식으로 분석 및 통계 요약 정보를 제공한다.

    • 3.

      OLTP는 트랜잭션을 실시간으로 처리하며 온라인 거래 처리에 사용된다.

    • 4.

      OLTP는 거래입력, 수정, 삭제 등 온라인 거래 처리에 사용된다.

    정답·해설 보기

    정답

    1

    OLTP는 데이터 조회 및 분석에 주로 사용된다.

    해설

    정답: 1. 데이터 조회·분석은 OLAP의 역할이며, OLTP는 실시간 트랜잭션(거래) 처리가 주 용도이다.

    오답 풀이

    • 1번: OLTP를 분석 용도로 설명했으므로 옳지 않다.
    • 2번: OLAP는 다차원 데이터의 대화식 분석과 통계 요약을 제공한다.
    • 3번: OLTP는 실시간 트랜잭션 처리 시스템이다.
    • 4번: OLTP는 거래의 입력·수정·삭제 등 온라인 거래 처리에 사용된다.

    보충 개념 OLTP(Online Transaction Processing)는 운영계 거래 처리, OLAP(Online Analytical Processing)는 정보계 다차원 분석으로 역할이 구분된다.

  5. 문제 5

    4지선다

    데이터베이스의 다양한 측면 중 정보의 축적과 전달 측면에서 옳지 않은 것은?

    • 1.

      검색가능성: 사용자가 필요한 정보를 검색할 수 있다.

    • 2.

      기계가독성: 정보처리기기가 대량의 정보를 읽고 쓸 수 있다.

    • 3.

      원격조작성: 원거리 또는 온라인으로 이용 가능하다.

    • 4.

      정보관리성: 정보처리, 검색 관리 소프트웨어와 관련 하드웨어 그리고 정보 전송을 위한 네트워크 기술 발전을 견인한다.

    정답·해설 보기

    정답

    4

    정보관리성: 정보처리, 검색 관리 소프트웨어와 관련 하드웨어 그리고 정보 전송을 위한 네트워크 기술 발전을 견인한다.

    해설

    정답: 4. 정보처리 소프트웨어·하드웨어·네트워크 기술의 발전을 견인하는 것은 정보기술 발전 측면의 특성이며, 정보의 축적·전달 측면이 아니다.

    오답 풀이

    • 1번: 검색가능성은 축적·전달 측면의 특성이다.
    • 2번: 기계가독성은 축적·전달 측면의 특성이다.
    • 3번: 원격조작성은 축적·전달 측면의 특성이다.
    • 4번: 기술 발전 견인은 정보기술 발전 측면에 해당하므로 옳지 않다.

    보충 개념 데이터베이스의 측면별 특성: 정보의 축적·전달(기계가독성·검색가능성·원격조작성), 정보 이용, 정보 관리, 정보기술 발전, 경제·산업적 측면.

  6. 문제 6

    4지선다

    데이터와 관련된 보기 중 설명이 옳은 것은?

    가. OLTP는 다차원 데이터를 대화식으로 분석하고 복잡한 쿼리를 빠르게 처리하여 사용자에게 통찰을 제공하는 데이터 처리 기술이다. 나. ETL은 다양한 DBMS에서 데이터를 가져와 정리한 후, 분석에 적합한 형태로 최종 저장소에 저장하는 프로세스이다. 다. 데이터 마이닝은 대량의 데이터에서 숨겨진 패턴과 규칙을 찾아내어 의사결정에 활용하는 기법이다.

    • 1.

    • 2.

      가, 나

    • 3.

      나, 다

    • 4.

      가, 나, 다

    정답·해설 보기

    정답

    3

    나, 다

    해설

    정답: 3. 나(ETL)와 다(데이터 마이닝)는 옳은 설명이고, 가는 OLTP가 아니라 OLAP에 대한 설명이다.

    오답 풀이

    • 가: 다차원 데이터의 대화식 분석은 OLAP의 정의이므로 옳지 않다.
    • 나: ETL(Extract, Transform, Load)은 추출·변환·적재 프로세스로 옳은 설명이다.
    • 다: 데이터 마이닝은 대량 데이터에서 패턴·규칙을 발견하는 기법으로 옳은 설명이다.

    보충 개념 ETL은 데이터 웨어하우스 구축의 핵심 프로세스이며, OLTP는 거래 처리, OLAP는 다차원 분석을 담당한다.

  7. 문제 7

    4지선다

    빅데이터 출현 배경으로 옳은 것은?

    가. 기업 및 산업 분야의 운영 과정에서 대량의 데이터가 축적되었다. 나. 데이터를 활용한 과학적 연구 및 알고리즘 개발이 활발해졌다. 다. 데이터 처리, 저장, 분석을 위한 기술적 진보가 이루어졌다.

    • 1.

    • 2.

      가, 나

    • 3.

      가, 다

    • 4.

      가, 나, 다

    정답·해설 보기

    정답

    4

    가, 나, 다

    해설

    정답: 4. 산업계의 데이터 축적, 학계의 데이터 기반 연구 확산, 저장·처리 기술의 발전 모두 빅데이터 출현의 배경이다.

    오답 풀이

    • 가: 산업계에서 고객 거래·로그 등 대량 데이터가 축적된 것은 출현 배경이 맞다.
    • 나: 학계의 거대 데이터 활용 과학 확산(유전체 분석 등)도 배경에 해당한다.
    • 다: 클라우드·분산처리 등 관련 기술의 발전도 배경에 해당한다.

    보충 개념 빅데이터 출현 배경은 산업계(데이터 축적), 학계(데이터 기반 연구), 기술 발전(저장·처리 비용 하락, 클라우드, 분산처리)의 세 축으로 정리된다.

  8. 문제 8

    4지선다

    빅데이터가 만들어낸 데이터 분석 방향의 변화로 옳은 것은?

    • 1.

      데이터의 사후처리 방식에서 사전처리 중심으로 변화하였다.

    • 2.

      데이터의 전수조사 방식에서 표본조사 중심으로 변화하였다.

    • 3.

      데이터의 질 중심에서 양 중심으로 변화하였다.

    • 4.

      데이터 간 상관관계에서 인과관계 중심으로 변화하였다.

    정답·해설 보기

    정답

    3

    데이터의 질 중심에서 양 중심으로 변화하였다.

    해설

    정답: 3. 빅데이터 시대에는 일부 오류가 있어도 충분히 많은 데이터를 확보하는 것이 더 가치 있다는 인식으로, 질(質)보다 양(量)을 중시하는 방향으로 변화했다.

    오답 풀이

    • 1번: 사전처리에서 사후처리로 변화했다(일단 수집하고 나중에 필요한 방식으로 가공).
    • 2번: 표본조사에서 전수조사로 변화했다(저장·처리 비용 하락).
    • 3번: 질 중심에서 양 중심으로의 변화는 옳은 설명이다.
    • 4번: 인과관계에서 상관관계 중심으로 변화했다.

    보충 개념 빅데이터가 가져온 변화 3가지: 사전처리→사후처리, 표본조사→전수조사, 질→양, 인과관계→상관관계.

  9. 문제 9

    4지선다

    빅데이터 시대의 위기 요인이 아닌 것은?

    • 1.

      사생활 침해

    • 2.

      기업 경쟁력 약화

    • 3.

      책임 원칙 문제

    • 4.

      데이터 오용

    정답·해설 보기

    정답

    2

    기업 경쟁력 약화

    해설

    정답: 2. 빅데이터 시대의 3대 위기 요인은 사생활 침해, 책임 원칙 훼손, 데이터 오용이며 기업 경쟁력 약화는 해당하지 않는다.

    오답 풀이

    • 1번: 개인정보의 무분별한 수집·활용에 따른 사생활 침해는 대표적 위기 요인이다.
    • 2번: 기업 경쟁력 약화는 위기 요인으로 분류되지 않는다.
    • 3번: 예측 결과만으로 책임을 묻는 책임 원칙 훼손은 위기 요인이다.
    • 4번: 잘못된 데이터·분석에 따른 데이터 오용은 위기 요인이다.

    보충 개념 위기 요인별 통제 방안: 사생활 침해→동의제에서 책임제로 전환, 책임 원칙 훼손→결과 기반 책임 원칙 고수, 데이터 오용→알고리즘 접근권 허용(알고리즈미스트).

  10. 문제 10

    4지선다

    다음 중 분류 분석의 적용 사례로 옳지 않은 것은?

    • 1.

      신용 등급 예측

    • 2.

      스팸 메일 분류

    • 3.

      질병 진단 예측

    • 4.

      위치 및 면적을 통한 아파트 가격 예측

    정답·해설 보기

    정답

    4

    위치 및 면적을 통한 아파트 가격 예측

    해설

    정답: 4. 아파트 가격은 연속형 수치이므로 범주를 예측하는 분류 분석이 아니라 회귀 분석의 적용 사례이다.

    오답 풀이

    • 1번: 신용 등급(범주) 예측은 분류 분석 사례이다.
    • 2번: 스팸/정상(이진 범주) 분류는 대표적인 분류 분석 사례이다.
    • 3번: 질병 유무 진단도 범주 예측으로 분류 분석 사례이다.
    • 4번: 연속형 값(가격) 예측은 회귀 분석에 해당하므로 옳지 않다.

    보충 개념 종속변수가 범주형이면 분류(classification), 연속형이면 회귀(regression) 문제로 구분한다.

  11. 문제 11

    4지선다

    데이터 분석 도입에 대한 설명으로 옳지 않은 것은?

    • 1.

      분석 과제 우선순위를 선정해야 한다.

    • 2.

      핵심 분석만 하지 않고 여러 개의 분석을 동시에 해야 한다.

    • 3.

      분석 도입을 위해 분석 과제를 도출해야 한다.

    • 4.

      효율적 분석을 위해 핵심 분석 과제에 집중해야 한다.

    정답·해설 보기

    정답

    2

    핵심 분석만 하지 않고 여러 개의 분석을 동시에 해야 한다.

    해설

    정답: 2. 자원은 한정되어 있으므로 여러 분석을 동시에 수행하기보다 우선순위에 따라 핵심 과제에 집중하는 것이 바람직하다.

    오답 풀이

    • 1번: 시급성·난이도 등을 고려한 우선순위 선정은 분석 도입의 핵심 활동이다.
    • 2번: 다수 분석의 동시 수행은 자원 분산과 효과 저하를 초래하므로 옳지 않다.
    • 3번: 분석 도입은 해결할 분석 과제 도출에서 출발한다.
    • 4번: 핵심 과제 집중은 효율적 분석을 위한 올바른 접근이다.

    보충 개념 분석 과제는 전략적 중요도(시급성)와 난이도를 기준으로 우선순위를 정해 단계적으로 수행한다.

  12. 문제 12

    4지선다

    분석 주제 유형에 대한 설명으로 적절한 것은?

    • 1.

      분석 대상과 분석 방법 모두 모르는 경우, 솔루션 개발을 통해 문제를 해결한다.

    • 2.

      분석 대상은 알지만 분석 방법을 모르는 경우, 발견을 통해 문제를 해결한다.

    • 3.

      분석 대상과 분석 방법 모두 아는 경우, 최적화를 통해 문제를 해결한다.

    • 4.

      분석 대상은 모르지만 분석 방법은 아는 경우, 발견을 통해 문제를 해결한다.

    정답·해설 보기

    정답

    3

    분석 대상과 분석 방법 모두 아는 경우, 최적화를 통해 문제를 해결한다.

    해설

    정답: 3. 분석 대상(What)과 분석 방법(How)을 모두 아는 경우는 최적화(Optimization) 유형에 해당한다.

    오답 풀이

    • 1번: 대상과 방법 모두 모르면 발견(Discovery) 유형이다.
    • 2번: 대상은 알지만 방법을 모르면 솔루션(Solution) 유형이다.
    • 3번: 대상·방법 모두 알면 최적화 유형으로 옳다.
    • 4번: 대상은 모르고 방법은 알면 통찰(Insight) 유형이다.

    보충 개념 분석 주제 유형 4가지 — 최적화(대상O·방법O), 솔루션(대상O·방법X), 통찰(대상X·방법O), 발견(대상X·방법X).

  13. 문제 13

    4지선다

    CRISP-DM 분석 방법론의 단계별 과정으로 옳은 것은?

    • 1.

      데이터 이해 → 데이터 준비 → 업무 이해 → 모델링 → 평가 → 전개

    • 2.

      데이터 이해 → 데이터 준비 → 모델링 → 평가 → 업무 이해 → 전개

    • 3.

      데이터 준비 → 데이터 이해 → 모델링 → 평가 → 업무 이해 → 전개

    • 4.

      업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개

    정답·해설 보기

    정답

    4

    업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개

    해설

    정답: 4. CRISP-DM은 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개의 6단계로 진행된다.

    오답 풀이

    • 1·2·3번: 모두 업무 이해가 첫 단계가 아니거나 단계 순서가 뒤바뀌어 있다.
    • 4번: 비즈니스 문제 정의(업무 이해)에서 출발하는 올바른 순서이다.

    보충 개념 CRISP-DM(Cross Industry Standard Process for Data Mining)은 단계 간 피드백 루프를 허용하는 반복적 프로세스이며, 업무 이해와 데이터 이해 사이를 오가며 문제를 구체화한다.

  14. 문제 14

    4지선다

    분석 과제 정의서에 대한 내용으로 옳지 않은 것은?

    • 1.

      분석 프로젝트의 목표 달성을 위한 구체적인 방법 및 절차가 명시되어야 한다.

    • 2.

      분석 과제의 목표 및 범위, 분석 결과 활용 방안 등이 포함되어야 한다.

    • 3.

      분석에 필요한 소스 데이터, 데이터 입수 및 분석 방법 등이 포함되어야 한다.

    • 4.

      활용 데이터는 내부 데이터로만 제한해야 한다.

    정답·해설 보기

    정답

    4

    활용 데이터는 내부 데이터로만 제한해야 한다.

    해설

    정답: 4. 분석 과제 정의서의 데이터는 내부 데이터에 한정되지 않으며 외부 데이터·공공 데이터 등도 포함할 수 있다.

    오답 풀이

    • 1번: 목표 달성을 위한 방법·절차 명시는 정의서의 구성 요소이다.
    • 2번: 과제 목표·범위·활용 방안은 정의서에 포함된다.
    • 3번: 소스 데이터와 입수·분석 방법도 정의서에 포함된다.
    • 4번: 데이터 출처를 내부로 제한할 이유가 없으므로 옳지 않다.

    보충 개념 분석 과제 정의서는 소스 데이터, 데이터 입수 난이도, 분석 방법, 분석 수행 주기, 상세 분석 과정 등을 정의하며 프로젝트 계획 수립의 입력물이 된다.

  15. 문제 15

    4지선다

    다음 문장에서 빈칸에 들어갈 용어는?

    분석 모델의 성능을 평가할 때, 예측값과 실제값의 차이를 줄이는 것은 ( 가 ) 향상을 의미하며, 예측을 반복했을 때 예측들 간의 차이를 줄이는 것은 ( 나 ) 향상을 의미한다.

    • 1.

      가: 정확도, 나: 정밀도

    • 2.

      가: 정밀도, 나: 정확도

    • 3.

      가: 정확도, 나: 재현율

    • 4.

      가: 재현율, 나: 정확도

    정답·해설 보기

    정답

    1

    가: 정확도, 나: 정밀도

    해설

    정답: 1. 예측값과 실제값의 차이(참값과의 근접성)를 줄이는 것은 정확도(Accuracy), 반복 예측 간의 편차(일관성)를 줄이는 것은 정밀도(Precision) 향상이다.

    오답 풀이

    • 1번: 정확도=참값과의 일치 정도, 정밀도=반복 결과의 일관성으로 옳게 연결했다.
    • 2번: 두 용어가 서로 바뀌었다.
    • 3·4번: 재현율은 실제 양성 중 양성으로 예측한 비율로, 이 문맥의 개념이 아니다.

    보충 개념 모델 평가에서 정확도(Accuracy)와 정밀도(Precision)는 트레이드오프 관계가 있을 수 있으며, 안정적 운영을 위해 두 측면을 함께 관리해야 한다.

  16. 문제 16

    4지선다

    상향식 접근법에 대한 설명으로 옳지 않은 것은?

    • 1.

      문제를 구체적으로 정의하기 어려운 경우에 적합하다.

    • 2.

      확실한 구조와 데이터가 주어져야 한다.

    • 3.

      프로토타입을 만들어 반복적 시행착오를 통해 점진적인 개선을 이룬다.

    • 4.

      데이터 탐색과 실험, 테스트를 통해 문제 해결의 통찰을 얻는다.

    정답·해설 보기

    정답

    2

    확실한 구조와 데이터가 주어져야 한다.

    해설

    정답: 2. 확실한 구조와 문제 정의가 주어진 상황에서 체계적으로 분해해 내려가는 것은 하향식 접근법의 특징이다.

    오답 풀이

    • 1번: 상향식은 문제 정의가 어려운 경우 데이터에서 출발해 통찰을 얻는 방식이다.
    • 2번: 확실한 구조·데이터를 전제하는 것은 하향식이므로 옳지 않다.
    • 3번: 프로토타이핑을 통한 반복적 시행착오·점진 개선은 상향식의 특징이다.
    • 4번: 데이터 탐색·실험 기반의 통찰 도출은 상향식의 핵심이다.

    보충 개념 상향식 접근은 비지도학습적·탐색적 성격을 가지며, 분석 주제 유형 중 통찰(Insight)·발견(Discovery)과 연결된다.

  17. 문제 17

    4지선다

    하향식 접근법의 문제 탐색 단계에서 탐색 기법으로 옳지 않은 것은?

    • 1.

      비즈니스 모델 기반 탐색

    • 2.

      외부 참조 모델 탐색

    • 3.

      분석 유즈 케이스 탐색

    • 4.

      데이터 기반 탐색

    정답·해설 보기

    정답

    4

    데이터 기반 탐색

    해설

    정답: 4. 데이터에서 출발하는 탐색은 상향식 접근법의 방식이며, 하향식 문제 탐색 기법이 아니다.

    오답 풀이

    • 1번: 업무·제품·고객 등 비즈니스 모델 캔버스 기반 탐색은 하향식 기법이다.
    • 2번: 유사 업종·경쟁사의 외부 참조 모델(벤치마킹) 탐색은 하향식 기법이다.
    • 3번: 기존 분석 유즈 케이스를 활용한 탐색도 하향식 기법이다.
    • 4번: 데이터 기반 탐색은 상향식 접근에 해당하므로 옳지 않다.

    보충 개념 하향식 문제 탐색은 비즈니스 모델 기반 탐색과 외부 사례 기반(벤치마킹) 탐색으로 나뉘며, 거시적 관점(STEEP), 경쟁자, 시장 니즈, 역량 관점 등으로 기회를 발굴한다.

  18. 문제 18

    4지선다

    우선순위 선정 기준에 대한 설명으로 옳지 않은 것은?

    • 1.

      난이도는 데이터 확보, 기술, 인력 등의 측면을 고려한다.

    • 2.

      시급성은 전략적 중요도를 핵심 기준으로 삼는다.

    • 3.

      시급성은 전략적 중요도와 데이터 분석 비용에 의해 결정된다.

    • 4.

      난이도는 낮고 시급성이 높은 과제를 우선적으로 수행한다.

    정답·해설 보기

    정답

    3

    시급성은 전략적 중요도와 데이터 분석 비용에 의해 결정된다.

    해설

    정답: 3. 데이터 분석 비용은 시급성이 아니라 난이도를 결정하는 요소이다. 시급성은 전략적 중요도와 목표 가치(KPI)로 판단한다.

    오답 풀이

    • 1번: 난이도는 데이터 확보 비용, 분석 기술 수준, 인력 등으로 평가한다.
    • 2번: 시급성의 핵심 판단 기준은 전략적 중요도이다.
    • 3번: 비용 요소를 시급성 기준으로 연결했으므로 옳지 않다.
    • 4번: 시급성이 높고 난이도가 낮은(3사분면) 과제가 최우선 수행 대상이다.

    보충 개념 포트폴리오 사분면 분석에서 우선순위 기준이 시급성이면 3→4→2 순, 난이도면 3→1→2 순으로 진행한다.

  19. 문제 19

    4지선다

    아래 과제 중에서 가장 먼저 해결해야 할 과제는?

    과제 1: 시급성은 높지만 난이도가 낮아 빠른 실행과 즉각적인 효과 측정 가능 과제 2: 시급성은 낮고 난이도가 높아 신중한 계획 수립과 장기적 투자가 필요

    • 1.

      과제 1

    • 2.

      과제 2

    • 3.

      과제 1, 2 모두

    • 4.

      어떤 과제를 우선 수행할지 판단할 수 없음

    정답·해설 보기

    정답

    1

    과제 1

    해설

    정답: 1. 시급성이 높고 난이도가 낮은 과제는 우선순위 사분면에서 가장 먼저 수행해야 할 영역에 해당한다.

    오답 풀이

    • 1번: 빠른 실행과 즉각적 효과가 가능한 과제로 최우선 수행 대상이다.
    • 2번: 시급성이 낮고 난이도가 높은 과제는 장기 과제로 후순위이다.
    • 3번: 자원이 한정된 상황에서 동시 수행은 비효율적이다.
    • 4번: 시급성·난이도 정보가 주어져 있어 우선순위 판단이 가능하다.

    보충 개념 난이도-시급성 매트릭스에서 ‘시급성 높음 + 난이도 낮음’ 과제가 단기 관점의 최우선 추진 과제이다.

  20. 문제 20

    4지선다

    데이터 분석 준비도 평가에 들어갈 내용으로 옳지 않은 것은?

    • 1.

      조직 및 인력

    • 2.

      분석 기술

    • 3.

      분석 데이터

    • 4.

      재무 상태

    정답·해설 보기

    정답

    4

    재무 상태

    해설

    정답: 4. 재무 상태는 분석 준비도(readiness) 평가 영역에 포함되지 않는다.

    오답 풀이

    • 1번: 분석 조직·인력은 준비도 평가의 한 영역이다.
    • 2번: 분석 기법·기술 보유 수준은 준비도 평가 영역이다.
    • 3번: 분석에 활용할 데이터의 보유·관리 수준도 평가 영역이다.
    • 4번: 기업의 재무 상태는 준비도 진단 항목이 아니므로 옳지 않다.

    보충 개념 분석 준비도는 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라의 6개 영역으로 진단한다.

  21. 문제 21

    4지선다

    결측값 처리에 대한 설명으로 옳은 것은?

    • 1.

      결측값을 대체 시 기존 데이터의 평균값으로만 해야 한다.

    • 2.

      결측값 대체는 표본 수는 유지하여 데이터 손실을 최소화하는 데 목적이 있다.

    • 3.

      결측값은 일반적으로 삭제하는 것이 가장 좋은 처리 방법이다.

    • 4.

      결측값을 대체하는 것으로 데이터의 편향이 유발되지는 않는다.

    정답·해설 보기

    정답

    2

    결측값 대체는 표본 수는 유지하여 데이터 손실을 최소화하는 데 목적이 있다.

    해설

    정답: 2. 결측값 대체(imputation)는 관측치를 삭제하지 않고 표본 수를 유지함으로써 정보 손실을 최소화하는 것이 목적이다.

    오답 풀이

    • 1번: 평균 외에도 중앙값·최빈값·회귀 예측값 등 다양한 대체 방법이 있다.
    • 2번: 대체의 목적을 올바르게 설명했다.
    • 3번: 삭제는 표본 손실과 편향을 유발할 수 있어 항상 최선이 아니다.
    • 4번: 단순 대체는 분산 축소 등 편향을 유발할 수 있다.

    보충 개념 결측 처리 방법: 완전 삭제, 단순 대체(평균·중앙값·최빈값), 회귀·KNN 대체, 다중 대체(Multiple Imputation) 등.

  22. 문제 22

    4지선다

    가설 검정에 대한 설명으로 가장 옳지 않은 것은?

    • 1.

      p-value는 0과 1 사이의 값을 가지며 통계적 유의성 판단 기준이 된다.

    • 2.

      p-value가 작을수록 대립가설을 지지하는 증거가 된다.

    • 3.

      p-value가 유의수준(α)보다 작으면 대립가설을 기각한다.

    • 4.

      p-value가 유의수준(α)보다 크면 귀무가설을 채택한다.

    정답·해설 보기

    정답

    3

    p-value가 유의수준(α)보다 작으면 대립가설을 기각한다.

    해설

    정답: 3. p-value가 유의수준보다 작으면 기각하는 것은 대립가설이 아니라 귀무가설이다.

    오답 풀이

    • 1번: p-value는 확률이므로 0~1 범위를 가지며 유의성 판단에 사용된다.
    • 2번: p-value가 작을수록 귀무가설 하에서 관측 결과가 나올 가능성이 낮다는 뜻이므로 대립가설을 지지한다.
    • 3번: 기각 대상이 반대로 서술되어 옳지 않다.
    • 4번: p-value가 유의수준보다 크면 귀무가설을 기각하지 못한다(채택).

    보충 개념 p-value는 귀무가설이 참이라는 가정 아래 관측된 통계량 이상으로 극단적인 값이 나올 확률이다.

  23. 문제 23

    4지선다

    모집단에서 30명의 표본을 추출하여 평균 체중을 추정하고자 한다. 통계적 추론에 대한 설명으로 옳지 않은 것은?

    • 1.

      표본평균은 모평균에 대한 불편추정량이다.

    • 2.

      표본의 크기가 커질수록 표본평균의 표준오차는 작아진다.

    • 3.

      점 추정은 모수를 하나의 값으로 추정하는 방식이다.

    • 4.

      동일한 모집단에서 표본을 다시 추출하더라도 표본평균은 항상 같은 값을 가진다.

    정답·해설 보기

    정답

    4

    동일한 모집단에서 표본을 다시 추출하더라도 표본평균은 항상 같은 값을 가진다.

    해설

    정답: 4. 표본평균은 추출되는 표본에 따라 달라지는 확률변수이므로, 표본을 다시 추출하면 다른 값이 나올 수 있다.

    오답 풀이

    • 1번: 표본평균의 기대값은 모평균과 같으므로 불편추정량이다.
    • 2번: 표준오차는 σ/√n이므로 표본 크기 n이 커질수록 작아진다.
    • 3번: 점 추정은 모수를 단일 값으로, 구간 추정은 범위로 추정하는 방식이다.
    • 4번: 표본평균은 표본추출 변동성을 가지므로 항상 같다는 설명은 옳지 않다.

    보충 개념 표본평균의 분포(표집분포)는 모분산 σ²일 때 평균 μ, 분산 σ²/n을 가지며, 중심극한정리에 의해 n이 충분히 크면 정규분포에 근사한다.

  24. 문제 24

    4지선다

    아래 확률분포에 대한 기대값은?

    P(X=1) = 0.4 P(X=2) = 0.3 P(X=3) = 0.2 P(X=4) = 0.1

    • 1.

      1.0

    • 2.

      1.5

    • 3.

      2.0

    • 4.

      2.5

    정답·해설 보기

    정답

    3

    2.0

    해설

    정답: 3. 기대값 E(X) = Σx·P(X=x) = 1×0.4 + 2×0.3 + 3×0.2 + 4×0.1 = 0.4 + 0.6 + 0.6 + 0.4 = 2.0이다.

    오답 풀이

    • 1·2·4번: 각 값과 확률의 곱을 모두 합산하면 2.0이므로 해당하지 않는다.

    보충 개념 이산확률변수의 기대값은 각 값에 해당 확률을 가중치로 곱해 더한 가중평균이며, 확률의 총합이 1인지 먼저 확인하면 계산 실수를 줄일 수 있다.

  25. 문제 25

    4지선다

    다음 회귀분석 결과에서 결정계수 값은?

    SSE(오차제곱합) = 200 SSR(회귀제곱합) = 300

    • 1.

      0.33

    • 2.

      0.4

    • 3.

      0.6

    • 4.

      0.67

    정답·해설 보기

    정답

    3

    0.6

    해설

    정답: 3. SST = SSR + SSE = 300 + 200 = 500이고, 결정계수 R² = SSR/SST = 300/500 = 0.6이다.

    오답 풀이

    • 1번: 0.33은 결정계수 관련 산식으로 도출되지 않는 값이다.
    • 2번: 0.4는 설명되지 않는 변동의 비율 SSE/SST = 200/500을 계산한 값이다.
    • 4번: 0.67은 SSE/SSR = 200/300을 결정계수로 혼동한 값이다.

    보충 개념 결정계수 R²는 총 변동(SST) 중 회귀모형이 설명하는 변동(SSR)의 비율로, 1 − SSE/SST로도 계산할 수 있다.

  26. 문제 26

    4지선다

    일표본 t-검정 결과에 대한 설명으로 옳지 않은 것은?

    · p-value = 0.001 · 자유도(df) = 99 · 표본평균 = 51.5

    • 1.

      유의수준(α)이 0.05일 때 귀무가설을 기각하지 못한다.

    • 2.

      전체 데이터 수는 100개이다.

    • 3.

      표본평균이 t분포를 따른다고 가정한다.

    • 4.

      확률변수가 정규분포를 따른다는 가정이 필요하다.

    정답·해설 보기

    정답

    1

    유의수준(α)이 0.05일 때 귀무가설을 기각하지 못한다.

    해설

    정답: 1. p-value(0.001)가 유의수준 0.05보다 작으므로 귀무가설을 기각한다. ‘기각하지 못한다’는 설명은 옳지 않다.

    오답 풀이

    • 1번: 0.001 < 0.05이므로 귀무가설을 기각할 수 있어 옳지 않은 설명이다.
    • 2번: 일표본 t-검정의 자유도는 n−1이므로 n = 99 + 1 = 100이다.
    • 3번: 모분산을 모를 때 표준화한 표본평균 통계량은 t분포를 따른다고 가정한다.
    • 4번: t-검정은 모집단(확률변수)의 정규성 가정을 전제로 한다.

    보충 개념 일표본 t-검정 통계량 t = (x̄ − μ₀)/(s/√n)는 자유도 n−1의 t분포를 따른다.

  27. 문제 27

    4지선다

    데이터 분포에서 중앙 50%의 흩어진 정도를 나타내는 지표는?

    • 1.

      평균

    • 2.

      표준편차

    • 3.

      중앙값

    • 4.

      사분위 범위

    정답·해설 보기

    정답

    4

    사분위 범위

    해설

    정답: 4. 사분위 범위(IQR)는 제3사분위수(Q3)와 제1사분위수(Q1)의 차이로, 가운데 50% 데이터의 산포를 나타낸다.

    오답 풀이

    • 1번: 평균은 중심 위치를 나타내는 대표값이다.
    • 2번: 표준편차는 전체 데이터의 평균 중심 산포를 나타낸다.
    • 3번: 중앙값은 중심 위치 지표이지 산포 지표가 아니다.
    • 4번: IQR = Q3 − Q1로 중앙 50% 구간의 길이를 나타내므로 옳다.

    보충 개념 IQR은 이상치에 강건한 산포 측도로, 상자그림에서 상자의 길이에 해당하며 이상치 판정 기준(Q1 − 1.5×IQR, Q3 + 1.5×IQR)에도 사용된다.

  28. 문제 28

    4지선다

    다차원척도법(MDS)의 활용 사례로 옳은 것은?

    • 1.

      매출 예측

    • 2.

      주택 가격 예측

    • 3.

      영화 간 유사성 분석 및 시각화

    • 4.

      고객 마케팅 효과 분석

    정답·해설 보기

    정답

    3

    영화 간 유사성 분석 및 시각화

    해설

    정답: 3. 다차원척도법은 개체 간 거리(유사성·비유사성)를 저차원 공간에 배치해 시각화하는 기법으로, 영화 간 유사성 분석·시각화에 적합하다.

    오답 풀이

    • 1번: 매출 예측은 회귀·시계열 분석의 영역이다.
    • 2번: 주택 가격 예측은 회귀 분석의 영역이다.
    • 3번: 개체 간 유사성 구조를 2~3차원 공간에 표현하는 MDS의 대표 사례이다.
    • 4번: 마케팅 효과 분석은 실험설계·회귀 분석 등의 영역이다.

    보충 개념 MDS(Multidimensional Scaling)는 개체들 사이의 거리 행렬을 보존하도록 좌표를 찾아 개체 간 관계 구조를 시각적으로 파악하는 차원 축소 기법이다.

  29. 문제 29

    4지선다

    독립변수 A, B에 대해 피어슨 상관계수가 0.8이고, p-value가 0.01일 때 옳은 것은?

    • 1.

      A와 B는 양의 선형 관계를 가지고 유의수준 0.05에서 통계적으로 유의하다.

    • 2.

      A의 값이 커짐에 따라 B의 값은 작아지는 경향을 보인다.

    • 3.

      유의수준에 무관하게 상관계수는 통계적으로 유의하다.

    • 4.

      두 변수가 비선형 관계를 갖고 있을 가능성이 높다.

    정답·해설 보기

    정답

    1

    A와 B는 양의 선형 관계를 가지고 유의수준 0.05에서 통계적으로 유의하다.

    해설

    정답: 1. 상관계수 0.8은 강한 양의 선형 관계를 의미하고, p-value 0.01 < 0.05이므로 유의수준 0.05에서 통계적으로 유의하다.

    오답 풀이

    • 1번: 부호(양)와 유의성(0.01 < 0.05)을 모두 올바르게 해석했다.
    • 2번: 상관계수가 양수이므로 A가 커지면 B도 커지는 경향이다.
    • 3번: 유의성은 설정한 유의수준과의 비교로 판단하므로 ‘유의수준에 무관하게’는 옳지 않다(예: α=0.001이면 기각 불가).
    • 4번: 피어슨 상관계수 0.8은 강한 선형 관계를 시사한다.

    보충 개념 피어슨 상관계수는 선형 관계의 방향(부호)과 강도(절대값)를 나타내며, 유의성 검정은 ‘모상관계수 = 0’이라는 귀무가설을 검정한다.

  30. 문제 30

    4지선다

    아래 표에서 X, Y 두 변수의 표본 공분산은?

    X: 1, 2, 3, 4, 5 Y: 2, 4, 5, 6, 8

    • 1.

      3.5

    • 2.

      4.0

    • 3.

      4.5

    • 4.

      5.0

    정답·해설 보기

    정답

    1

    3.5

    해설

    정답: 1. X̄ = 3, Ȳ = 5이고 편차곱의 합은 (−2)(−3) + (−1)(−1) + 0×0 + 1×1 + 2×3 = 6 + 1 + 0 + 1 + 6 = 14이다. 표본 공분산 = 14/(5−1) = 3.5이다.

    오답 풀이

    • 2·3·4번: 편차곱 합 14를 n−1 = 4로 나눈 3.5만이 표본 공분산이며, 보기의 4.0·4.5·5.0은 올바른 산식에서 도출되지 않는다. n = 5로 나누면 2.8(모공분산)이 되는 점에도 주의한다.

    보충 개념 표본 공분산 s_xy = Σ(xᵢ − x̄)(yᵢ − ȳ)/(n−1)이며, 모공분산은 n으로 나눈다. 시험에서는 일반적으로 표본 공분산(n−1)을 사용한다.

  31. 문제 31

    4지선다

    다음 중 주성분 분석(PCA)에 대한 설명으로 옳지 않은 것은?

    • 1.

      주성분 분석은 비지도 학습이다.

    • 2.

      분산을 극대화하는 방향으로 주성분을 생성한다.

    • 3.

      상관관계가 높은 변수들의 선형결합을 통해 차원을 축소하여 변수를 축약한다.

    • 4.

      주성분 수는 데이터 수만큼 생성이 가능하다.

    정답·해설 보기

    정답

    4

    주성분 수는 데이터 수만큼 생성이 가능하다.

    해설

    정답: 4. 주성분은 최대 변수의 개수만큼 생성할 수 있으며, 데이터(관측치) 수만큼 생성되는 것이 아니다.

    오답 풀이

    • 1번: PCA는 종속변수 없이 데이터 구조만으로 축을 찾는 비지도 학습이다.
    • 2번: 제1주성분은 데이터의 분산을 가장 크게 설명하는 방향으로 정의된다.
    • 3번: 상관 높은 변수들의 선형결합으로 소수의 주성분에 정보를 축약한다.
    • 4번: 주성분의 최대 개수는 원래 변수의 수이므로 옳지 않다.

    보충 개념 주성분 수 선택 기준: 고유값 1 이상(Kaiser 기준), 누적 분산 비율 70~90%, Scree plot의 엘보 지점.

  32. 문제 32

    4지선다

    데이터마이닝 수행 단계의 순서로 옳은 것은?

    • 1.

      목적 설정 → 데이터 가공 → 데이터 준비 → 기법 적용 → 검증

    • 2.

      목적 설정 → 데이터 준비 → 데이터 가공 → 기법 적용 → 검증

    • 3.

      데이터 가공 → 데이터 준비 → 목적 설정 → 기법 적용 → 검증

    • 4.

      데이터 가공 → 데이터 준비 → 기법 적용 → 목적 설정 → 검증

    정답·해설 보기

    정답

    2

    목적 설정 → 데이터 준비 → 데이터 가공 → 기법 적용 → 검증

    해설

    정답: 2. 데이터마이닝은 목적 설정 → 데이터 준비 → 데이터 가공 → 기법 적용 → 검증의 5단계로 수행된다.

    오답 풀이

    • 1번: 데이터 준비가 가공보다 먼저 수행되어야 한다.
    • 3·4번: 목적 설정이 가장 먼저 수행되어야 하므로 옳지 않다.

    보충 개념 목적 설정 단계에서 분석 목표와 활용 방안을 정의하고, 준비 단계에서 데이터를 수집·확보하며, 가공 단계에서 모델링 가능한 형태로 변환한 뒤 기법을 적용하고 검증한다.

  33. 문제 33

    4지선다

    다음 중 상관분석에 대한 설명으로 옳지 않은 것은?

    • 1.

      상관계수의 통계적 유의성을 검정할 수 있다.

    • 2.

      상관계수의 절대값이 1에 가까울수록 강한 선형 관계를 의미한다.

    • 3.

      상관분석을 통해 독립변수에 따른 종속변수의 값을 예측할 수 있다.

    • 4.

      피어슨 상관계수는 연속형 변수에서 두 변수 간의 선형관계를 측정한다.

    정답·해설 보기

    정답

    3

    상관분석을 통해 독립변수에 따른 종속변수의 값을 예측할 수 있다.

    해설

    정답: 3. 상관분석은 두 변수 간 선형 관계의 방향과 강도만 측정하며, 값을 예측하는 것은 회귀분석의 역할이다.

    오답 풀이

    • 1번: t-검정을 통해 모상관계수가 0인지에 대한 유의성 검정이 가능하다.
    • 2번: |r|이 1에 가까울수록 선형 관계가 강하다.
    • 3번: 예측 기능은 회귀분석에 해당하므로 옳지 않다.
    • 4번: 피어슨 상관계수는 연속형 변수 간 선형 관계 측도이다.

    보충 개념 상관분석은 관계의 존재·강도를 파악하고, 회귀분석은 관계를 함수식으로 모형화해 예측에 활용한다는 점에서 구분된다.

  34. 문제 34

    4지선다

    다음 중 정상 시계열의 특징에 대한 설명으로 옳은 것은?

    • 1.

      시점에 무관하게 평균과 분산이 일정하다.

    • 2.

      시간의 흐름에 따라 변동성이 있다.

    • 3.

      특정 구간에서 일정한 값을 가진다.

    • 4.

      공분산은 시차에 의존하지 않고 시점에 의존한다.

    정답·해설 보기

    정답

    1

    시점에 무관하게 평균과 분산이 일정하다.

    해설

    정답: 1. 정상 시계열은 평균과 분산이 시점에 의존하지 않고 일정하며, 공분산은 시차에만 의존한다.

    오답 풀이

    • 1번: 정상성의 정의를 올바르게 설명했다.
    • 2번: 시간에 따라 변동성(분산)이 변하면 비정상 시계열이다.
    • 3번: 특정 구간에서 상수 값을 갖는다는 의미가 아니라 통계적 특성이 일정하다는 의미이다.
    • 4번: 정상 시계열의 공분산은 시점이 아닌 시차(lag)에만 의존한다.

    보충 개념 약정상성(weak stationarity)의 3조건: ① 평균이 일정 ② 분산이 일정 ③ 공분산이 시차에만 의존.

  35. 문제 35

    4지선다

    잔고(Balance)와 수입(Income)이 신용카드 연체(Default) 여부에 미치는 영향을 로지스틱 회귀분석한 결과이다. 해석으로 옳지 않은 것은?

    변수회귀계수표준오차p-value
    (Intercept)-11.54050.4350<0.001
    Balance0.00560.0002<0.001
    Income0.000030.000080.712
    • 1.

      Balance가 증가할수록 연체 확률은 높아지는 경향이 있다.

    • 2.

      Balance의 회귀계수는 유의수준 0.05에서 통계적으로 유의하다.

    • 3.

      Income은 유의수준 0.05에서 연체 여부에 유의한 영향을 준다고 보기 어렵다.

    • 4.

      Balance가 1 증가하면 연체 확률이 0.56%p 증가한다.

    정답·해설 보기

    정답

    4

    Balance가 1 증가하면 연체 확률이 0.56%p 증가한다.

    해설

    정답: 4. 로지스틱 회귀에서 회귀계수는 확률이 아니라 로그 오즈(log-odds)의 변화량이다. Balance가 1 증가하면 연체의 로그 오즈가 0.0056 증가하는 것이며, 확률이 일정하게 0.56%p 증가하는 것이 아니다.

    오답 풀이

    • 1번: Balance의 계수가 양수이므로 잔고가 클수록 연체 확률이 높아지는 경향이다.
    • 2번: Balance의 p-value < 0.001 < 0.05이므로 유의하다.
    • 3번: Income의 p-value 0.712 > 0.05이므로 유의하다고 보기 어렵다.
    • 4번: 계수를 확률 변화로 직접 해석했으므로 옳지 않다.

    보충 개념 로지스틱 회귀에서 exp(계수)는 오즈비(odds ratio)를 의미하며, 확률 변화량은 기준 확률 수준에 따라 달라진다.

  36. 문제 36

    4지선다

    다음 중 분류 분석의 정의로 옳은 것은?

    • 1.

      두 변수 간의 관계를 파악하고 예측하는 분석이다.

    • 2.

      이미 분류된 데이터를 바탕으로 새로운 데이터가 속할 그룹을 예측하는 분석이다.

    • 3.

      데이터들 사이에 숨겨진 패턴 구조를 찾아내어 그룹화하는 분석이다.

    • 4.

      분석 데이터의 평균 또는 합을 예측하는 분석이다.

    정답·해설 보기

    정답

    2

    이미 분류된 데이터를 바탕으로 새로운 데이터가 속할 그룹을 예측하는 분석이다.

    해설

    정답: 2. 분류 분석은 레이블이 있는 학습 데이터로 모델을 만들어 새로운 데이터의 소속 범주를 예측하는 지도 학습 기법이다.

    오답 풀이

    • 1번: 두 변수 간 관계 파악·예측은 상관·회귀 분석의 설명이다.
    • 2번: 분류 분석의 정의를 올바르게 설명했다.
    • 3번: 레이블 없이 패턴으로 그룹화하는 것은 군집 분석이다.
    • 4번: 평균·합 등 수치 예측은 회귀 분석에 해당한다.

    보충 개념 분류는 지도 학습(레이블 필요), 군집은 비지도 학습(레이블 불필요)이라는 점이 핵심 구분 기준이다.

  37. 문제 37

    4지선다

    다음 중 인공신경망(ANN)에 대한 설명으로 옳지 않은 것은?

    • 1.

      은닉층이 없는 인공신경망은 로지스틱 회귀와 동일한 역할을 수행한다.

    • 2.

      은닉층은 비선형 활성화 함수를 통해 복잡한 비선형 관계를 학습한다.

    • 3.

      렐루(ReLU) 함수는 입력값이 0보다 작으면 0으로, 0보다 크면 입력값을 그대로 출력한다.

    • 4.

      렐루(ReLU) 함수를 활성화 함수로 사용할 때, 은닉층이 없는 인공신경망은 로지스틱 회귀 모형과 동일한 특성을 가진다.

    정답·해설 보기

    정답

    4

    렐루(ReLU) 함수를 활성화 함수로 사용할 때, 은닉층이 없는 인공신경망은 로지스틱 회귀 모형과 동일한 특성을 가진다.

    해설

    정답: 4. 은닉층이 없는 신경망이 로지스틱 회귀와 동일해지는 것은 출력층 활성화 함수가 시그모이드일 때이다. ReLU를 사용하면 로지스틱 회귀와 동일하지 않다.

    오답 풀이

    • 1번: 시그모이드 활성화 함수를 사용하는 단층 신경망은 로지스틱 회귀와 동일한 구조이다.
    • 2번: 은닉층의 비선형 활성화 함수가 비선형 관계 학습을 가능하게 한다.
    • 3번: ReLU(x) = max(0, x)의 정의로 옳다.
    • 4번: ReLU는 시그모이드가 아니므로 로지스틱 회귀와 동일하다는 설명은 옳지 않다.

    보충 개념 활성화 함수별 특징 — 시그모이드: (0,1) 출력·확률 해석, tanh: (−1,1), ReLU: max(0,x)로 기울기 소실 완화.

  38. 문제 38

    4지선다

    단일 은닉층으로 구성된 다층 퍼셉트론에서 입력층 20개 노드, 은닉층 50개 노드, 출력층 3개로 구성될 때, 편향(Bias)을 제외한 가중치의 개수는?

    • 1.

      73

    • 2.

      150

    • 3.

      1150

    • 4.

      3000

    정답·해설 보기

    정답

    3

    1150

    해설

    정답: 3. 입력층→은닉층 가중치 20×50 = 1000개, 은닉층→출력층 가중치 50×3 = 150개로 총 1000 + 150 = 1150개이다.

    오답 풀이

    • 1번: 73은 노드 수의 합(20+50+3)으로 잘못 계산한 값이다.
    • 2번: 150은 은닉층→출력층 가중치만 계산한 값이다.
    • 4번: 3000은 20×50×3처럼 모든 층을 곱한 잘못된 계산이다.

    보충 개념 완전연결 신경망의 층 간 가중치 수는 (앞 층 노드 수)×(뒤 층 노드 수)이며, 편향을 포함하면 각 층의 노드 수만큼 추가된다(이 문제는 편향 제외).

  39. 문제 39

    4지선다

    시그모이드(Sigmoid) 함수의 출력 범위로 옳은 것은?

    • 1.

      y > 0

    • 2.

      0 또는 1

    • 3.

      -1 ≤ y ≤ 1

    • 4.

      0 ≤ y ≤ 1

    정답·해설 보기

    정답

    4

    0 ≤ y ≤ 1

    해설

    정답: 4. 시그모이드 함수 σ(x) = 1/(1+e⁻ˣ)의 출력은 0과 1 사이의 값을 가진다(엄밀히는 0 < y < 1의 개구간이지만, 보기 중 출력 범위를 나타내는 것은 4번이다).

    오답 풀이

    • 1번: 출력이 0보다 큰 것은 맞지만 1을 넘지 않는다는 상한 정보가 없어 범위 표현으로 부적절하다.
    • 2번: 0 또는 1의 이산값이 아니라 연속값을 출력한다.
    • 3번: −1~1은 하이퍼볼릭 탄젠트(tanh)의 출력 범위이다.
    • 4번: 시그모이드의 출력 범위로 옳다.

    보충 개념 시그모이드는 출력을 확률처럼 해석할 수 있어 이진 분류의 출력층에 주로 사용된다.

  40. 문제 40

    4지선다

    앙상블 모형에 대한 설명으로 옳은 것은?

    • 1.

      부스팅은 각 모델을 병렬 학습한 후 최종 결과를 보팅 방식으로 집계하여 통합한다.

    • 2.

      부스팅은 이전 모델의 오차를 보완하기 위해 순차적으로 모형을 학습한다.

    • 3.

      앙상블 모델은 항상 단일 모형보다 정확한 분석 성능을 보여준다.

    • 4.

      모델 간 상관관계를 낮추어 예측 성능을 향상시키는 분석 모형이다.

    정답·해설 보기

    정답

    2

    부스팅은 이전 모델의 오차를 보완하기 위해 순차적으로 모형을 학습한다.

    해설

    정답: 2. 부스팅은 이전 모델이 잘못 예측한 데이터에 가중치를 높여 다음 모델이 보완하도록 순차적으로 학습하는 방식이다.

    오답 풀이

    • 1번: 병렬 학습 후 보팅으로 집계하는 것은 배깅의 방식이다.
    • 2번: 부스팅의 순차 학습 원리를 올바르게 설명했다.
    • 3번: 앙상블이 항상 단일 모형보다 우수한 것은 아니다(데이터·기저 모형에 따라 다름).
    • 4번: 모델 간 상관을 낮추는 것은 배깅·랜덤포레스트의 성능 향상 원리에 대한 설명으로, 부스팅을 포함한 앙상블 전체의 정의는 아니며 보기 중 가장 정확한 설명은 2번이다.

    보충 개념 배깅은 분산 감소, 부스팅은 편향 감소에 효과적이며, 랜덤포레스트는 배깅에 변수 무작위 선택을 더해 모델 간 상관을 낮춘다.

  41. 문제 41

    4지선다

    다음 중 인공신경망의 구조에 대한 설명으로 옳지 않은 것은?

    • 1.

      입력층의 노드 수는 입력 데이터 특성 수에 따라 결정된다.

    • 2.

      적은 은닉층은 과소적합 발생 가능성이 있으며 복잡한 모델에는 부적합할 수 있다.

    • 3.

      모든 은닉층은 항상 동일한 개수의 노드로 구성되어야 한다.

    • 4.

      은닉층의 수는 모형의 복잡도와 학습 능력에 영향을 미친다.

    정답·해설 보기

    정답

    3

    모든 은닉층은 항상 동일한 개수의 노드로 구성되어야 한다.

    해설

    정답: 3. 은닉층마다 노드 수는 자유롭게 설계할 수 있으며, 모든 은닉층이 동일한 노드 수를 가질 필요는 없다.

    오답 풀이

    • 1번: 입력층 노드 수는 입력 특성(변수)의 개수로 결정된다.
    • 2번: 은닉층이 너무 적으면 복잡한 패턴을 학습하지 못해 과소적합이 발생할 수 있다.
    • 3번: 은닉층별 노드 수는 하이퍼파라미터로 자유롭게 설정하므로 옳지 않다.
    • 4번: 은닉층 수가 많을수록 모형 복잡도와 표현력이 커진다.

    보충 개념 은닉층·노드 수가 과도하면 과적합, 부족하면 과소적합 위험이 있어 검증 데이터를 통한 튜닝이 필요하다.

  42. 문제 42

    4지선다

    다층 퍼셉트론(MLP)에서 출력층의 결과가 다범주(multiclass)일 때, 주로 사용하는 활성화 함수는?

    • 1.

      렐루(ReLU)

    • 2.

      시그모이드(Sigmoid)

    • 3.

      하이퍼볼릭 탄젠트(Hyperbolic Tangent)

    • 4.

      소프트맥스(Softmax)

    정답·해설 보기

    정답

    4

    소프트맥스(Softmax)

    해설

    정답: 4. 소프트맥스는 각 범주에 대한 출력값을 합이 1인 확률 분포로 변환하므로 다범주 분류의 출력층에 사용된다.

    오답 풀이

    • 1번: ReLU는 주로 은닉층에서 사용된다.
    • 2번: 시그모이드는 이진 분류 출력층에 적합하다.
    • 3번: tanh는 은닉층에서 사용되며 출력 범위가 −1~1이다.
    • 4번: 다범주 확률 출력에 적합한 소프트맥스가 정답이다.

    보충 개념 소프트맥스 f(aᵢ) = e^(aᵢ) / Σⱼ e^(aⱼ)는 모든 출력의 합이 1이 되어 각 클래스 소속 확률로 해석할 수 있다.

  43. 문제 43

    4지선다

    X축은 1-특이도(False Positive Rate)를, Y축은 민감도를 나타낸 그래프는?

    • 1.

      ROC 커브

    • 2.

      PR 커브

    • 3.

      산점도

    • 4.

      이익 곡선

    정답·해설 보기

    정답

    1

    ROC 커브

    해설

    정답: 1. ROC 커브는 분류 임계값을 변화시키며 X축에 1-특이도(FPR), Y축에 민감도(TPR)를 그린 곡선이다.

    오답 풀이

    • 1번: ROC 커브의 정의로 옳다.
    • 2번: PR 커브는 X축 재현율, Y축 정밀도를 나타낸다.
    • 3번: 산점도는 두 변수의 관측값 분포를 나타내는 일반 그래프이다.
    • 4번: 이익 곡선(Lift/Gain chart)은 등급별 반응률 향상 정도를 나타낸다.

    보충 개념 ROC 곡선 아래 면적인 AUC가 1에 가까울수록 분류 성능이 우수하며, 0.5는 무작위 분류 수준을 의미한다.

  44. 문제 44

    4지선다

    실제 값이 참(True)인 경우 모델이 참으로 올바르게 예측한 비율을 의미하는 지표는?

    • 1.

      정확도(Accuracy)

    • 2.

      정밀도(Precision)

    • 3.

      재현율(Recall)

    • 4.

      F1-Score

    정답·해설 보기

    정답

    3

    재현율(Recall)

    해설

    정답: 3. 재현율(민감도)은 실제 참인 것 중에서 모델이 참으로 예측한 비율로, TP/(TP+FN)으로 계산한다.

    오답 풀이

    • 1번: 정확도는 전체 중 올바르게 예측한 비율 (TP+TN)/전체이다.
    • 2번: 정밀도는 참으로 예측한 것 중 실제 참인 비율 TP/(TP+FP)이다.
    • 3번: 재현율의 정의로 옳다.
    • 4번: F1-Score는 정밀도와 재현율의 조화평균이다.

    보충 개념 재현율은 민감도(Sensitivity)·TPR과 같은 개념으로, 실제 양성을 놓치지 않는 능력을 측정한다.

  45. 문제 45

    4지선다

    의사결정나무에서 가지치기 시 평가기준으로 사용되기 어려운 것은?

    • 1.

      지니 지수

    • 2.

      엔트로피 지수

    • 3.

      카이제곱 통계량

    • 4.

      잔차 제곱합

    정답·해설 보기

    정답

    4

    잔차 제곱합

    해설

    정답: 4. 잔차 제곱합은 회귀나무(연속형 목표변수)의 분리 기준이며, 분류나무의 평가기준으로는 사용되기 어렵다.

    오답 풀이

    • 1번: 지니 지수는 분류나무(CART)의 대표적 불순도 기준이다.
    • 2번: 엔트로피는 C4.5/C5.0 계열 분류나무의 기준이다.
    • 3번: 카이제곱 통계량은 CHAID 분류나무의 기준이다.
    • 4번: 잔차(오차) 제곱합은 회귀나무의 기준이므로 분류 관점에서 옳지 않다.

    보충 개념 의사결정나무 분리 기준 — 분류나무: 지니 지수·엔트로피·카이제곱 통계량, 회귀나무: 분산 감소(잔차 제곱합)·F-통계량.

  46. 문제 46

    4지선다

    K-Means 군집 분석에서 초기 군집 중심 설정 방법으로 옳은 것은?

    • 1.

      데이터셋 내 모든 데이터의 평균을 군집 중심으로 설정한다.

    • 2.

      데이터셋 내 모든 데이터의 중앙값을 군집 중심으로 설정한다.

    • 3.

      데이터셋 내 무작위로 선택된 임의의 K개 관측점을 설정한다.

    • 4.

      군집의 개수만큼 평균값을 설정한다.

    정답·해설 보기

    정답

    3

    데이터셋 내 무작위로 선택된 임의의 K개 관측점을 설정한다.

    해설

    정답: 3. 표준 K-Means는 데이터 중 무작위로 K개의 관측점을 선택해 초기 군집 중심으로 사용한다.

    오답 풀이

    • 1번: 전체 평균 하나로는 K개의 군집 중심을 만들 수 없다.
    • 2번: 전체 중앙값도 마찬가지로 K개 중심 설정 방법이 아니다.
    • 3번: 무작위 K개 관측점 선택이 기본 초기화 방법이다.
    • 4번: ‘군집 개수만큼 평균값 설정’은 초기화 방법의 설명이 아니다(평균 갱신은 반복 단계에서 수행).

    보충 개념 초기 중심에 따라 결과가 달라질 수 있어 여러 번 반복 실행하거나 k-means++ 같은 개선된 초기화 기법을 사용한다.

  47. 문제 47

    4지선다

    아래는 아이템별 거래 집합이다. Apriori 알고리즘을 적용하고 최소 지지도를 2로 설정했을 때, 길이가 가장 긴 빈발 항목 집합은?

    아이템 거래: {a, b}, {a, b, d}, {b, c, e}, {d, e}, {a, b, c, e}

    • 1.

      {a, b}

    • 2.

      {a, b, d}

    • 3.

      {b, c, e}

    • 4.

      {a, b, c, e}

    정답·해설 보기

    정답

    3

    {b, c, e}

    해설

    정답: 3. {b, c, e}는 거래 {b, c, e}와 {a, b, c, e}에 모두 포함되어 지지도 2를 만족하며, 길이 3으로 가장 긴 빈발 항목 집합이다.

    오답 풀이

    • 1번: {a, b}는 지지도 3으로 빈발하지만 길이가 2로 더 짧다.
    • 2번: {a, b, d}는 거래 {a, b, d}에만 나타나 지지도 1로 빈발하지 않다.
    • 3번: 지지도 2(두 거래 포함)와 최대 길이 3을 모두 만족한다.
    • 4번: {a, b, c, e}는 거래 {a, b, c, e}에만 나타나 지지도 1로 빈발하지 않다.

    보충 개념 Apriori 원리: 어떤 항목 집합이 빈발하면 그 부분집합도 모두 빈발한다. 이를 이용해 후보 집합을 단계적으로 줄여 나간다.

  48. 문제 48

    4지선다

    다음 중 연관 분석에 대한 설명으로 옳지 않은 것은?

    • 1.

      지지도는 전체 거래 중 특정 물건들이 동시에 나타나는 비율을 의미한다.

    • 2.

      일반적으로 연관 분석 시 지지도보다 신뢰도가 더 중요하다.

    • 3.

      조건 반응(If-then) 기반으로 분석 결과에 대한 명확한 이해가 가능하다.

    • 4.

      대표적인 예시로 장바구니 분석이 있다.

    정답·해설 보기

    정답

    2

    일반적으로 연관 분석 시 지지도보다 신뢰도가 더 중요하다.

    해설

    정답: 2. 지지도·신뢰도·향상도는 각각 다른 측면을 평가하는 지표로 함께 고려해야 하며, 신뢰도가 일반적으로 더 중요하다고 단정할 수 없다.

    오답 풀이

    • 1번: 지지도 = P(A∩B)로 동시 구매 비율을 의미한다.
    • 2번: 신뢰도만으로는 우연한 동시 구매를 걸러내지 못해(향상도 필요) 더 중요하다고 볼 수 없다.
    • 3번: 연관 규칙은 ‘A를 사면 B를 산다’ 형태로 해석이 직관적이다.
    • 4번: 장바구니 분석은 연관 분석의 대표 사례이다.

    보충 개념 지지도는 규칙의 빈도(중요성), 신뢰도는 조건부 확률(신뢰성), 향상도는 독립 대비 개선 정도를 측정한다.

  49. 문제 49

    4지선다

    아래 특정 기간 동안 판매된 음료 구매 건수를 통해 “커피 → 우유”의 지지도는?

    음료커피우유녹차
    구매건수100100100
    커피+우유우유+녹차녹차+커피커피+우유+녹차
    25020020050
    • 1.

      0.2

    • 2.

      0.25

    • 3.

      0.3

    • 4.

      0.35

    정답·해설 보기

    정답

    3

    0.3

    해설

    정답: 3. 전체 거래 수 = 100+100+100+250+200+200+50 = 1,000건이다. 커피와 우유가 동시에 포함된 거래는 (커피+우유) 250건 + (커피+우유+녹차) 50건 = 300건이므로, 지지도 = 300/1,000 = 0.3이다.

    오답 풀이

    • 1번: 0.2는 일부 조합(200건)만 분자로 계산한 값이다.
    • 2번: 0.25는 (커피+우유) 250건만 분자로 계산한 값이다.
    • 4번: 0.35는 (커피+우유) 250건에 커피 단독 100건을 잘못 더하고 (커피+우유+녹차) 50건을 누락한 350/1,000의 계산이다.

    보충 개념 지지도(A→B) = (A와 B가 동시에 포함된 거래 수)/(전체 거래 수)이며, 세 품목 동시 거래도 A·B를 포함하므로 분자에 포함해야 한다.

  50. 문제 50

    4지선다

    최장연결법을 이용한 군집분석 수행 결과에 대한 설명으로 옳지 않은 것은?

    • 1.

      군집 간 거리는 가장 멀리 떨어진 개체들의 거리를 기준으로 한다.

    • 2.

      군집 간 거리가 최소인 군집들을 순차적으로 합치면서 계층 구조를 형성한다.

    • 3.

      군집분석은 재분석 시 결과가 달라질 수 있다.

    • 4.

      이상치에 민감하며, 군집 간 거리가 이상치에 크게 영향을 받을 수 있다.

    정답·해설 보기

    정답

    3

    군집분석은 재분석 시 결과가 달라질 수 있다.

    해설

    정답: 3. 최장연결법 등 계층적 군집분석은 거리 행렬에 따라 결정적으로 수행되므로 동일 데이터로 재분석하면 항상 같은 결과가 나온다(초기값에 따라 달라지는 K-Means와 구분).

    오답 풀이

    • 1번: 최장연결법(완전연결법)은 두 군집에서 가장 먼 개체 쌍의 거리를 군집 간 거리로 정의한다.
    • 2번: 계층적 군집은 거리가 가장 가까운 군집 쌍부터 순차적으로 병합한다.
    • 3번: 계층적 군집은 결정적 알고리즘이므로 재분석 시 결과가 달라진다는 설명은 옳지 않다.
    • 4번: 최대 거리를 기준으로 하므로 이상치의 영향에 민감하다.

    보충 개념 계층적 군집 연결법 — 최단연결법(최소 거리), 최장연결법(최대 거리), 평균연결법, 중심연결법, 와드연결법(SSE 증가 최소).

이번엔 직접 풀어보세요

타이머와 자동 채점이 켜진 실제 시험 환경으로 응시할 수 있습니다.

ADsP 다른 회차 기출 복원

함께 읽으면 좋은 글