ADsP· 50문항· 조회 51전문가 검수

[ADsP] 2025년 44회 기출 복원

ADsP(데이터분석 준전문가) 2025년 44회 기출 복원 50문항을 정답·해설과 함께 정리했습니다. 검색해서 들어오신 분들도 바로 풀어보고 채점까지 가능합니다.

안녕하세요. 문어입니다 🐙


📋 회차 정보

이번 글은 ADsP(데이터분석 준전문가) 2025년 44회 기출 복원입니다. 아래는 시험 응시 정보 요약이에요.

자격증ADsP(데이터분석 준전문가)
연도2025
회차44
문항 수50문항

📊 출제 영역 한눈에

이번 회차의 과목별 문항 분포입니다. 비중이 큰 영역부터 우선 풀이하면 효율적이에요.

과목문항 수비중
데이터 이해10문항20%
데이터 분석 기획10문항20%
데이터 분석30문항60%

💡 학습 팁

ADsP 는 데이터 이해·분석 기획·분석 50문항 4지선다입니다. 2024년 개편 후 통계 비중이 늘었으니 기출 복원에서 통계 계산 문제를 우선 보세요.

📝 기출문제 전체 보기

데이터분석 준전문가(ADsP) 2025년 44회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.

  1. 문제 1

    4지선다

    다음 중 데이터 분석가에 대한 설명으로 가장 부적절한 것은?

    • 1.

      특정 도메인의 전문가가 직접 분석에 참여하면 더 깊은 통찰을 얻을 수 있다.

    • 2.

      분석가는 분석 업무와 관리 업무를 동시에 수행할 수 없다.

    • 3.

      분석가는 커뮤니케이션 능력과 팀워크 같은 소프트 스킬도 갖추면 좋다.

    • 4.

      분석가는 일반적으로 코딩만 수행하는 역할로 한정되지 않는다.

    정답·해설 보기

    정답

    2

    분석가는 분석 업무와 관리 업무를 동시에 수행할 수 없다.

    해설

    정답: 2. 데이터 분석가는 상황에 따라 분석 업무와 관리 업무를 함께 수행할 수 있으므로 부적절한 설명입니다.

    오답 풀이

    • 1번: 도메인 지식이 있는 사람이 분석하면 업무 맥락을 반영한 통찰을 얻기 쉽습니다.
    • 2번: 분석가가 관리자 역할을 절대 수행할 수 없다는 설명은 지나치게 단정적입니다.
    • 3번: 분석 결과를 전달하고 협업하기 위해 소프트 스킬은 중요합니다.
    • 4번: 데이터 분석가는 문제 정의·데이터 해석·결과 전달 등 코딩 외 업무도 수행합니다.

    보충 개념 데이터 분석가는 기술 역량뿐 아니라 비즈니스 이해·문제 정의·커뮤니케이션 능력을 함께 요구받습니다.

  2. 문제 2

    4지선다

    다음 중 전략적 통찰력이 있는 분석에 관한 내용으로 적절하지 않은 것은?

    • 1.

      인사이트를 도출하여 사업 환경 변화에 빠르게 대응하고 새로운 기회를 찾을 수 있다.

    • 2.

      분석을 무조건 많이 수행하는 것 자체가 핵심은 아니다.

    • 3.

      통찰력 있는 분석은 기업의 의사결정에 긍정적인 영향을 줄 수 있다.

    • 4.

      기업 내부 관점에만 한정하여 분석을 수행한다.

    정답·해설 보기

    정답

    4

    기업 내부 관점에만 한정하여 분석을 수행한다.

    해설

    정답: 4. 전략적 통찰력은 내부 관점뿐 아니라 외부 환경·시장·고객 변화까지 고려해야 하므로 내부 관점에만 국한된다는 설명은 부적절합니다.

    오답 풀이

    • 1번: 전략적 분석은 환경 변화 대응과 기회 발굴에 도움을 줍니다.
    • 2번: 분석의 양보다 문제에 맞는 통찰 도출이 중요합니다.
    • 3번: 통찰 있는 분석은 의사결정 품질을 높일 수 있습니다.
    • 4번: 내부 관점에만 머무르면 전략적 통찰력이 약해질 수 있습니다.
  3. 문제 3

    4지선다

    다음 중 빅데이터 위기에 대한 대응 방안으로 가장 적절하지 않은 것은?

    • 1.

      익명화 기술을 통해 사생활 침해 위험을 줄인다.

    • 2.

      사생활 침해 통제 방안으로 동의제에서 책임제로 전환을 고려한다.

    • 3.

      잠재적 위협 요인만으로 개인에게 불이익을 준다.

    • 4.

      알고리즘 접근을 허용하여 데이터 오용에 따른 피해를 줄인다.

    정답·해설 보기

    정답

    3

    잠재적 위협 요인만으로 개인에게 불이익을 준다.

    해설

    정답: 3. 잠재적 위협 요인만으로 개인에게 불이익을 주는 것은 빅데이터 위기 중 책임 원칙 훼손에 해당하며, 대응 방안으로 적절하지 않습니다.

    오답 풀이

    • 1번: 익명화는 개인정보 노출과 사생활 침해 위험을 줄이기 위한 기술적 대응 방안입니다.
    • 2번: 동의제에서 책임제로의 전환은 사생활 침해 문제 대응 논의입니다.
    • 3번: 예측이나 잠재적 위험만으로 불이익을 주는 것은 책임 원칙을 훼손합니다.
    • 4번: 알고리즘 접근 허용은 데이터 오용을 줄이기 위한 투명성 확보 방안입니다.
  4. 문제 4

    4지선다

    다음 중 데이터에 대한 설명으로 옳지 않은 것은?

    • 1.

      데이터의 유형에 따라 적합한 분석 방법이 달라질 수 있다.

    • 2.

      HTML 문서는 일반적으로 정형 데이터로 분류된다.

    • 3.

      데이터는 정형, 반정형, 비정형 데이터로 구분할 수 있다.

    • 4.

      이미지와 동영상 데이터는 비정형 데이터에 해당한다.

    정답·해설 보기

    정답

    2

    HTML 문서는 일반적으로 정형 데이터로 분류된다.

    해설

    정답: 2. HTML은 태그 구조를 가지지만 고정된 행과 열 형태의 정형 데이터가 아니라 반정형 데이터로 분류하는 것이 일반적입니다.

    오답 풀이

    • 1번: 데이터 유형에 따라 분석 방법이 달라집니다.
    • 2번: HTML은 관계형 테이블처럼 엄격한 스키마를 갖는 정형 데이터가 아닙니다.
    • 3번: 데이터는 보통 정형·반정형·비정형으로 구분합니다.
    • 4번: 이미지·동영상은 정해진 행·열 구조가 없어 비정형 데이터입니다.
  5. 문제 5

    4지선다

    "커피를 구매하는 사람이 탄산음료도 함께 구매하는 경향이 있는가?"와 같은 관계를 파악하는 데 적합한 분석 방식은?

    • 1.

      유전 알고리즘

    • 2.

      군집 분석

    • 3.

      자연어 분석

    • 4.

      연관분석

    정답·해설 보기

    정답

    4

    연관분석

    해설

    정답: 4. 상품 간 동시 구매 패턴을 찾는 분석은 연관분석에 해당합니다.

    오답 풀이

    • 1번: 유전 알고리즘은 최적화 문제 해결에 활용됩니다.
    • 2번: 군집 분석은 유사한 대상을 묶는 분석입니다.
    • 3번: 자연어 분석은 텍스트 데이터의 의미를 분석하는 기법입니다.
    • 4번: 연관분석은 함께 발생하는 항목 간 관계를 찾습니다.
  6. 문제 6

    4지선다

    다음 중 업무 영역과 일차원적 분석 사례의 연결이 가장 부적절한 것은?

    • 1.

      마케팅: 신규 지점 입지 선정

    • 2.

      공급처: 공급망 관리 및 재고 관리

    • 3.

      재무관리: 거래처 관리

    • 4.

      인력관리: 이직률 예측

    정답·해설 보기

    정답

    3

    재무관리: 거래처 관리

    해설

    정답: 3. 거래처 관리는 일반적으로 재무관리보다 영업 또는 고객·거래처 관리 영역에 더 가깝습니다.

    오답 풀이

    • 1번: 신규 지점 위치 결정은 마케팅 분석 사례입니다.
    • 2번: 공급망과 재고 관리는 공급 영역의 분석 사례입니다.
    • 3번: 재무관리는 비용·수익성·위험·예산과 더 직접적으로 관련됩니다.
    • 4번: 이직률 예측은 인력관리 영역의 분석 사례입니다.
  7. 문제 7

    4지선다

    이용자가 원하는 정보를 신속하게 획득하기 위해 우선적으로 고려해야 할 측면은?

    • 1.

      정보관리 측면

    • 2.

      정보기술 발전 측면

    • 3.

      사회경제적 측면

    • 4.

      정보이용 측면

    정답·해설 보기

    정답

    4

    정보이용 측면

    해설

    정답: 4. 이용자가 원하는 정보를 빠르게 얻는 문제는 정보 활용성·접근성을 중시하는 정보이용 측면과 가장 직접적으로 관련됩니다.

    오답 풀이

    • 1번: 정보관리 측면은 정보의 저장·관리·품질 유지에 초점을 둡니다.
    • 2번: 정보기술 발전 측면은 기술 기반 변화에 초점을 둡니다.
    • 3번: 사회경제적 측면은 사회와 경제에 미치는 영향과 관련됩니다.
    • 4번: 정보이용 측면은 사용자의 정보 검색·활용에 초점을 둡니다.
  8. 문제 8

    4지선다

    1ZB와 동일한 데이터 용량은?

    • 1.

      1024EB

    • 2.

      1024PB

    • 3.

      1024GB

    • 4.

      1024YB

    정답·해설 보기

    정답

    1

    1024EB

    해설

    정답: 1. 데이터 용량 단위는 GB → TB → PB → EB → ZB → YB 순서로 1024배씩 커지므로 1ZB = 1024EB입니다.

    오답 풀이

    • 1번: 1ZB = 1024EB로 맞습니다.
    • 2번: 1024PB = 1EB입니다.
    • 3번: 1024GB = 1TB입니다.
    • 4번: 1024YB는 ZB보다 훨씬 큰 단위입니다.
  9. 문제 9

    4지선다

    다음 중 데이터 사이언스에 대한 설명으로 가장 부적절한 것은?

    • 1.

      생성된 데이터를 바탕으로 데이터베이스를 구축하는 것 자체가 데이터 사이언스의 핵심 목적이다.

    • 2.

      분석뿐 아니라 결과를 설명하고 전달하는 과정도 포함한다.

    • 3.

      통계학, 기계학습, 데이터마이닝 기법 등을 활용한다.

    • 4.

      데이터를 이용하여 정보와 인사이트를 만들어낸다.

    정답·해설 보기

    정답

    1

    생성된 데이터를 바탕으로 데이터베이스를 구축하는 것 자체가 데이터 사이언스의 핵심 목적이다.

    해설

    정답: 1. 데이터베이스 구축은 데이터 관리 영역에 가깝고, 데이터 사이언스의 핵심은 데이터에서 인사이트와 가치를 도출하는 것입니다.

    오답 풀이

    • 1번: DB 구축이 데이터 사이언스 자체의 핵심 정의는 아닙니다.
    • 2번: 데이터 사이언스는 분석 결과의 설명과 전달까지 포함합니다.
    • 3번: 통계학·기계학습·데이터마이닝은 데이터 사이언스의 주요 기법입니다.
    • 4번: 데이터에서 정보·인사이트를 도출하는 것이 데이터 사이언스의 목적입니다.
  10. 문제 10

    4지선다

    기온 변화에 따른 판매량 변화를 예측하는 데 가장 적합한 분석 방법은?

    • 1.

      회귀분석

    • 2.

      연관분석

    • 3.

      군집분석

    • 4.

      유전 알고리즘

    정답·해설 보기

    정답

    1

    회귀분석

    해설

    정답: 1. 기온이라는 독립변수가 판매량(종속변수)에 미치는 영향을 예측하는 문제는 회귀분석에 적합합니다.

    오답 풀이

    • 1번: 회귀분석은 변수 간 관계 모델링과 예측에 사용됩니다.
    • 2번: 연관분석은 함께 발생하는 항목 간 관계를 찾는 기법입니다.
    • 3번: 군집분석은 유사한 대상을 묶는 비지도 학습 기법입니다.
    • 4번: 유전 알고리즘은 최적화 문제에 활용됩니다.
  11. 문제 11

    4지선다

    분석 마스터플랜 수립 시 최우선 순위로 고려할 과제 유형은?

    • 1.

      난이도는 낮고 시급성은 미래인 과제

    • 2.

      난이도는 낮고 시급성은 현재인 과제

    • 3.

      난이도는 높고 시급성은 미래인 과제

    • 4.

      난이도는 높고 시급성은 현재인 과제

    정답·해설 보기

    정답

    2

    난이도는 낮고 시급성은 현재인 과제

    해설

    정답: 2. 난이도가 낮고 현재 시급성이 높은 과제는 빠르게 성과를 낼 수 있어 우선 추진 대상으로 적합합니다.

    오답 풀이

    • 1번: 미래 과제이므로 현재 최우선이 아닙니다.
    • 2번: 쉬우면서 현재 시급한 과제는 빠른 실행과 성과 도출이 가능합니다.
    • 3번: 어렵고 미래 과제는 장기 검토 대상에 가깝습니다.
    • 4번: 현재 시급하지만 난이도가 높아 즉시 성과 어렵습니다.
  12. 문제 12

    4지선다

    다음 중 분석 기획 시 고려사항으로 가장 부적절한 것은?

    • 1.

      가치창출 시나리오와 유즈케이스 탐색

    • 2.

      장애요소와 대응방안 검토

    • 3.

      데이터 정합성에 대한 검토

    • 4.

      데이터 유형은 분석 기획 단계에서 고려하지 않아도 된다.

    정답·해설 보기

    정답

    4

    데이터 유형은 분석 기획 단계에서 고려하지 않아도 된다.

    해설

    정답: 4. 데이터 유형은 분석 방법·처리 방식·모델링에 영향을 주므로 분석 기획 단계에서 반드시 고려해야 합니다.

    오답 풀이

    • 1번: 가치 시나리오와 유즈케이스 검토는 필수입니다.
    • 2번: 장애요소·대응방안을 사전에 고려해야 합니다.
    • 3번: 데이터 정합성은 분석 결과 신뢰도와 직결됩니다.
    • 4번: 데이터 유형은 분석 기획에서 반드시 고려해야 합니다.
  13. 문제 13

    4지선다

    다음 중 과제 중심적 데이터 분석에 대한 설명으로 옳지 않은 것은?

    • 1.

      즉각적인 실행을 통해 성과를 도출하는 데 초점을 둔다.

    • 2.

      속도와 검증을 중시한다.

    • 3.

      빠른 문제 해결을 목표로 한다.

    • 4.

      이행 과제 분석에서 선후관계를 고려하지 않는다.

    정답·해설 보기

    정답

    4

    이행 과제 분석에서 선후관계를 고려하지 않는다.

    해설

    정답: 4. 과제 중심적 분석이라도 실제 이행 과정에서는 과제 간 선후관계와 의존성을 고려해야 합니다.

    오답 풀이

    • 1번: 빠른 실행과 성과 도출에 초점을 둡니다.
    • 2번: 가설 빠른 검증과 성과 확인이 중요합니다.
    • 3번: 특정 문제를 빠르게 해결하는 성격이 강합니다.
    • 4번: 선후관계 무시는 실행 가능성·효과를 떨어뜨립니다.
  14. 문제 14

    4지선다

    다음 중 데이터 분석 거버넌스와 직접적인 관련이 가장 낮은 것은?

    • 1.

      분석 비용

    • 2.

      분석 프로세스

    • 3.

      분석 조직

    • 4.

      개별 분석 기법

    정답·해설 보기

    정답

    4

    개별 분석 기법

    해설

    정답: 4. 거버넌스는 조직·프로세스·정책·역할·비용 관리 등 관리 체계에 초점을 두며, 개별 분석 기법 자체와는 상대적으로 관련이 낮습니다.

    오답 풀이

    • 1번: 분석 비용 관리는 거버넌스 체계에서 고려됩니다.
    • 2번: 표준화된 분석 프로세스는 거버넌스의 핵심 요소입니다.
    • 3번: 분석 조직과 역할 정의는 거버넌스와 직접 관련됩니다.
    • 4번: 분석 기법은 실제 분석 수행 방법으로 거버넌스 핵심이 아닙니다.
  15. 문제 15

    4지선다

    빅데이터 분석 프로세스의 순서로 가장 적절한 것은?

    • 1.

      분석기획 → 비즈니스 이해 → 데이터 분석 → 시스템 구현 → 평가 및 전개

    • 2.

      비즈니스 이해 → 분석기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개

    • 3.

      데이터 준비 → 분석기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개

    • 4.

      분석기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

    정답·해설 보기

    정답

    4

    분석기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

    해설

    정답: 4. ADsP 표준 빅데이터 분석 방법론은 분석기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개의 5단계입니다.

    오답 풀이

    • 1번: 비즈니스 이해는 분석기획의 하위 활동으로 별도 단계가 아닙니다.
    • 2번: 표준 5단계와 다른 순서입니다.
    • 3번: 데이터 준비는 분석기획 이후 수행되어야 합니다.
    • 4번: 표준 5단계 순서입니다.
  16. 문제 16

    4지선다

    다음 중 빅데이터의 가치 측정이 어려운 이유로 부적절한 것은?

    • 1.

      데이터가 언제, 누가, 어디에서 사용되었는지 특정하기 어려울 수 있다.

    • 2.

      데이터 전문가가 많아지면 데이터 분석이 보편화되기 때문이다.

    • 3.

      기존에는 없던 분석 방식으로 새로운 가치가 창출될 수 있다.

    • 4.

      데이터 재조합과 매시업이 빈번하게 발생한다.

    정답·해설 보기

    정답

    2

    데이터 전문가가 많아지면 데이터 분석이 보편화되기 때문이다.

    해설

    정답: 2. 데이터 전문가가 많아져 분석이 보편화된다는 설명은 빅데이터 가치 측정이 어려운 직접적인 이유로 보기 어렵습니다.

    오답 풀이

    • 1번: 사용 맥락이 다양하면 가치 산정이 어렵습니다.
    • 2번: 전문가 증가는 가치 측정 어려움과 직접 관련이 약합니다.
    • 3번: 새로운 분석 방식은 예측 어려운 가치를 만들어 측정이 어렵습니다.
    • 4번: 재조합되면 원천 데이터의 기여 가치를 구분하기 어렵습니다.
  17. 문제 17

    4지선다

    CMMI 모델 기반 분석 성숙도 단계 중 도입 단계에 해당하는 것은?

    • 1.

      경영진 주도로 분석을 전략적으로 활용한다.

    • 2.

      실적 분석과 통계 작성을 수행한다.

    • 3.

      데이터를 활용해 미래를 예측한다.

    • 4.

      성과를 실시간으로 분석한다.

    정답·해설 보기

    정답

    2

    실적 분석과 통계 작성을 수행한다.

    해설

    정답: 2. 도입 단계는 기본적인 실적 분석과 통계 작성 수준의 분석 활동이 이루어지는 단계입니다.

    오답 풀이

    • 1번: 경영진 주도 전략적 활용은 더 높은 성숙도(확산/최적화) 단계입니다.
    • 2번: 실적 분석·통계 작성은 도입 단계의 대표적 모습입니다.
    • 3번: 미래 예측은 활용/확산 단계에서 나타납니다.
    • 4번: 실시간 성과 분석은 최적화 단계에 가깝습니다.
  18. 문제 18

    4지선다

    프로세스 분석을 통해 분석 요건을 도출하는 절차로 올바른 것은?

    • 1.

      프로세스 분류 → 프로세스 흐름분석 → 분석요건 식별 → 분석요건 정의

    • 2.

      프로세스 흐름분석 → 분석요건 식별 → 분석요건 정의 → 프로세스 분류

    • 3.

      분석요건 식별 → 분석요건 정의 → 프로세스 분류 → 프로세스 흐름분석

    • 4.

      분석요건 식별 → 분석요건 정의 → 프로세스 흐름분석 → 프로세스 분류

    정답·해설 보기

    정답

    1

    프로세스 분류 → 프로세스 흐름분석 → 분석요건 식별 → 분석요건 정의

    해설

    정답: 1. 프로세스 관점의 분석 기회 발굴은 프로세스 분류 → 프로세스 흐름분석 → 분석요건 식별 → 분석요건 정의 순서로 진행됩니다.

    오답 풀이

    • 1번: 업무를 구조화(분류)한 뒤 흐름을 분석하고, 의사결정 포인트에서 요건을 식별·정의하는 올바른 순서입니다.
    • 2번: 프로세스 분류가 가장 먼저 수행되어야 합니다.
    • 3번: 분석요건 식별·정의는 프로세스 구조 파악 이후에 가능합니다.
    • 4번: 분석요건 정의가 프로세스 흐름분석보다 앞설 수 없습니다.

    보충 개념 프로세스 분류는 가치사슬 → 메가 프로세스 → 메이저 프로세스 → 프로세스 단계로 업무를 구조화하며, 프로세스 맵 상의 주요 의사결정 포인트에서 필요한 분석 요건을 명세화합니다.

  19. 문제 19

    4지선다

    상향식 접근법의 특징으로 올바른 것만 고른 것은?

    <보기> a. 인사이트와 지식을 얻는 Bottom-Up 접근방법이다. b. 이전 단계가 완성되어야만 다음 단계로 진행할 수 있다. c. 문제 해결을 위해 프로토타이핑을 활용한다. d. 비지도 학습 방법을 활용해 패턴을 발견하고 통찰을 얻는다.

    • 1.

      b, c

    • 2.

      b, c, d

    • 3.

      a, b, c

    • 4.

      a, c, d

    정답·해설 보기

    정답

    4

    a, c, d

    해설

    정답: 4. 상향식 접근은 데이터에서 출발해 인사이트를 얻고, 프로토타이핑과 비지도 학습으로 패턴을 탐색합니다. b는 폭포수식 특징이라 상향식의 핵심이 아닙니다.

    오답 풀이

    • 1번: b 포함되어 부적절합니다.
    • 2번: b 포함되어 부적절합니다.
    • 3번: b 포함되어 부적절합니다.
    • 4번: a, c, d는 상향식 접근법의 특징입니다.
  20. 문제 20

    4지선다

    데이터를 사용한 의사결정에 대한 주장으로 가장 적절한 것은?

    • 1.

      전문가의 도메인 지식에 의한 의사결정을 우선하고 데이터는 보조 역할만 한다.

    • 2.

      데이터에 근거해 판단하는 것은 근거 없는 대안보다 바람직하다.

    • 3.

      시각화 같은 단순 표현 방식은 의사결정에 큰 도움이 되지 않는다.

    • 4.

      주관과 직관은 유지하고 통계 분석은 참고용으로만 사용한다.

    정답·해설 보기

    정답

    2

    데이터에 근거해 판단하는 것은 근거 없는 대안보다 바람직하다.

    해설

    정답: 2. 데이터 기반 의사결정은 근거 없는 판단보다 합리성과 설명 가능성이 높습니다.

    오답 풀이

    • 1번: 도메인 지식은 중요하지만 데이터를 단순 보조에만 두는 것은 부적절합니다.
    • 2번: 데이터 기반 판단은 근거를 강화합니다.
    • 3번: 시각화는 의사결정에 중요한 도구입니다.
    • 4번: 직관만 유지하고 통계를 참고용으로만 두는 것은 데이터 기반 의사결정 취지와 어긋납니다.
  21. 문제 21

    4지선다

    다음 중 확률 관련 설명으로 잘못된 것은?

    • 1.

      A와 B가 서로 배반사건이면 두 사건이 동시에 일어날 확률은 0이다.

    • 2.

      실험을 통해 계산한 특정 사건의 상대도수는 시행 횟수가 많아질수록 실제 확률에 가까워진다.

    • 3.

      조건부 확률을 기반으로 사전확률과 사후확률을 계산하는 것은 베이즈 정리와 관련된다.

    • 4.

      A와 B가 서로 독립일 때 두 사건이 동시에 일어날 확률은 A의 확률과 B의 확률의 합이다.

    정답·해설 보기

    정답

    4

    A와 B가 서로 독립일 때 두 사건이 동시에 일어날 확률은 A의 확률과 B의 확률의 합이다.

    해설

    정답: 4. 독립사건 A와 B가 동시에 일어날 확률은 P(A) × P(B)이지 P(A) + P(B)가 아닙니다.

    오답 풀이

    • 1번: 배반사건은 동시 발생 불가하므로 교집합 확률 0입니다.
    • 2번: 상대도수는 시행 횟수가 많아지면 확률에 수렴합니다.
    • 3번: 베이즈 정리는 조건부 확률로 사후확률을 계산합니다.
    • 4번: 독립사건의 동시 발생은 곱셈법칙입니다.
  22. 문제 22

    4지선다

    연관규칙 X → Y가 주어졌을 때, 향상도(Lift)를 구하시오.

    거래상품
    1X, Y, Z
    2X, Y, W
    3X, R
    4Y, Z
    5X, Y, Z, W
    6R
    • 1.

      9/8

    • 2.

      8/9

    • 3.

      7/8

    • 4.

      8/7

    정답·해설 보기

    정답

    1

    9/8

    해설

    정답: 1. P(X)=4/6, P(Y)=4/6, P(X∩Y)=3/6. 신뢰도 P(Y|X)=3/4, P(Y)=2/3 이므로 Lift=(3/4)/(2/3)=9/8입니다.

    오답 풀이

    • 1번: 9/8 계산 결과 맞습니다.
    • 2번: 8/9는 Lift 역수에 가까운 값입니다.
    • 3번: 지지도·신뢰도 계산과 맞지 않습니다.
    • 4번: 계산식과 맞지 않습니다.
  23. 문제 23

    4지선다

    다음 중 요약변수에 대한 설명으로 틀린 것은?

    • 1.

      분석에 유용한 정보를 요약해 보여준다.

    • 2.

      여러 목적으로 재사용하기 쉽다.

    • 3.

      특정 조건이나 함수에 의해 만들어져 의미가 부여된 파생변수이다.

    • 4.

      데이터 마트에서 중요한 변수로 활용될 수 있다.

    정답·해설 보기

    정답

    3

    특정 조건이나 함수에 의해 만들어져 의미가 부여된 파생변수이다.

    해설

    정답: 3. 특정 조건이나 함수로 새 값을 만들어 의미를 부여한 변수는 요약변수보다 파생변수의 설명에 가깝습니다.

    오답 풀이

    • 1번: 요약변수는 원천 데이터를 분석 목적에 맞게 요약한 변수입니다.
    • 2번: 여러 분석에서 반복 활용됩니다.
    • 3번: 조건/함수로 생성한 변수는 파생변수 성격이 강합니다.
    • 4번: 데이터 마트에서 분석 효율성을 높입니다.
  24. 문제 24

    4지선다

    부트스트랩 표집에서 100개의 데이터 중 복원추출로 100번 추출할 때, 특정 1번 데이터가 한 번도 선택되지 않을 확률은?

    • 1.

      100 - 1/100

    • 2.

      100 × (1 - 1/100)

    • 3.

      (1 - 1/100)^100

    • 4.

      1 - (1/100)^100

    정답·해설 보기

    정답

    3

    (1 - 1/100)^100

    해설

    정답: 3. 한 번 추출에서 1번 데이터가 선택되지 않을 확률은 1-1/100, 이를 100번 반복하므로 (1-1/100)^100입니다.

    오답 풀이

    • 1번: 확률식이 아닙니다.
    • 2번: 기댓값에 가까운 형태입니다.
    • 3번: 100번 연속 미선택의 확률입니다.
    • 4번: 100번 모두 선택되는 사건의 여사건으로 다른 의미입니다.

    보충 개념 n이 충분히 크면 (1-1/n)^n ≈ 1/e ≈ 0.368에 수렴합니다.

  25. 문제 25

    4지선다

    다음은 Apriori 알고리즘의 수행 단계이다. 올바른 순서로 나열한 것은?

    <보기> 가. 최소 지지도를 설정한다. 나. 반복적으로 수행하여 최소 지지도를 넘는 빈발품목집합을 찾는다. 다. 찾은 개별 품목을 이용해 2개 품목 집합을 찾는다. 라. 개별 품목 중 최소 지지도를 넘는 품목을 찾는다.

    • 1.

      가 → 나 → 다 → 라

    • 2.

      가 → 나 → 라 → 다

    • 3.

      가 → 라 → 나 → 다

    • 4.

      가 → 라 → 다 → 나

    정답·해설 보기

    정답

    4

    가 → 라 → 다 → 나

    해설

    정답: 4. 최소 지지도 설정 → 1개 품목 빈발항목 탐색 → 2개 품목 집합 생성 → 반복 수행 순서입니다.

    오답 풀이

    • 1번: 반복 수행이 개별 품목 탐색보다 앞서 부적절합니다.
    • 2번: 반복 수행이 1개 품목 탐색보다 앞섭니다.
    • 3번: 2개 집합 생성이 반복 뒤에 있어 부적절합니다.
    • 4번: 가→라→다→나가 적절한 순서입니다.
  26. 문제 26

    4지선다

    다음과 같은 로지스틱 회귀식이 만들어졌다. 해석으로 가장 적절한 것은?

    <조건>

    • P = Y 변수의 값이 1일 확률
    • e^β1 = 1.006
    • e^β2 = 0.489

    특정 변수 X2가 1 증가할 때의 해석을 고르시오.

    • 1.

      다른 변수들이 일정할 때 X2가 1 증가하면 Logit은 48.9% 감소한다.

    • 2.

      다른 변수들이 일정할 때 X2가 1 증가하면 Logit은 48.9% 증가한다.

    • 3.

      다른 변수들이 일정할 때 X2가 1 증가하면 Odds는 0.489배가 된다.

    • 4.

      다른 변수들이 일정할 때 X2가 1 증가하면 Odds는 48.9% 증가한다.

    정답·해설 보기

    정답

    3

    다른 변수들이 일정할 때 X2가 1 증가하면 Odds는 0.489배가 된다.

    해설

    정답: 3. 로지스틱 회귀에서 exp(β)는 오즈비를 의미합니다. e^β2=0.489이므로 X2가 1 증가할 때 Odds는 0.489배가 됩니다 (약 51.1% 감소).

    오답 풀이

    • 1번: exp(β)는 Logit 변화율이 아니라 Odds 배율입니다.
    • 2번: Logit 48.9% 증가 해석 부적절합니다.
    • 3번: Odds가 0.489배 됨 — 정확한 해석입니다.
    • 4번: 0.489 < 1 이므로 증가가 아니라 감소 방향입니다.
  27. 문제 27

    4지선다

    다음 R 회귀분석 결과에 대한 해석으로 부적절한 것은?

    <회귀분석 요약>

    • 종속변수: Fertility
    • 독립변수: Agriculture, Examination, Education, Catholic, Infant.Mortality 총 5개
    • 잔차 자유도: 41
    • Agriculture 회귀계수: 음수
    • 일부 회귀계수의 p-value는 유의수준 0.05보다 큼
    • Adjusted R-squared: 0.671
    • 1.

      데이터의 개수는 자유도와 독립변수 개수를 이용해 46으로 볼 수 있다.

    • 2.

      모든 회귀계수가 통계적으로 유의한 것은 아니다.

    • 3.

      Agriculture가 증가하면 Fertility는 감소한다.

    • 4.

      조정결정계수는 0.671이다.

    정답·해설 보기

    정답

    1

    데이터의 개수는 자유도와 독립변수 개수를 이용해 46으로 볼 수 있다.

    해설

    정답: 1. 잔차 자유도 = n - 추정 모수 개수. 독립변수 5 + 절편 1 = 6 추정 → n = 41+6 = 47. 데이터 개수를 46으로 보는 해석은 부적절합니다.

    오답 풀이

    • 1번: 절편까지 고려하면 데이터 개수는 47입니다.
    • 2번: 일부 p-value가 유의수준보다 크므로 모든 회귀계수가 유의하지는 않습니다.
    • 3번: 음수 계수는 Agriculture 증가 시 Fertility 감소를 의미합니다.
    • 4번: Adjusted R-squared 0.671 그대로입니다.
  28. 문제 28

    4지선다

    다음 중 비모수 검정에 대한 설명으로 잘못된 것은?

    • 1.

      표본의 크기가 매우 작은 경우 비모수 검정을 고려할 수 있다.

    • 2.

      모집단이 정규분포에 가까우면 비모수 검정이 모수 검정보다 항상 더 좋다.

    • 3.

      평균이나 분산을 직접 계산하기 어려운 서열척도에는 비모수 검정이 적절할 수 있다.

    • 4.

      특정 분포 가정 등 전제조건을 만족하기 어려운 경우 비모수 검정을 사용할 수 있다.

    정답·해설 보기

    정답

    2

    모집단이 정규분포에 가까우면 비모수 검정이 모수 검정보다 항상 더 좋다.

    해설

    정답: 2. 모집단이 정규분포에 가깝고 모수 검정 가정을 충족하면 일반적으로 모수 검정이 더 효율적입니다.

    오답 풀이

    • 1번: 표본 작거나 정규성 판단 어려울 때 비모수 검정을 고려합니다.
    • 2번: 정규분포면 비모수가 항상 더 좋다는 설명은 틀립니다.
    • 3번: 서열척도엔 순위 기반 비모수가 적절합니다.
    • 4번: 분포 가정 어려울 때 비모수를 사용합니다.
  29. 문제 29

    4지선다

    계층적 군집분석에서 군집의 개수를 결정하는 방법에 대한 설명으로 가장 적절한 것은?

    • 1.

      와드 연결법을 사용할 때 오차제곱합이 크게 증가하는 지점을 참고할 수 있다.

    • 2.

      단일 연결법은 군집 간 거리를 항상 최적으로 결정하는 데 가장 유리하다.

    • 3.

      중심 연결법은 모든 상황에서 군집 간 거리 최적화에 가장 유리하다.

    • 4.

      군집 수는 항상 2-3개 정도로 정하는 것이 가장 좋다.

    정답·해설 보기

    정답

    1

    와드 연결법을 사용할 때 오차제곱합이 크게 증가하는 지점을 참고할 수 있다.

    해설

    정답: 1. 계층적 군집분석에서 덴드로그램이나 군집 결합 시 거리·오차제곱합의 큰 변화 지점을 참고해 군집 수를 결정할 수 있습니다.

    오답 풀이

    • 1번: 와드 연결법은 군집 내 오차제곱합 증가 기준이라 큰 변화 지점이 참고됩니다.
    • 2번: 단일 연결법은 chaining 문제로 항상 최적이 아닙니다.
    • 3번: 중심 연결법도 모든 상황에서 최적이 아닙니다.
    • 4번: 군집 수는 데이터 구조와 분석 목적에 따라 달라집니다.
  30. 문제 30

    4지선다

    다음 품목/거래량 표를 사용하여 연관규칙 "우유 → 커피"의 신뢰도를 구하시오.

    상품거래회수
    우유, 커피, 과자10
    우유, 과자40
    커피, 과자, 캔디20
    우유, 커피, 캔디20
    과자, 캔디10
    • 1.

      0.3

    • 2.

      3/7

    • 3.

      0.6

    • 4.

      0.7

    정답·해설 보기

    정답

    2

    3/7

    해설

    정답: 2. 우유 포함 거래량 = 10+40+20 = 70. 우유∩커피 = 10+20 = 30. 신뢰도 = 30/70 = 3/7 ≈ 0.43.

    오답 풀이

    • 1번: 0.3은 다른 분모를 사용한 결과입니다.
    • 2번: confidence(우유→커피) = support(우유∩커피)/support(우유) = 30/70 = 3/7입니다.
    • 3번: 분모 계산이 다릅니다.
    • 4번: 우유 포함 비율에 가까워 신뢰도가 아닙니다.
  31. 문제 31

    4지선다

    다음 중 시계열 분석에 대한 설명으로 적절하지 않은 것은?

    • 1.

      계절요인은 일정한 주기를 가지고 나타나는 규칙적 변동을 의미한다.

    • 2.

      순환요인은 알려진 고정 주기로 반복되는 패턴이다.

    • 3.

      불규칙요인은 추세, 계절, 순환 요인으로 설명되지 않는 나머지 변동이다.

    • 4.

      추세요인은 일정 기간 동안 증가 또는 감소하는 장기적 경향을 의미한다.

    정답·해설 보기

    정답

    2

    순환요인은 알려진 고정 주기로 반복되는 패턴이다.

    해설

    정답: 2. 순환요인은 경기 변동처럼 주기가 일정하지 않거나 장기적으로 반복되는 변동이며, 고정 주기 반복은 계절요인에 가깝습니다.

    오답 풀이

    • 1번: 계절요인은 일정 주기 규칙적 변동입니다.
    • 2번: 고정 주기 반복은 순환이 아니라 계절요인에 가깝습니다.
    • 3번: 불규칙요인은 설명되지 않는 우연적 변동입니다.
    • 4번: 추세요인은 장기 증가·감소 경향입니다.
  32. 문제 32

    4지선다

    회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 가리키는 말은?

    • 1.

      다중공선성

    • 2.

      통계적 유의성

    • 3.

      조정 결정계수

    • 4.

      연관성

    정답·해설 보기

    정답

    1

    다중공선성

    해설

    정답: 1. 회귀분석에서 독립변수들끼리 강한 상관관계를 가지는 문제를 다중공선성이라고 합니다.

    오답 풀이

    • 1번: 다중공선성은 독립변수 간 높은 상관관계 문제입니다.
    • 2번: 통계적 유의성은 추정 결과의 우연 여부 판단 개념입니다.
    • 3번: 조정결정계수는 설명력 보정 지표입니다.
    • 4번: 연관성은 회귀분석 특정 문제 명칭이 아닙니다.

    보충 개념 다중공선성이 심하면 회귀계수 추정이 불안정해집니다. VIF로 확인할 수 있습니다.

  33. 문제 33

    4지선다

    두 변수가 강한 양의 상관관계를 가질 때, 그 상관관계를 고려하여 거리를 계산하는 방법은?

    • 1.

      맨하튼 거리

    • 2.

      표준화 거리

    • 3.

      유클리드 거리

    • 4.

      마할라노비스 거리

    정답·해설 보기

    정답

    4

    마할라노비스 거리

    해설

    정답: 4. 마할라노비스 거리는 변수 간 공분산 구조를 고려하여 거리를 계산합니다.

    오답 풀이

    • 1번: 맨하튼 거리는 좌표 차이 절댓값 합으로 상관구조를 반영하지 않습니다.
    • 2번: 표준화 거리는 척도 보정만 합니다.
    • 3번: 유클리드 거리는 직선 거리로 상관관계 미고려입니다.
    • 4번: 마할라노비스는 공분산 행렬을 활용해 상관을 반영합니다.
  34. 문제 34

    4지선다

    아래 의사결정나무 노드 C의 지니 계수는?

    CGood20Bad30
    • 1.

      0.44

    • 2.

      0.46

    • 3.

      0.48

    • 4.

      0.50

    정답·해설 보기

    정답

    3

    0.48

    해설

    정답: 3. 노드 C의 전체 데이터는 20 + 30 = 50건이므로 Good 비율 p₁ = 20/50 = 0.4, Bad 비율 p₂ = 30/50 = 0.6입니다. 지니 계수 = 1 − Σpᵢ² = 1 − (0.4² + 0.6²) = 1 − (0.16 + 0.36) = 0.48입니다.

    오답 풀이

    • 1·2번: 비율 환산 또는 제곱합 계산이 잘못된 값입니다.
    • 4번: 0.50은 두 클래스 비율이 0.5/0.5로 균등할 때의 최대값입니다.

    보충 개념 지니 계수는 0(완전 순수)에서 0.5(이진 분류 최대 불순)까지의 값을 가지며, 값이 작을수록 노드가 순수합니다.

  35. 문제 35

    4지선다

    아래는 남학생과 여학생이 좋아하는 과일에 대한 빈도 교차표이다. 전체에서 1명을 뽑았을 때, 그 학생이 남학생이라는 조건하에 사과를 좋아할 확률은?

    구분딸기사과
    4030
    2010
    • 1.

      3/13

    • 2.

      3/7

    • 3.

      3/4

    • 4.

      3/8

    정답·해설 보기

    정답

    2

    3/7

    해설

    정답: 2. 남학생 총 70명 중 사과를 좋아하는 남학생 30명 → P(사과|남) = 30/70 = 3/7입니다.

    오답 풀이

    • 1번: 3/13은 다른 분모를 사용한 값입니다.
    • 2번: P(사과|남) = 남학생 중 사과 선호 / 전체 남학생 = 30/70 = 3/7입니다.
    • 3번: 분모를 잘못 둔 값입니다.
    • 4번: 조건을 잘못 적용한 값입니다.
  36. 문제 36

    4지선다

    다음 중 시계열 데이터를 정상화하는 방법으로 적절하지 않은 것은?

    • 1.

      로그 변환을 적용한다.

    • 2.

      이상치를 제거한다.

    • 3.

      차분 연산을 적용한다.

    • 4.

      구간 분할을 수행한다.

    정답·해설 보기

    정답

    4

    구간 분할을 수행한다.

    해설

    정답: 4. 시계열 정상성 확보에는 차분(평균 안정화), 변환(분산 안정화), 이상치 처리를 사용하며, 구간 분할 자체는 정상화 방법이 아닙니다.

    오답 풀이

    • 1번: 로그 변환은 분산이 일정하지 않은 시계열을 안정화하는 대표적인 정상화 방법입니다.
    • 2번: 이상치 제거·대체는 비정상성을 유발하는 요소를 정리하는 방법입니다.
    • 3번: 차분은 추세를 제거해 평균을 일정하게 만드는 대표적인 방법입니다.
    • 4번: 구간을 나누는 것만으로는 평균·분산의 시간 의존성이 제거되지 않습니다.

    보충 개념 평균이 일정하지 않으면 차분을, 분산이 일정하지 않으면 로그 등 변환을 적용합니다.

  37. 문제 37

    4지선다

    다음 중 주성분 분석(PCA)에 대한 설명으로 잘못된 것은?

    • 1.

      서로 상관성이 있는 변수들을 상관성이 없는 주성분으로 변환한다.

    • 2.

      차원 축소 목적으로 사용할 수 있다.

    • 3.

      서로 직교하는 벡터 방향을 만들어 준다.

    • 4.

      독립변수와 종속변수 사이의 선형관계를 파악하기 위한 분석이다.

    정답·해설 보기

    정답

    4

    독립변수와 종속변수 사이의 선형관계를 파악하기 위한 분석이다.

    해설

    정답: 4. 독립·종속변수의 선형관계 분석은 회귀분석에 가깝고, PCA는 변수들을 새 주성분으로 변환하는 차원 축소 기법입니다.

    오답 풀이

    • 1번: PCA는 상관 변수들을 직교 주성분으로 변환합니다.
    • 2번: 대표적 차원 축소 기법입니다.
    • 3번: 주성분은 서로 직교 방향입니다.
    • 4번: 종속·독립변수 선형관계 분석은 회귀분석 설명입니다.
  38. 문제 38

    4지선다

    K-means 군집분석에서 적절한 군집 수를 판단하는 데 활용할 수 있는 그래프는?

    • 1.

      ROC 곡선

    • 2.

      오차 제곱합

    • 3.

      집단내 제곱합 그래프

    • 4.

      향상도 곡선

    정답·해설 보기

    정답

    3

    집단내 제곱합 그래프

    해설

    정답: 3. K-means에서는 군집 수 k에 따른 집단내 제곱합(WSS) 변화를 보고 엘보우 포인트를 찾습니다.

    오답 풀이

    • 1번: ROC 곡선은 분류 모델 성능 평가입니다.
    • 2번: 명칭만으로는 그래프로 부적절합니다.
    • 3번: 집단내 제곱합 그래프는 엘보우 방법에 사용됩니다.
    • 4번: 향상도 곡선은 분류·마케팅 모델 평가입니다.

    보충 개념 엘보우 방법은 k 증가 시 WSS 감소폭이 급격히 줄어드는 지점을 적절한 군집 수로 봅니다.

  39. 문제 39

    4지선다

    비복원 무작위추출 방법을 사용해 100개 자료에 1-100번 레이블을 부여하고, 10개 표본을 뽑았을 때 잘못된 설명은?

    • 1.

      비복원 추출이므로 앞에서 특정 표본이 뽑히지 않았다면 뒤에서 뽑힐 조건부 확률은 달라질 수 있다.

    • 2.

      1번과 2번이 동시에 표본에 포함될 확률은 1/100이다.

    • 3.

      1번이 표본으로 뽑힐 확률과 100번이 표본으로 뽑힐 확률은 같다.

    • 4.

      1번과 2번이 동시에 뽑힐 확률과 99번과 100번이 동시에 뽑힐 확률은 서로 같다.

    정답·해설 보기

    정답

    2

    1번과 2번이 동시에 표본에 포함될 확률은 1/100이다.

    해설

    정답: 2. 100개 중 10개 비복원 추출 시 특정 두 개가 모두 포함될 확률 = (10/100)×(9/99) = 1/110이지 1/100이 아닙니다.

    오답 풀이

    • 1번: 비복원 추출에서 이전 결과에 따라 조건부 확률이 달라집니다.
    • 2번: 동시 포함 확률은 1/110이므로 틀렸습니다.
    • 3번: 모든 번호는 대칭적이라 포함 확률이 같습니다.
    • 4번: 두 번호 쌍이 동시 포함될 확률은 서로 같습니다.
  40. 문제 40

    4지선다

    다음 중 군집분석에 관한 설명으로 옳지 않은 것은?

    • 1.

      SOM을 적용하면 고차원 자료를 2차원 형태로 표현하여 군집 구조를 파악할 수 있다.

    • 2.

      군집분석을 하려면 관측치 사이의 거리를 측정하기 위한 척도가 필요하다.

    • 3.

      계층적 군집화 결과는 덴드로그램으로 시각화하여 해석할 수 있다.

    • 4.

      국어, 수학, 영어, 과학, 사회 점수 기준으로 세 개 군집을 나누려면 반드시 k-means만 사용해야 한다.

    정답·해설 보기

    정답

    4

    국어, 수학, 영어, 과학, 사회 점수 기준으로 세 개 군집을 나누려면 반드시 k-means만 사용해야 한다.

    해설

    정답: 4. 세 개 군집 분할에 k-means를 사용할 수는 있지만 반드시 k-means만 사용해야 하는 것은 아닙니다.

    오답 풀이

    • 1번: SOM은 고차원을 저차원 격자로 표현해 구조 파악에 활용됩니다.
    • 2번: 군집분석은 거리 척도를 기반으로 합니다.
    • 3번: 계층적 군집은 덴드로그램으로 표현합니다.
    • 4번: k-means 외에도 계층적·DBSCAN·SOM 등이 있습니다.
  41. 문제 41

    4지선다

    스피어만 상관분석 방법으로 분석하기 가장 부적절한 척도는?

    • 1.

      명목척도

    • 2.

      서열척도

    • 3.

      등간척도

    • 4.

      비율척도

    정답·해설 보기

    정답

    1

    명목척도

    해설

    정답: 1. 스피어만 상관분석은 순위 정보를 활용하므로 서열척도 이상에 적합하며, 순서가 없는 명목척도에는 부적절합니다.

    오답 풀이

    • 1번: 명목척도는 순서가 없어 부적절합니다.
    • 2번: 서열척도는 순위가 있어 적합합니다.
    • 3번: 등간척도도 순위 변환으로 사용 가능합니다.
    • 4번: 비율척도도 순위 변환으로 사용 가능합니다.
  42. 문제 42

    4지선다

    모집단 개체에 1, 2, ..., N의 일련번호를 부여한 뒤 첫 번째 표본을 정하고 일정한 간격으로 표본을 선택하는 추출법은?

    • 1.

      계통추출

    • 2.

      단순임의추출

    • 3.

      층화추출

    • 4.

      집락추출

    정답·해설 보기

    정답

    1

    계통추출

    해설

    정답: 1. 번호를 부여한 뒤 일정 간격마다 표본을 선택하는 방법은 계통추출입니다.

    오답 풀이

    • 1번: 계통추출은 일정 간격 k로 표본을 뽑습니다.
    • 2번: 단순임의추출은 무작위 선택입니다.
    • 3번: 층화추출은 층으로 나누고 각 층에서 추출합니다.
    • 4번: 집락추출은 집락을 나누고 일부 집락 선택입니다.
  43. 문제 43

    4지선다

    다음 중 연관분석의 장점이 아닌 것은?

    • 1.

      If~Then 형태로 표현되어 직관적으로 이해하기 쉽다.

    • 2.

      명확한 목적변수를 정하지 않아도 분석할 수 있다.

    • 3.

      품목 수가 증가하면 분석에 필요한 계산량이 기하급수적으로 증가할 수 있다.

    • 4.

      데이터를 큰 변환 없이 활용할 수 있어 비교적 간편하다.

    정답·해설 보기

    정답

    3

    품목 수가 증가하면 분석에 필요한 계산량이 기하급수적으로 증가할 수 있다.

    해설

    정답: 3. 품목 수 증가에 따라 계산량이 기하급수적으로 늘어나는 것은 연관분석의 장점이 아니라 대표적인 단점입니다.

    오답 풀이

    • 1번: If~Then 조건 반응 형태라 결과 해석이 직관적입니다(장점).
    • 2번: 목적변수 없이 항목 간 규칙을 탐색할 수 있습니다(장점).
    • 3번: 계산량 폭증은 단점이므로 ‘장점이 아닌 것’에 해당합니다.
    • 4번: 거래 데이터를 큰 변환 없이 활용할 수 있습니다(장점).

    보충 개념 품목 수 증가에 따른 계산 부담은 유사 품목을 묶는 품목 일반화나 최소 지지도 기준 상향으로 완화할 수 있습니다.

  44. 문제 44

    4지선다

    다음 중 k-NN의 특징으로 틀린 것은?

    • 1.

      별도의 명시적 학습 단계 없이 예측할 수 있다.

    • 2.

      k가 클수록 과대적합이 될 수 있다.

    • 3.

      가까운 k개의 이웃 값을 이용해 예측한다.

    • 4.

      모수에 대한 강한 가정을 두지 않는 비모수 방법이다.

    정답·해설 보기

    정답

    2

    k가 클수록 과대적합이 될 수 있다.

    해설

    정답: 2. k가 너무 작으면 과대적합 위험이 커지고, k가 너무 크면 과소적합 위험이 커집니다.

    오답 풀이

    • 1번: k-NN은 lazy learning 방식입니다.
    • 2번: k가 클수록 과소적합에 가까워집니다.
    • 3번: 가까운 k개 이웃의 평균이나 다수결로 예측합니다.
    • 4번: 분포 가정 없는 비모수 방법입니다.

    보충 개념 k-NN은 거리 기반이라 스케일링이 중요합니다.

  45. 문제 45

    4지선다

    job이 0 또는 1일 때 다음 회귀식의 해석으로 부적절한 것은? 단, 모든 회귀계수는 통계적으로 유의하다고 한다.

    • 1.

      두 집단 간 y절편은 다르다.

    • 2.

      두 집단 간 age 회귀계수는 동일하다.

    • 3.

      age가 증가할 때 wage의 증가량은 각 job 유형에서 동일하다.

    • 4.

      age와 wage 사이의 교호작용이 유의하다.

    정답·해설 보기

    정답

    4

    age와 wage 사이의 교호작용이 유의하다.

    해설

    정답: 4. 회귀식에 age×job 같은 교호작용항이 없으므로 age 효과가 job 유형에 따라 달라진다고 해석할 수 없습니다.

    오답 풀이

    • 1번: job=0이면 절편 5632, job=1이면 9353이므로 두 절편 다릅니다.
    • 2번: age 계수는 job 무관 동일합니다.
    • 3번: age 1 증가 시 wage 1300씩 증가가 두 집단에서 같습니다.
    • 4번: 교호작용항 없으므로 교호작용 유의 해석 불가합니다.

    보충 개념 더미변수만 포함된 회귀식은 집단별 절편 차이만 반영합니다.

  46. 문제 46

    4지선다

    아래 상자그림에 대한 설명으로 틀린 것은?

    7.96.45.1
    • 1.

      최대값은 7.9이다.

    • 2.

      평균은 중앙값보다 항상 크다.

    • 3.

      사분위수 범위(IQR)는 1.3이다.

    • 4.

      5.1보다 작은 데이터는 전체의 약 25%이다.

    정답·해설 보기

    정답

    2

    평균은 중앙값보다 항상 크다.

    해설

    정답: 2. 평균은 분포의 왜도와 이상치에 따라 중앙값보다 클 수도 작을 수도 있으므로 ‘항상 크다’는 설명은 틀렸습니다. 상자그림에는 평균이 표시되지도 않습니다.

    오답 풀이

    • 1번: 위쪽 수염 끝이 7.9이므로 (이상치가 없을 때) 최대값은 7.9입니다.
    • 2번: 평균과 중앙값의 대소 관계는 분포 모양에 따라 달라집니다.
    • 3번: IQR = Q3 − Q1 = 6.4 − 5.1 = 1.3입니다.
    • 4번: Q1(5.1) 미만 구간에는 전체 데이터의 약 25%가 위치합니다.

    보충 개념 상자그림은 5수치 요약(최소값·Q1·중앙값·Q3·최대값)으로 분포의 중심·산포·치우침을 한눈에 보여줍니다.

  47. 문제 47

    4지선다

    다음 중 비모수 검정으로 적절하지 않은 것은?

    • 1.

      순위검정

    • 2.

      Run 검정

    • 3.

      Mann-Whitney U 검정

    • 4.

      t 검정

    정답·해설 보기

    정답

    4

    t 검정

    해설

    정답: 4. t 검정은 평균에 대한 모수 검정입니다.

    오답 풀이

    • 1번: 순위검정은 비모수 검정입니다.
    • 2번: Run 검정은 무작위성 검정 비모수 방식입니다.
    • 3번: Mann-Whitney U 검정은 두 독립표본 차이의 비모수 검정입니다.
    • 4번: t 검정은 정규성 가정 모수 검정입니다.
  48. 문제 48

    4지선다

    다음 중 중심극한정리에 대한 설명으로 부적절한 것은?

    • 1.

      표본의 크기가 충분히 크면 표본평균의 분포는 정규분포에 가까워진다.

    • 2.

      모집단의 확률분포가 비대칭이면 더 큰 표본 크기가 필요할 수 있다.

    • 3.

      표본평균과 관련된 이론이다.

    • 4.

      모집단이 반드시 정규분포를 따라야만 성립한다.

    정답·해설 보기

    정답

    4

    모집단이 반드시 정규분포를 따라야만 성립한다.

    해설

    정답: 4. 중심극한정리는 모집단이 정규분포가 아니어도 표본 크기가 충분히 크면 표본평균 분포가 정규분포에 가까워진다는 내용입니다.

    오답 풀이

    • 1번: 중심극한정리의 핵심입니다.
    • 2번: 비대칭 모집단은 더 큰 표본이 필요할 수 있습니다.
    • 3번: 표본평균 분포와 관련됩니다.
    • 4번: 모집단 정규분포 가정 필요 없습니다.
  49. 문제 49

    4지선다

    선형회귀분석에서 개별 회귀계수에 대한 t-검정의 귀무가설과 대립가설로 적절한 것은?

    • 1.

      귀무가설: 회귀계수는 0이 아니다. 대립가설: 회귀계수는 0이다.

    • 2.

      귀무가설: 회귀계수는 0이다. 대립가설: 회귀계수는 0이 아니다.

    • 3.

      귀무가설: 회귀계수는 1이 아니다. 대립가설: 상관계수는 1이다.

    • 4.

      귀무가설: 회귀계수는 1이다. 대립가설: 회귀계수는 1이 아니다.

    정답·해설 보기

    정답

    2

    귀무가설: 회귀계수는 0이다. 대립가설: 회귀계수는 0이 아니다.

    해설

    정답: 2. 선형회귀에서 개별 회귀계수의 t-검정은 보통 H0: β=0, H1: β≠0의 양측 검정 형태입니다.

    오답 풀이

    • 1번: 귀무가설과 대립가설이 반대로 제시됐습니다.
    • 2번: 일반적인 양측 검정 형태입니다.
    • 3번: 회귀계수와 상관계수를 혼동한 설명입니다.
    • 4번: 회귀계수 유의성 검정 기준은 1이 아니라 0입니다.
  50. 문제 50

    4지선다

    같은 집단 내의 다른 데이터를 분석해도 동일하거나 유사한 결과가 나오는 모형의 특성은?

    • 1.

      일반화

    • 2.

      특정화

    • 3.

      구간화

    • 4.

      다양성

    정답·해설 보기

    정답

    1

    일반화

    해설

    정답: 1. 데이터마이닝 모형 평가 기준 중 일반화(generalization)는 같은 모집단 내의 다른 데이터에 적용해도 안정적이고 유사한 결과를 제공하는 특성을 말합니다.

    오답 풀이

    • 1번: 같은 집단의 다른 데이터에서도 안정적인 결과를 내는 특성으로 옳습니다.
    • 2번: 특정화는 일반 개념을 특정 조건에 맞추는 의미로 모형 평가 기준이 아닙니다.
    • 3번: 구간화는 연속형 데이터를 구간으로 나누는 전처리 기법입니다.
    • 4번: 다양성은 데이터마이닝 모형 평가 기준에 해당하지 않습니다.

    보충 개념 데이터마이닝 모형 평가 기준: 일반화 가능성, 효율성, 예측과 분류의 정확성.

이번엔 직접 풀어보세요

타이머와 자동 채점이 켜진 실제 시험 환경으로 응시할 수 있습니다.

ADsP 다른 회차 기출 복원

함께 읽으면 좋은 글