ADsP· 50문항· 조회 0전문가 검수

[ADsP] 2025년 45회 기출 복원

ADsP(데이터분석 준전문가) 2025년 45회 기출 복원 50문항을 정답·해설과 함께 정리했습니다. 검색해서 들어오신 분들도 바로 풀어보고 채점까지 가능합니다.

안녕하세요. 문어입니다 🐙


📋 회차 정보

이번 글은 ADsP(데이터분석 준전문가) 2025년 45회 기출 복원입니다. 아래는 시험 응시 정보 요약이에요.

자격증ADsP(데이터분석 준전문가)
연도2025
회차45
문항 수50문항

📊 출제 영역 한눈에

이번 회차의 과목별 문항 분포입니다. 비중이 큰 영역부터 우선 풀이하면 효율적이에요.

과목문항 수비중
데이터 이해10문항20%
데이터 분석 기획10문항20%
데이터 분석30문항60%

💡 학습 팁

ADsP 는 데이터 이해·분석 기획·분석 50문항 4지선다입니다. 2024년 개편 후 통계 비중이 늘었으니 기출 복원에서 통계 계산 문제를 우선 보세요.

📝 기출문제 전체 보기

데이터분석 준전문가(ADsP) 2025년 45회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.

  1. 문제 1

    4지선다

    다음 중 빅데이터 정보를 활용하는 방식으로 가장 부적절한 것은?

    • 1.기존 방식으로는 얻기 어려웠던 데이터를 새롭게 조합해 활용할 수 있다.
    • 2.개인정보를 당사자 보호 없이 대규모로 공유한다.
    • 3.분석 기법의 발전을 통해 기존 데이터에 새로운 의미와 가치를 부여할 수 있다.
    • 4.빅데이터 예측만을 근거로 아직 발생하지 않은 일에 대한 책임을 묻는 것은 바람직하지 않다.
    정답·해설 보기

    정답

    2. 개인정보를 당사자 보호 없이 대규모로 공유한다.

    해설

    정답: 2. 개인정보를 보호 절차 없이 대규모로 공유하는 것은 빅데이터 활용 방식으로 부적절하다.

    오답 풀이

    • 1번: 빅데이터는 기존에 없던 방식으로 데이터를 결합해 새로운 가치를 만들 수 있다.
    • 2번: 개인정보는 동의·비식별화·접근 통제 등 보호 원칙을 지켜야 하므로 부적절하다.
    • 3번: 분석 방법 발전으로 기존 데이터에서도 새로운 통찰을 얻을 수 있다.
    • 4번: 예측 결과만으로 사전 책임을 묻는 것은 빅데이터 시대의 윤리적 문제와 관련된다.

    보충 개념 빅데이터 활용은 가치 창출이 목표이지만 개인정보 침해·감시·책임 왜곡 등의 위험을 함께 관리해야 한다.

  2. 문제 2

    4지선다

    빅데이터에 대한 설명으로 적절하지 않은 것은?

    • 1.빅데이터는 수치 데이터뿐 아니라 영상, 이미지, 텍스트 등 다양한 형태의 데이터를 포함한다.
    • 2.빅데이터 분석을 통해 기존에는 파악하기 어려웠던 통찰을 얻을 수 있다.
    • 3.빅데이터를 활용하면 이전에는 없던 새로운 서비스를 만들 수 있다.
    • 4.빅데이터를 활용하더라도 개인 맞춤형 서비스는 제공할 수 없다.
    정답·해설 보기

    정답

    4. 빅데이터를 활용하더라도 개인 맞춤형 서비스는 제공할 수 없다.

    해설

    정답: 4. 빅데이터는 개인 맞춤형 추천·타깃 마케팅·맞춤형 의료 등 개인화 서비스에 활용될 수 있다.

    오답 풀이

    • 1번: 빅데이터는 정형뿐 아니라 비정형 데이터까지 포함한다.
    • 2번: 대량 데이터 분석으로 기존에 찾기 어려운 패턴·통찰을 얻을 수 있다.
    • 3번: 빅데이터는 새로운 비즈니스 모델·서비스를 가능하게 한다.
    • 4번: 개인 맞춤형 서비스는 빅데이터의 대표적 활용 분야이므로 틀린 설명이다.
  3. 문제 3

    4지선다

    DIKW 모델에서 데이터(Data)에 대한 설명으로 가장 적절하지 않은 것은?

    • 1.정보는 데이터를 가공하고 의미를 부여한 결과이다.
    • 2.데이터는 지식과 아이디어가 결합된 창의적 산물이다.
    • 3.지식은 정보를 경험과 맥락에 따라 내재화하면서 형성된다.
    • 4.데이터는 객관적인 사실이나 관찰값에 기반한다.
    정답·해설 보기

    정답

    2. 데이터는 지식과 아이디어가 결합된 창의적 산물이다.

    해설

    정답: 2. DIKW 모델에서 데이터는 가공 전의 객관적 사실이며, 지식과 아이디어가 결합된 창의적 산물은 지혜에 가깝다.

    오답 풀이

    • 1번: 정보는 데이터에 의미와 맥락을 부여한 것이다.
    • 2번: 데이터는 창의적 판단의 결과가 아니라 원천 사실에 가깝다.
    • 3번: 지식은 정보를 경험·규칙·맥락 속에서 이해하고 내재화한 것이다.
    • 4번: 데이터는 관찰·측정된 객관적 사실로 볼 수 있다.

    보충 개념 DIKW는 Data → Information → Knowledge → Wisdom 의 계층 구조이다.

  4. 문제 4

    4지선다

    데이터의 일관성과 정확성을 유지하고 검증하는 DBMS의 특징은?

    • 1.데이터의 통합성
    • 2.데이터의 공용성
    • 3.데이터의 무결성
    • 4.데이터의 변화성
    정답·해설 보기

    정답

    3. 데이터의 무결성

    해설

    정답: 3. 데이터의 정확성·일관성·유효성을 유지하는 특성은 무결성이다.

    오답 풀이

    • 1번: 통합성은 흩어진 데이터를 중복을 줄여 통합 관리하는 성격이다.
    • 2번: 공용성은 여러 사용자가 데이터를 공동 활용할 수 있음을 의미한다.
    • 3번: 무결성은 데이터가 정확하고 일관된 상태를 유지하도록 제약·검증하는 특성이다.
    • 4번: 변화성은 데이터가 현실 변화를 반영해 갱신될 수 있음을 의미한다.
  5. 문제 5

    4지선다

    다음 중 데이터베이스의 특징으로 적절하지 않은 것은?

    • 1.데이터베이스는 사용자 모두가 반드시 동일한 목적만으로 데이터를 활용하도록 설계된다.
    • 2.데이터베이스는 여러 사용자가 원격으로 접속해 사용할 수 있다.
    • 3.데이터베이스의 데이터는 일관성과 지속성을 유지하도록 관리된다.
    • 4.데이터베이스의 데이터는 권한이 있는 사용자가 접근하고 변경할 수 있어야 한다.
    정답·해설 보기

    정답

    1. 데이터베이스는 사용자 모두가 반드시 동일한 목적만으로 데이터를 활용하도록 설계된다.

    해설

    정답: 1. 데이터베이스는 여러 사용자가 다양한 목적으로 공동 활용할 수 있도록 설계된다.

    오답 풀이

    • 1번: 모든 사용자가 동일 목적만 가져야 한다는 설명은 공용성과 맞지 않는다.
    • 2번: DBMS는 네트워크를 통한 원격 접근과 다중 사용자 환경을 지원한다.
    • 3번: 데이터베이스는 일관성·지속성·무결성을 유지하도록 관리된다.
    • 4번: 권한이 있는 사용자는 필요한 범위에서 접근·변경할 수 있어야 한다.
  6. 문제 6

    4지선다

    자동차 회사가 엔지니어링 요소와 에너지 사용의 최적 조합을 찾아 연료 효율성을 극대화하는 차량 설계를 연구했다. 이때 가장 적절한 알고리즘은?

    • 1.회귀 알고리즘
    • 2.유전 알고리즘
    • 3.연관 규칙 알고리즘
    • 4.군집화 알고리즘
    정답·해설 보기

    정답

    2. 유전 알고리즘

    해설

    정답: 2. 최적 조합을 탐색해 성능을 개선하는 문제에는 유전 알고리즘이 적합하다.

    오답 풀이

    • 1번: 회귀는 변수 간 관계를 모델링·예측한다.
    • 2번: 유전 알고리즘은 선택·교차·변이로 최적해를 탐색하는 최적화 기법이다.
    • 3번: 연관 규칙은 항목 간 동시 발생 관계 탐색 기법이다.
    • 4번: 군집화는 유사 객체를 묶는 비지도 학습 기법이다.
  7. 문제 7

    4지선다

    개인정보 비식별화 기술에 대한 설명으로 가장 부적절한 것은?

    • 1.총계처리는 개별 데이터가 드러나지 않도록 합계, 평균 같은 통계값으로 표현한다.
    • 2.가명처리는 개인정보 주체를 직접 식별할 수 있는 이름 등을 다른 값으로 대체한다.
    • 3.범주화는 정확한 값을 그대로 공개하지 않고 구간이나 범주로 바꾸어 표현한다.
    • 4.마스킹은 개인정보 식별이 가능한 값을 원래 의미가 유지되도록 모두 공개하는 방법이다.
    정답·해설 보기

    정답

    4. 마스킹은 개인정보 식별이 가능한 값을 원래 의미가 유지되도록 모두 공개하는 방법이다.

    해설

    정답: 4. 마스킹은 식별 가능한 일부 값을 가리거나 대체해 노출을 줄이는 방법이지, 원값을 모두 공개하는 방법이 아니다.

    오답 풀이

    • 1번: 총계처리는 개별 식별 가능성을 낮추기 위해 집계값을 제공한다.
    • 2번: 가명처리는 이름·식별자 등을 가명·임의값으로 대체한다.
    • 3번: 범주화는 27세 → 20대처럼 넓은 범주로 대체한다.
    • 4번: 마스킹은 주민번호 일부 별표 처리처럼 값을 가리는 기술이다.
  8. 문제 8

    4지선다

    빅데이터 분석 및 활용의 최종 목표로 가장 적절한 것은?

    • 1.데이터 처리 효율성을 높이는 것
    • 2.다양한 분석 관점을 많이 도출하는 것
    • 3.기존에는 없던 새로운 가치를 창출하는 것
    • 4.많은 사용자가 공감할 수 있는 분석 결과를 만드는 것
    정답·해설 보기

    정답

    3. 기존에는 없던 새로운 가치를 창출하는 것

    해설

    정답: 3. 빅데이터 분석의 핵심 목표는 데이터를 통해 새로운 가치·통찰을 창출하는 것이다.

    오답 풀이

    • 1번: 효율성 제고는 수단이지 최종 목표가 아니다.
    • 2번: 다양한 관점 도출은 가치 창출을 위한 과정이다.
    • 3번: 빅데이터 활용의 궁극적 목적은 새로운 가치 창출이다.
    • 4번: 공감 가능한 결과는 중요하지만 최종 목표를 가장 잘 나타내지 않는다.
  9. 문제 9

    4지선다

    빅데이터 시대의 위기 요인에 대한 해결 방안으로 적절하지 않은 것은?

    • 1.개인정보 활용에 대한 동의 절차를 강화한다.
    • 2.개인정보 사용자의 책임을 강화한다.
    • 3.결과 기반 책임 원칙을 강화한다.
    • 4.알고리즘에 대한 접근권과 설명 가능성을 높인다.
    정답·해설 보기

    정답

    1. 개인정보 활용에 대한 동의 절차를 강화한다.

    해설

    정답: 1. 빅데이터 시대에는 모든 활용 사례에 대한 사전 동의가 사실상 어려우므로 동의제에서 책임제로의 전환이 사생활 침해 위기에 대한 핵심 해결책이다.

    오답 풀이

    • 1번: 사전 동의 절차 강화는 빅데이터의 다양한 재활용 시나리오에서 한계가 있어 시대 흐름과 맞지 않는다.
    • 2번: 사용자 책임 강화는 동의제에서 책임제로 전환하는 표준 대응책이다.
    • 3번: 결과 기반 책임 원칙은 책임 원칙 훼손(잠재 위협 기반 처벌)에 대한 대응책이다.
    • 4번: 알고리즘 접근권·설명 가능성 확대는 데이터 오용에 대한 표준 대응책이다.
  10. 문제 10

    4지선다

    다음 중 데이터 활용 사례로 적절하지 않은 것은?

    • 1.마케팅 캠페인의 전환율을 분석해 타깃 계층을 최적화한다.
    • 2.사용자 후기를 분석해 서비스 만족도와 개선 지점을 파악한다.
    • 3.과거 가스 사용량을 바탕으로 향후 24시간 공급량을 최적화한다.
    • 4.전문가와의 심층 면담만으로 업무 절차를 개선한다.
    정답·해설 보기

    정답

    4. 전문가와의 심층 면담만으로 업무 절차를 개선한다.

    해설

    정답: 4. 전문가 심층 면담은 정성 조사 방법에 가깝고, 제시된 보기 중 데이터 활용 사례로는 가장 부적절하다.

    오답 풀이

    • 1번: 전환율 데이터 분석은 마케팅 최적화의 대표적 사례이다.
    • 2번: 후기 텍스트 분석은 고객 만족도 분석에 활용된다.
    • 3번: 과거 사용량 데이터로 수요를 예측하고 공급을 최적화할 수 있다.
    • 4번: 면담 자체는 데이터 기반 분석이라기보다 정성 의견 수집에 해당한다.
  11. 문제 11

    4지선다

    분석 준비도 진단 시 고려 대상이 아닌 것은?

    • 1.분석 인력과 조직
    • 2.분석 비용
    • 3.분석 인프라
    • 4.분석 문화
    정답·해설 보기

    정답

    2. 분석 비용

    해설

    정답: 2. 분석 준비도는 분석 업무·인력 및 조직·분석 기법·분석 데이터·분석 문화·분석 인프라를 중심으로 진단한다.

    오답 풀이

    • 1번: 분석 인력과 조직은 진단의 핵심 요소이다.
    • 2번: 분석 비용은 일반 사업 검토 요소일 수 있으나 진단의 대표 축은 아니다.
    • 3번: 분석 인프라는 환경·도구 측면의 진단 요소이다.
    • 4번: 분석 문화는 조직의 데이터 활용 수용성을 평가한다.
  12. 문제 12

    4지선다

    분석 과제에서 고려해야 할 요소에 대한 설명으로 올바른 것은?

    • 1.활용성 측면에서는 정밀도, 안정성 측면에서는 정확도가 항상 더 중요하다.
    • 2.정확도를 높이면 모형의 해석 가능성이 낮아질 수 있다.
    • 3.데이터 양이 크더라도 반드시 로컬 저장소에 데이터를 보관해야 한다.
    • 4.분석 초기에 정형 데이터만 확보하는 데 집중해야 한다.
    정답·해설 보기

    정답

    2. 정확도를 높이면 모형의 해석 가능성이 낮아질 수 있다.

    해설

    정답: 2. 복잡한 알고리즘으로 정확도를 높이면 해석 가능성이 낮아지는 trade-off가 발생할 수 있다.

    오답 풀이

    • 1번: 정밀도와 정확도의 중요도는 목적·상황에 따라 다르다.
    • 2번: 정확도와 해석 가능성은 자주 고려하는 trade-off이다.
    • 3번: 대용량 데이터는 분산 저장소·클라우드·DW 등 적절한 인프라를 선택해야 한다.
    • 4번: 분석 대상에 따라 정형·반정형·비정형 데이터를 함께 고려할 수 있다.
  13. 문제 13

    4지선다

    상향식 접근 방법에 대한 설명 중 옳지 않은 것은?

    • 1.Bottom-up 접근에 해당한다.
    • 2.주로 비지도학습 방식으로 데이터를 탐색하며 문제를 발견한다.
    • 3.문제가 명확히 정의된 상태에서 정해진 답을 찾는 방식이다.
    • 4.프로토타이핑 방식도 상향식 접근의 한 형태로 볼 수 있다.
    정답·해설 보기

    정답

    3. 문제가 명확히 정의된 상태에서 정해진 답을 찾는 방식이다.

    해설

    정답: 3. 문제가 명확히 정의된 상태에서 해결책을 찾는 방식은 하향식 접근에 가깝다.

    오답 풀이

    • 1번: 상향식 접근은 Bottom-up 접근이다.
    • 2번: 데이터를 탐색하며 숨은 패턴이나 문제를 찾는 경우가 많다.
    • 3번: 명확한 문제에서 출발하는 것은 Top-down 접근의 특징이다.
    • 4번: 프로토타이핑은 데이터 탐색과 실험으로 문제·해법을 구체화하므로 상향식과 관련된다.
  14. 문제 14

    4지선다

    전사 차원의 모든 데이터 관리 정책, 프로세스, 운영 조직 등을 포함하는 표준화된 관리 체계는?

    • 1.정보전략계획(ISP)
    • 2.표준 데이터 생성
    • 3.분석 거버넌스
    • 4.데이터 거버넌스
    정답·해설 보기

    정답

    4. 데이터 거버넌스

    해설

    정답: 4. 전사 데이터의 정책·표준·조직·프로세스를 관리하는 체계는 데이터 거버넌스이다.

    오답 풀이

    • 1번: ISP는 정보시스템 구축·운영을 위한 중장기 전략 계획이다.
    • 2번: 표준 데이터 생성은 데이터 표준화 활동의 일부이다.
    • 3번: 분석 거버넌스는 분석 과제·조직·활용 체계 관리에 초점이 있다.
    • 4번: 데이터 거버넌스는 전사 데이터 관리의 원칙·체계를 의미한다.
  15. 문제 15

    4지선다

    분석 방법은 알고 있으나 분석 대상을 모를 때 적용하는 분석 기획 유형으로 적합한 것은?

    • 1.최적화(Optimization)
    • 2.통찰(Insight)
    • 3.솔루션(Solution)
    • 4.발견(Discovery)
    정답·해설 보기

    정답

    2. 통찰(Insight)

    해설

    정답: 2. 분석 방법은 있으나 무엇을 분석할지 명확하지 않은 경우는 통찰 유형에 해당한다.

    오답 풀이

    • 1번: 최적화는 대상·방법이 모두 명확한 경우에 가깝다.
    • 2번: 통찰은 분석 방법은 있으나 대상을 탐색해야 하는 유형이다.
    • 3번: 솔루션은 분석 대상은 있으나 해결 방법을 찾아야 하는 유형이다.
    • 4번: 발견은 대상·방법이 모두 불명확해 탐색적으로 접근하는 유형이다.
  16. 문제 16

    4지선다

    과제 우선순위를 평가할 때 본원적 업무와의 직접적인 연관성 및 이슈 미해결 시 발생할 수 있는 위험이나 손실의 정도를 나타내는 기준은?

    • 1.전략적 필요성
    • 2.비즈니스 성과와 ROI
    • 3.투자의 용이성
    • 4.기술적 용이성
    정답·해설 보기

    정답

    1. 전략적 필요성

    해설

    정답: 1. 본원적 업무와의 관련성, 미해결 시 위험·손실은 전략적 필요성에 해당한다.

    오답 풀이

    • 1번: 전략적 필요성은 조직의 핵심 업무·목표 달성에 얼마나 중요한지를 평가한다.
    • 2번: 비즈니스 성과와 ROI는 기대 수익·비용 대비 효과에 초점을 둔다.
    • 3번: 투자의 용이성은 예산·자원 확보의 쉬움과 관련된다.
    • 4번: 기술적 용이성은 분석 기술·데이터·시스템 구현 가능성과 관련된다.
  17. 문제 17

    4지선다

    데이터 분석 성숙도 모델의 4분면에서 분석 업무와 분석 기법은 부족하지만 조직 및 인력 등 준비도가 높아 데이터 분석을 바로 시행할 수 있는 기업의 분석 수준은?

    • 1.도입형
    • 2.준비형
    • 3.정착형
    • 4.확산형
    정답·해설 보기

    정답

    1. 도입형

    해설

    정답: 1. ADsP 분석 성숙도 4분면에서 조직·인력 등 준비도는 높지만 분석 업무·기법 등 성숙도가 낮은 영역은 도입형에 해당한다.

    오답 풀이

    • 1번: 도입형은 준비도는 갖췄으나 분석 업무·기법이 부족해 분석을 시작하는 단계이다.
    • 2번: 준비형은 준비도와 성숙도가 모두 낮은 유형이다.
    • 3번: 정착형은 준비도는 낮지만 성숙도는 일정 수준 갖춘 유형이다.
    • 4번: 확산형은 준비도와 성숙도가 모두 높아 전사적으로 분석을 활용한다.
  18. 문제 18

    4지선다

    하향식 접근법의 분석 과제 도출 단계를 올바른 순서로 나열한 것은?

    <보기> 가. 문제 정의 나. 문제 탐색 다. 해결방안 탐색 라. 타당성 검토

    • 1.가 → 나 → 다 → 라
    • 2.나 → 가 → 다 → 라
    • 3.가 → 나 → 라 → 다
    • 4.나 → 가 → 라 → 다
    정답·해설 보기

    정답

    2. 나 → 가 → 다 → 라

    해설

    정답: 2. 하향식 접근법은 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토 순서로 진행된다.

    오답 풀이

    • 1번: 문제 정의보다 문제 탐색이 먼저 수행되어야 한다.
    • 2번: 나→가→다→라가 적절한 순서이다.
    • 3번: 시작 순서가 잘못되고 타당성 검토가 해결방안 탐색보다 앞서 있다.
    • 4번: 해결방안 탐색과 타당성 검토 순서가 바뀌었다.
  19. 문제 19

    4지선다

    분석 기획 시 고려사항에 해당하지 않는 것은?

    • 1.필요한 데이터 확보 가능성을 고려한다.
    • 2.가치 창출 방법과 활용 사례를 고려한다.
    • 3.지속적인 교육과 활용 확산을 위한 변화 관리를 고려한다.
    • 4.항상 최신 분석기법을 사용하는 것을 최우선으로 한다.
    정답·해설 보기

    정답

    4. 항상 최신 분석기법을 사용하는 것을 최우선으로 한다.

    해설

    정답: 4. 분석 기획에서는 문제 해결에 적합한 방법을 선택해야 하며, 최신 기법 사용 자체가 목적은 아니다.

    오답 풀이

    • 1번: 데이터 확보 가능성은 분석 기획의 핵심 고려사항이다.
    • 2번: 분석이 어떤 가치를 만들고 어떻게 활용될지 고려해야 한다.
    • 3번: 분석 결과가 정착되려면 교육·변화 관리가 필요하다.
    • 4번: 최신 기법보다 문제 적합성·해석 가능성·운영 가능성이 더 중요할 수 있다.
  20. 문제 20

    4지선다

    다음 두 설명에 해당하는 분석 태스크는?

    <보기>

    • 데이터의 정합성을 검토하고 특성을 파악한다.
    • 데이터를 시각화하고 요약하여 숨겨진 패턴, 관계, 이상값 등을 발견한다.
    • 1.텍스트 분석
    • 2.예측 분석
    • 3.탐색적 데이터 분석
    • 4.정량적 분석
    정답·해설 보기

    정답

    3. 탐색적 데이터 분석

    해설

    정답: 3. 데이터 특성·패턴·이상값을 시각화·요약 통계로 파악하는 것은 탐색적 데이터 분석(EDA)이다.

    오답 풀이

    • 1번: 텍스트 분석은 비정형 텍스트 분석 기법이다.
    • 2번: 예측 분석은 미래 값·분류 결과 예측에 초점이 있다.
    • 3번: EDA는 데이터 구조·특징을 이해하기 위한 초기 분석이다.
    • 4번: 정량적 분석은 수치 데이터를 이용한 분석 전반을 의미한다.
  21. 문제 21

    4지선다

    다음 해석으로 옳지 않은 것은?

    <출력 요약>

    • weight Q1: 204.5
    • weight Median: 258.0
    • weight Mean: 261.3
    • weight Q3: 323.5
    • feed: 사료 종류를 나타내는 범주형 변수
    • 1.weight 값의 25%는 weight의 Q1보다 크다.
    • 2.weight의 IQR은 119이다.
    • 3.평균이 중앙값보다 크면 오른쪽 꼬리가 긴 양의 왜도로 해석할 수 있다.
    • 4.feed는 명목형 변수이다.
    정답·해설 보기

    정답

    1. weight 값의 25%는 weight의 Q1보다 크다.

    해설

    정답: 1. Q1은 제1사분위수이므로 일반적으로 전체 값의 약 25%가 Q1 이하, 약 75%가 Q1 이상에 위치한다.

    오답 풀이

    • 1번: Q1보다 큰 값은 보통 약 75%이므로 25%라고 하면 잘못된 설명이다.
    • 2번: IQR = Q3 - Q1 = 323.5 - 204.5 = 119이다.
    • 3번: 평균이 중앙값보다 크면 일반적으로 양의 왜도를 의심할 수 있다.
    • 4번: feed처럼 종류 구분 범주 변수는 명목형이다.
  22. 문제 22

    4지선다

    상관계수에 대한 설명 중 틀린 것은?

    • 1.상관계수가 -1일 때 상관관계가 가장 약하다는 뜻이다.
    • 2.상관계수는 -1 이상 +1 이하의 값을 가진다.
    • 3.상관계수가 양수이면 두 변수 사이에 양의 선형 관계가 있음을 의미한다.
    • 4.상관계수의 통계적 유의성은 가설 검정을 통해 확인할 수 있다.
    정답·해설 보기

    정답

    1. 상관계수가 -1일 때 상관관계가 가장 약하다는 뜻이다.

    해설

    정답: 1. 상관계수 -1은 완전한 음의 선형관계를 의미하므로 상관관계가 가장 약한 상태가 아니다.

    오답 풀이

    • 1번: 상관관계가 약한 상태는 상관계수가 0에 가까운 경우이다.
    • 2번: 피어슨 상관계수의 범위는 -1 ~ +1이다.
    • 3번: 양수 상관은 한 변수 증가 시 다른 변수도 증가하는 경향을 의미한다.
    • 4번: 상관계수 유의성은 가설 검정으로 판단할 수 있다.
  23. 문제 23

    4지선다

    상관성 분석 결과의 해석으로 틀린 것은?

    <iris 데이터 상관계수 행렬 요약>

    변수쌍상관계수
    Sepal.Length - Sepal.Width-0.118
    Sepal.Length - Petal.Length0.872
    Sepal.Length - Petal.Width0.818
    Sepal.Width - Petal.Length-0.428
    Sepal.Width - Petal.Width-0.366
    Petal.Length - Petal.Width0.963
    • 1.Sepal.Length와 가장 상관성이 높은 변수는 Petal.Length이다.
    • 2.가장 상관성이 낮은 경우는 Petal.Length와 Petal.Width이다.
    • 3.Sepal.Length가 길수록 Sepal.Width는 좁아지는 추세가 있다.
    • 4.Petal.Length가 길수록 Petal.Width도 커지는 추세가 있다.
    정답·해설 보기

    정답

    2. 가장 상관성이 낮은 경우는 Petal.Length와 Petal.Width이다.

    해설

    정답: 2. Petal.Length-Petal.Width 의 상관계수는 약 0.963 으로 매우 강한 양의 상관관계이므로 가장 상관성이 낮다는 설명은 틀렸다.

    오답 풀이

    • 1번: Sepal.Length는 Petal.Length와 약 0.872로 비교적 높은 양의 상관을 가진다.
    • 2번: Petal.Length-Petal.Width는 가장 강한 양의 상관에 가까우므로 부적절하다.
    • 3번: Sepal.Length-Sepal.Width 약 -0.118의 음의 상관이라 약한 추세로 해석할 수 있다.
    • 4번: Petal.Length-Petal.Width는 약 0.963의 강한 양의 상관을 보인다.
  24. 문제 24

    4지선다

    다음 회귀분석 결과에 대한 해석으로 옳지 않은 것은?

    <회귀분석 결과 요약>

    • Multiple R-squared: 0.7067
    • Adjusted R-squared: 0.6710
    • Education의 p-value: 0.05 미만
    • Agriculture의 p-value: 0.05 이상
    • 1.모델의 설명력은 70.67%이다.
    • 2.Adjusted R-squared 값은 67.1%이다.
    • 3.Education은 5% 유의수준에서 통계적으로 유의하다.
    • 4.Education이 Fertility 변동의 원인이라고 단정할 수 있다.
    정답·해설 보기

    정답

    4. Education이 Fertility 변동의 원인이라고 단정할 수 있다.

    해설

    정답: 4. 회귀분석 결과에서 유의한 관계가 나타났다고 해서 곧바로 인과관계를 단정할 수는 없다.

    오답 풀이

    • 1번: R-squared 0.7067 → 모델 설명력 약 70.67%이다.
    • 2번: Adjusted R-squared 0.671 → 약 67.1%이다.
    • 3번: Education p-value < 0.05 → 5% 유의수준에서 유의하다.
    • 4번: 회귀분석은 관계를 설명할 수 있지만 관찰자료만으로 인과 단정은 어렵다.
  25. 문제 25

    4지선다

    모델이 참이라고 예측한 것 중에서 실제로도 참인 비율을 나타내는 지표는?

    • 1.재현율
    • 2.민감도
    • 3.정밀도
    • 4.정확도
    정답·해설 보기

    정답

    3. 정밀도

    해설

    정답: 3. 모델이 양성으로 예측한 것 중 실제 양성 비율은 정밀도이다.

    오답 풀이

    • 1번: 재현율은 실제 양성 중 모델이 양성으로 맞힌 비율이다.
    • 2번: 민감도는 재현율과 같은 의미이다.
    • 3번: 정밀도 = TP / (TP + FP)이다.
    • 4번: 정확도는 전체 예측 중 맞힌 비율이다.
  26. 문제 26

    4지선다

    다음 중 연속형 변수 간 유사성 또는 거리를 측정하는 방법으로 적절하지 않은 것은?

    • 1.마할라노비스 거리
    • 2.유클리드 거리
    • 3.체비셰프 거리
    • 4.자카드 거리
    정답·해설 보기

    정답

    4. 자카드 거리

    해설

    정답: 4. 자카드 거리는 주로 집합·이진형 데이터의 유사도 측정에 사용되며, 일반적인 연속형 변수 거리로는 적절하지 않다.

    오답 풀이

    • 1번: 마할라노비스 거리는 변수 간 공분산 구조를 고려한 거리이다.
    • 2번: 유클리드 거리는 연속형 변수의 대표적 거리이다.
    • 3번: 체비셰프 거리는 좌표별 차이 중 최댓값을 거리로 사용한다.
    • 4번: 자카드 거리는 두 집합의 교집합·합집합으로 정의된다.
  27. 문제 27

    4지선다

    ROC 곡선에서 가장 이상적인 분류 성능을 나타내는 좌표는?

    • 1.(0, 1)
    • 2.(1, 0)
    • 3.(1, 1)
    • 4.(0, 0)
    정답·해설 보기

    정답

    1. (0, 1)

    해설

    정답: 1. ROC 곡선에서 x축 FPR, y축 TPR이므로 이상적 점은 FPR 0, TPR 1인 (0, 1)이다.

    오답 풀이

    • 1번: 거짓 양성률 0, 참 양성률 1 — 가장 이상적이다.
    • 2번: FPR 1, TPR 0 — 매우 나쁜 결과이다.
    • 3번: TPR 높지만 FPR도 1이라 이상적이지 않다.
    • 4번: FPR 낮지만 TPR도 0이라 양성을 전혀 못 맞힌다.
  28. 문제 28

    4지선다

    앙상블 기법인 배깅(Bagging)과 부스팅(Boosting)에 대한 설명으로 적절한 것은?

    • 1.부스팅은 이전에 잘못 분류된 데이터에 더 큰 가중치를 부여한다.
    • 2.배깅은 재표본 추출을 사용하지 않는다.
    • 3.배깅은 언제나 단일 모형보다 높은 정확도를 보장한다.
    • 4.부스팅은 과적합 문제를 항상 방지한다.
    정답·해설 보기

    정답

    1. 부스팅은 이전에 잘못 분류된 데이터에 더 큰 가중치를 부여한다.

    해설

    정답: 1. 부스팅은 이전 학습에서 틀린 관측치에 더 큰 가중치를 부여해 순차적으로 모형을 개선한다.

    오답 풀이

    • 1번: 부스팅의 대표적 특징이다.
    • 2번: 배깅은 bootstrap 표본으로 여러 모델을 학습한다.
    • 3번: 배깅은 분산을 줄이지만 항상 정확도 향상을 보장하지 않는다.
    • 4번: 부스팅도 설정에 따라 과적합이 발생할 수 있다.
  29. 문제 29

    4지선다

    인공신경망 모형에 대한 설명으로 옳지 않은 것은?

    • 1.은닉층의 개수가 많아진다고 해서 정확도가 항상 높아지는 것은 아니다.
    • 2.각 은닉층의 노드 수는 분석가가 직접 설정해야 하는 하이퍼파라미터이다.
    • 3.학습된 가중치를 해석해 항상 명확한 설명 변수를 선별할 수 있다.
    • 4.은닉층의 활성화 함수에 따라 선형 또는 비선형 모델링이 가능하다.
    정답·해설 보기

    정답

    3. 학습된 가중치를 해석해 항상 명확한 설명 변수를 선별할 수 있다.

    해설

    정답: 3. 인공신경망은 일반적으로 해석 가능성이 낮으며, 가중치만으로 설명력 있는 변수를 항상 명확히 선별하기 어렵다.

    오답 풀이

    • 1번: 은닉층 증가가 항상 성능 향상을 보장하지 않으며 과적합이 발생할 수 있다.
    • 2번: 은닉층 수·노드 수는 대표적 하이퍼파라미터이다.
    • 3번: 신경망은 블랙박스 성격이 강해 가중치 해석이 쉽지 않다.
    • 4번: 비선형 활성화 함수를 사용하면 복잡한 비선형 관계를 학습할 수 있다.
  30. 문제 30

    4지선다

    로지스틱 회귀분석의 적용 사례로 가장 적절한 것은?

    • 1.시험 점수 같은 연속형 값 예측
    • 2.마케팅 캠페인의 성공 여부 예측
    • 3.정년까지 남은 기간 예측
    • 4.상품 판매량 예측
    정답·해설 보기

    정답

    2. 마케팅 캠페인의 성공 여부 예측

    해설

    정답: 2. 로지스틱 회귀분석은 성공/실패·이탈/유지처럼 범주형 결과를 예측하는 데 사용된다.

    오답 풀이

    • 1번: 시험 점수는 연속형 종속변수이므로 선형회귀가 더 적절하다.
    • 2번: 성공 여부는 이항 범주형이므로 로지스틱 회귀에 적합하다.
    • 3번: 남은 기간은 연속형 값이라 일반 회귀·생존분석을 고려한다.
    • 4번: 판매량은 수치형이라 일반 회귀가 적합하다.
  31. 문제 31

    4지선다

    척도에 대한 설명으로 올바르게 짝지어진 것은?

    • 1.정수 0~5 중 하나를 선택하는 값은 연속형 척도이다.
    • 2.교통사고의 확률은 순서형 척도이다.
    • 3.몸무게는 이산형 척도이다.
    • 4.고향이 수도권인지 비수도권인지 구분하는 값은 명목척도이다.
    정답·해설 보기

    정답

    4. 고향이 수도권인지 비수도권인지 구분하는 값은 명목척도이다.

    해설

    정답: 4. 수도권/비수도권처럼 순서가 없는 범주 구분은 명목척도이다.

    오답 풀이

    • 1번: 정수 0~5 선택은 보통 이산·순서형이며 연속형은 아니다.
    • 2번: 확률은 0과 1 사이의 수치형 비율척도에 가깝다.
    • 3번: 몸무게는 연속형 비율척도이다.
    • 4번: 수도권/비수도권은 순서 없는 범주이므로 명목척도이다.
  32. 문제 32

    4지선다

    범주형 자료 분석에 대한 설명 중 틀린 것은?

    • 1.적합도 검정은 관찰도수와 기대도수가 얼마나 일치하는지 검정한다.
    • 2.범주의 특성에 따라 비교 기준이 되는 기대도수를 계산해 사용할 수 있다.
    • 3.동질성 검정은 여러 집단의 범주별 분포가 동일한지 검정한다.
    • 4.독립성 검정은 서로 다른 요인들이 관찰값에 영향을 주는지 여부를 검정한다.
    정답·해설 보기

    정답

    4. 독립성 검정은 서로 다른 요인들이 관찰값에 영향을 주는지 여부를 검정한다.

    해설

    정답: 4. 독립성 검정은 두 범주형 변수가 서로 독립인지(관련성이 있는지)를 검정하는 방법이다. 따라서 서로 다른 요인들이 관찰값에 영향을 주는지 여부를 검정한다는 설명은 정확하지 않다.

    오답 풀이

    • 1번: 적합도 검정은 관찰도수와 기대도수의 일치 정도를 검정한다.
    • 2번: 범주 특성·가정 분포에 따라 기대도수를 계산해 사용한다.
    • 3번: 동질성 검정은 여러 집단의 범주별 분포 동일성을 검정한다.
    • 4번: 독립성 검정은 두 범주형 변수의 관련성 여부를 검정하는 것이다.
  33. 문제 33

    4지선다

    기술통계와 관련된 설명 중 틀린 것은?

    • 1.기술통계량에는 평균과 중앙값이 포함된다.
    • 2.결측치는 모두 0으로 변환한 뒤 계산해야 한다.
    • 3.기술통계에서는 표본을 이용해 통계량을 계산할 수 있다.
    • 4.이상값은 상자그림을 통해 비교적 쉽게 확인할 수 있다.
    정답·해설 보기

    정답

    2. 결측치는 모두 0으로 변환한 뒤 계산해야 한다.

    해설

    정답: 2. 결측치를 무조건 0으로 대체하면 통계량이 왜곡될 수 있다.

    오답 풀이

    • 1번: 평균·중앙값·분산·표준편차는 대표적 기술통계량이다.
    • 2번: 결측치는 삭제·대체·모델 기반 보정 등 상황에 맞게 처리해야 한다.
    • 3번: 표본 자료로 평균·중앙값·분산을 계산할 수 있다.
    • 4번: 상자그림은 사분위수·이상값 시각화에 유용하다.
  34. 문제 34

    4지선다

    다음 중 시계열 데이터의 정상성을 확보하는 방법으로 옳은 것은?

    • 1.차분 연산 적용
    • 2.분산제곱 통계량 적용
    • 3.이상치 제거만 수행
    • 4.결측값 제거만 수행
    정답·해설 보기

    정답

    1. 차분 연산 적용

    해설

    정답: 1. 추세가 있는 시계열은 차분을 통해 정상성을 확보할 수 있다.

    오답 풀이

    • 1번: 차분은 현재 값과 이전 값의 차이로 추세를 제거하는 대표 방법이다.
    • 2번: 분산제곱 통계량은 정상성 확보 방법으로 보기 어렵다.
    • 3번: 이상치 제거만으로는 정상성 확보가 부족하다.
    • 4번: 결측값 제거만으로도 정상성 확보 방법으로 부족하다.
  35. 문제 35

    4지선다

    시계열 분해에 대한 설명 중 잘못된 것은?

    • 1.계절요인은 일정 주기를 가지고 반복적으로 나타나는 규칙적 변동이다.
    • 2.순환요인은 경제나 자연현상 등과 관련된 장기적 주기 변동을 의미한다.
    • 3.불규칙요인은 다른 요인들로 설명되지 않는 우연적 변동이다.
    • 4.추세요인은 짧은 순간마다 무작위로 상승과 하락을 반복하는 성분이다.
    정답·해설 보기

    정답

    4. 추세요인은 짧은 순간마다 무작위로 상승과 하락을 반복하는 성분이다.

    해설

    정답: 4. 추세요인은 장기간에 걸쳐 지속적으로 증가·감소하는 방향성 있는 패턴이다.

    오답 풀이

    • 1번: 계절요인은 월·분기·요일처럼 일정 주기로 반복되는 변동이다.
    • 2번: 순환요인은 경기 변동처럼 주기가 일정하지 않은 장기 변동이다.
    • 3번: 불규칙요인은 잔차적 변동이다.
    • 4번: 무작위 반복 변동은 추세보다 불규칙요인에 가깝다.
  36. 문제 36

    4지선다

    분석 결과에 따른 회귀식으로 올바른 것은?

    <단순선형회귀분석 결과 요약>

    항목Estimate
    (Intercept)-17.5791
    X3.9324
    • 1.f(X) = 6.07584 + 0.4155 * X
    • 2.f(X) = 0.4155 + 6.07584 * X
    • 3.f(X) = -17.5791 + 3.9324 * X
    • 4.f(X) = -17.5791 + 6.7584 * X
    정답·해설 보기

    정답

    3. f(X) = -17.5791 + 3.9324 * X

    해설

    정답: 3. 회귀식은 절편 + 기울기 × X 형태로 작성하며, 출력의 절편과 기울기를 그대로 대입한다.

    오답 풀이

    • 1번: 출력의 값과 다르다.
    • 2번: 절편·기울기 위치가 바뀌었다.
    • 3번: 절편 -17.5791, 기울기 3.9324 → 올바른 회귀식이다.
    • 4번: 기울기 값이 출력과 다르다.
  37. 문제 37

    4지선다

    선형회귀분석의 가정에 대한 설명 중 옳지 않은 것은?

    • 1.독립성은 독립변수 간에 서로 관련이 없어야 한다는 의미이다.
    • 2.선형성은 독립변수 변화에 따라 종속변수가 선형적으로 변한다는 의미이다.
    • 3.정규성은 잔차의 분포가 정규분포를 따른다는 의미이다.
    • 4.등분산성은 잔차의 분산이 모든 관측치에서 일정하다는 의미이다.
    정답·해설 보기

    정답

    1. 독립성은 독립변수 간에 서로 관련이 없어야 한다는 의미이다.

    해설

    정답: 1. 회귀분석의 독립성 가정은 주로 오차항·관측치 간 독립성을 의미하며, 독립변수 간 관련 없음은 다중공선성 문제에 가깝다.

    오답 풀이

    • 1번: 독립변수 간 무상관은 독립성 가정보다 다중공선성 회피와 관련된다.
    • 2번: 선형성은 독립·종속변수 관계가 선형이라는 가정이다.
    • 3번: 정규성은 잔차가 정규분포를 따른다는 가정이다.
    • 4번: 등분산성은 오차의 분산이 일정하다는 가정이다.
  38. 문제 38

    4지선다

    회귀식을 만들 때 독립변수 후보를 모두 포함한 모형에서 시작해 변수를 하나씩 제거하는 변수선택법은?

    • 1.전진선택법
    • 2.후진제거법
    • 3.단계별선택법
    • 4.혼합선택법
    정답·해설 보기

    정답

    2. 후진제거법

    해설

    정답: 2. 모든 후보 변수를 포함한 뒤 유의하지 않은 변수를 제거해 가는 방식은 후진제거법이다.

    오답 풀이

    • 1번: 전진선택법은 변수가 없는 모형에서 시작해 하나씩 추가한다.
    • 2번: 후진제거법은 전체 모형에서 시작해 변수를 제거한다.
    • 3번: 단계별선택법은 추가·제거를 반복적으로 함께 고려한다.
    • 4번: 혼합선택법은 전진·후진을 결합한 개념이다.
  39. 문제 39

    4지선다

    주성분 분석에 대한 설명으로 틀린 것은?

    • 1.각 주성분을 만들기 위한 가중치가 산출된다.
    • 2.데이터 변동이 큰 방향부터 순서대로 주성분을 추출한다.
    • 3.서로 상관성이 없는 새로운 변수를 만들 수 있다.
    • 4.기존 변수의 개수를 늘려 차원을 확장하는 용도로만 사용된다.
    정답·해설 보기

    정답

    4. 기존 변수의 개수를 늘려 차원을 확장하는 용도로만 사용된다.

    해설

    정답: 4. PCA는 주로 차원축소에 활용되며, 변수 개수를 늘리는 용도가 아니다.

    오답 풀이

    • 1번: 주성분은 기존 변수들의 선형결합으로 가중치가 산출된다.
    • 2번: 첫 번째 주성분은 데이터 분산을 가장 크게 설명한다.
    • 3번: 주성분들은 서로 직교해 상관성이 없다.
    • 4번: PCA의 핵심 목적은 정보 손실을 줄이며 차원을 축소하는 것이다.
  40. 문제 40

    4지선다

    주성분분석 결과에 대한 설명으로 틀린 것은?

    <USArrests 데이터 PCA 결과 요약>

    • PC1 설명분산 비율: 약 62.0%
    • PC2 설명분산 비율: 약 24.7%
    • PC1 + PC2 누적 설명분산 비율: 약 86.7%
    변수PC2 loadingPC3 loading
    Murder0.418-0.341
    Assault0.188-0.268
    UrbanPop-0.873-0.378
    Rape-0.1670.818
    • 1.성분 2개로 4개 변수의 분산을 86% 이상 설명할 수 있다.
    • 2.PC2에 가장 크게 기여하는 변수는 UrbanPop이다.
    • 3.PC3에 가장 크게 기여하는 변수는 Rape이다.
    • 4.전반적으로 Murder의 영향력이 가장 크다.
    정답·해설 보기

    정답

    4. 전반적으로 Murder의 영향력이 가장 크다.

    해설

    정답: 4. PCA 결과는 주성분별 기여도와 loading을 함께 봐야 하며, Murder의 영향력이 가장 크다고 단정하기 어렵다.

    오답 풀이

    • 1번: 첫 두 주성분 누적 설명력 약 86.7% 해석은 타당하다.
    • 2번: PC2에서 UrbanPop의 loading 절댓값이 가장 크다면 맞는 설명이다.
    • 3번: PC3에서 Rape의 loading 절댓값이 가장 크다면 맞는 설명이다.
    • 4번: 변수 영향력은 주성분별 loading과 설명분산을 함께 봐야 하므로 단정하기 어렵다.
  41. 문제 41

    4지선다

    의사결정나무에 대한 설명으로 옳지 않은 것은?

    • 1.종속변수가 연속형일 때 가지 분할 기준으로 분산을 활용할 수 있다.
    • 2.종속변수가 범주형일 때 가지 분할 기준으로 엔트로피를 활용할 수 있다.
    • 3.가지치기(pruning)를 통해 학습 데이터 세트에서의 정확도를 높이는 것이 주목적이다.
    • 4.최종 노드가 많을수록 과대적합 가능성이 증가한다.
    정답·해설 보기

    정답

    3. 가지치기(pruning)를 통해 학습 데이터 세트에서의 정확도를 높이는 것이 주목적이다.

    해설

    정답: 3. 가지치기는 학습 데이터 정확도를 높이기보다 과대적합을 줄이고 일반화 성능을 높이기 위한 방법이다.

    오답 풀이

    • 1번: 회귀나무에서는 분산 감소를 분할 기준으로 사용한다.
    • 2번: 분류나무에서는 엔트로피·지니지수 등을 분할 기준으로 사용한다.
    • 3번: 가지치기는 복잡 나무 단순화 → 일반화 성능 향상 목적이다.
    • 4번: 최종 노드가 많고 깊은 나무는 학습 데이터 과적합에 취약하다.
  42. 문제 42

    4지선다

    k-means에 대한 설명 중 틀린 것은?

    • 1.군집 수 k는 분석가가 임의로 설정할 수 있다.
    • 2.이상치에 민감한 편이다.
    • 3.중심점을 기준으로 군집을 형성한다.
    • 4.군집 개수를 알고리즘이 자동으로 최종 선택해준다.
    정답·해설 보기

    정답

    4. 군집 개수를 알고리즘이 자동으로 최종 선택해준다.

    해설

    정답: 4. k-means는 군집 수 k를 사전에 지정해야 하며, 알고리즘이 자동으로 최적 k를 선택하지 않는다.

    오답 풀이

    • 1번: k-means는 분석자가 k를 정하고 시작한다.
    • 2번: 평균 중심을 사용하므로 이상치 영향이 있다.
    • 3번: 각 데이터는 가장 가까운 중심점에 할당된다.
    • 4번: 최적 k는 엘보우·실루엣 계수 등으로 별도 판단한다.
  43. 문제 43

    4지선다

    SOM(Self-Organizing Map)에 대한 설명 중 틀린 것은?

    • 1.입력층과 경쟁층은 부분적으로만 연결된다.
    • 2.고차원 데이터를 저차원 공간에 표현하는 방법이다.
    • 3.반복 학습을 통해 경쟁층의 대표 노드가 조정된다.
    • 4.일반적인 다층 신경망처럼 오차 역전파를 사용하지 않는다.
    정답·해설 보기

    정답

    1. 입력층과 경쟁층은 부분적으로만 연결된다.

    해설

    정답: 1. SOM은 일반적으로 입력층의 각 노드가 경쟁층의 모든 노드와 연결되는 완전 연결 구조로 설명된다.

    오답 풀이

    • 1번: 부분적으로만 연결된다는 설명은 SOM의 일반 구조와 맞지 않는다.
    • 2번: SOM은 고차원 데이터를 2차원 격자 등 저차원으로 시각화한다.
    • 3번: 반복적으로 승자·이웃 노드의 가중치를 조정한다.
    • 4번: SOM은 비지도학습이며 일반 역전파와 다르게 학습한다.
  44. 문제 44

    4지선다

    다음 계층적 군집분석 결과에서 Height=1.5 기준으로 절단했을 때 만들어지는 클러스터 수는?

    <덴드로그램 해석 조건> Height=1.5에서 수평 절단선을 그으면 절단선 아래에 서로 분리된 가지가 4개 남는다.

    • 1.2개
    • 2.3개
    • 3.4개
    • 4.5개
    정답·해설 보기

    정답

    3. 4개

    해설

    정답: 3. 덴드로그램을 특정 높이에서 수평으로 자를 때 절단선 아래에 남는 분리된 가지의 수가 클러스터 수이다.

    오답 풀이

    • 1번: 절단선에서 가지 수를 과소 계산한 경우이다.
    • 2번: 절단선 아래 묶음 수와 맞지 않는다.
    • 3번: Height=1.5에서 4개 가지가 남으므로 클러스터 4개이다.
    • 4번: 절단선에서 분리되는 가지 수보다 많다.
  45. 문제 45

    4지선다

    다음 구매 이력에서 '빵을 구매했을 때 버터도 함께 구매할 신뢰도'에 해당하는 값은?

    <구매 이력>

    내용횟수
    빵, 버터3
    1
    치즈1
    • 1.향상도: 0.25
    • 2.향상도: 1.25
    • 3.신뢰도: 0.6
    • 4.신뢰도: 0.75
    정답·해설 보기

    정답

    4. 신뢰도: 0.75

    해설

    정답: 4. 빵을 구매한 거래 4건 중 빵·버터 동시 구매가 3건이므로 신뢰도 = 3/4 = 0.75이다.

    오답 풀이

    • 1번: 0.25는 신뢰도·향상도로 부적절하다.
    • 2번: 향상도는 신뢰도와 후건 지지도를 함께 고려해 계산하며 문제는 신뢰도이다.
    • 3번: 전체 5건 중 빵·버터 동시 구매 3건이므로 0.6은 지지도에 해당할 수 있다.
    • 4번: 빵 구매 전제 시 버터 함께 구매 비율 = 3/4 = 0.75이다.
  46. 문제 46

    4지선다

    연관분석 A → B에서 지지도에 해당하는 설명은?

    • 1.전체 거래 중 A를 구매할 확률이다.
    • 2.전체 거래 중 B를 구매할 확률이다.
    • 3.A를 구매한 뒤 이어서 B를 구매할 조건부 확률이다.
    • 4.전체 거래 중 A와 B를 동시에 구매할 확률이다.
    정답·해설 보기

    정답

    4. 전체 거래 중 A와 B를 동시에 구매할 확률이다.

    해설

    정답: 4. 지지도는 전체 거래에서 A와 B가 동시에 나타나는 비율이다.

    오답 풀이

    • 1번: A만 구매할 확률은 A의 개별 지지도이다.
    • 2번: B만 구매할 확률은 B의 개별 지지도이다.
    • 3번: A → B 조건부 확률은 신뢰도이다.
    • 4번: A·B 동시 발생 비율이 연관규칙의 지지도이다.
  47. 문제 47

    4지선다

    군집분석에 대한 설명 중 옳지 않은 것은?

    • 1.종속변수가 필요 없는 분석이다.
    • 2.관측치 사이의 거리 계산 방법을 정해야 한다.
    • 3.입력변수가 범주형이면 어떠한 방식으로도 군집분석을 할 수 없다.
    • 4.만들어진 군집의 의미 해석은 분석가가 수행해야 한다.
    정답·해설 보기

    정답

    3. 입력변수가 범주형이면 어떠한 방식으로도 군집분석을 할 수 없다.

    해설

    정답: 3. 범주형 변수도 적절한 유사도 척도·변환 방법을 사용하면 군집분석에 활용할 수 있다.

    오답 풀이

    • 1번: 군집분석은 비지도학습으로 종속변수가 필요 없다.
    • 2번: 거리·유사도 척도 선택은 결과에 영향을 준다.
    • 3번: 더미변수화·자카드 거리·고워 거리 등으로 다룰 수 있다.
    • 4번: 군집 의미 부여·라벨링은 분석가의 해석이 필요하다.
  48. 문제 48

    4지선다

    다차원 척도법(MDS)에 대한 설명으로 부적절한 것은?

    • 1.고차원 데이터를 저차원 공간에 표현해 준다.
    • 2.관측치 간 유사성을 바탕으로 배치하므로 군집화와 유사한 시각적 효과를 얻을 수 있다.
    • 3.저차원 지도에서 데이터의 절대적 위치를 정확히 알 수 있다.
    • 4.계량적 방법과 비계량적 방법이 있다.
    정답·해설 보기

    정답

    3. 저차원 지도에서 데이터의 절대적 위치를 정확히 알 수 있다.

    해설

    정답: 3. MDS의 저차원 좌표는 관측치 간 상대적 거리·유사성 해석에 초점이 있으며 절대적 위치 자체가 중요한 것은 아니다.

    오답 풀이

    • 1번: MDS는 고차원 거리 정보를 저차원에 표현한다.
    • 2번: 가까운 점은 유사하므로 군집화와 유사한 시각적 해석이 가능하다.
    • 3번: 중요한 것은 절대 좌표가 아니라 상대적 거리 구조이다.
    • 4번: 계량적 MDS와 비계량적 MDS가 있다.
  49. 문제 49

    4지선다

    계통추출의 정의로 가장 적절한 것은?

    • 1.모집단의 데이터에 일련번호를 부여하고 일정한 간격마다 표본을 추출하는 방법이다.
    • 2.모집단의 각 개체를 동일한 확률로 무작위 추출하는 방법이다.
    • 3.모집단을 서로 겹치지 않는 계층으로 나눈 뒤 각 계층에서 표본을 뽑는 방법이다.
    • 4.여러 단계에 걸쳐 집락이나 표본을 순차적으로 추출하는 방법이다.
    정답·해설 보기

    정답

    1. 모집단의 데이터에 일련번호를 부여하고 일정한 간격마다 표본을 추출하는 방법이다.

    해설

    정답: 1. 계통추출은 번호를 부여한 뒤 일정 간격으로 표본을 선택하는 방법이다.

    오답 풀이

    • 1번: 계통추출의 정의에 해당한다.
    • 2번: 단순임의추출에 대한 설명이다.
    • 3번: 층화추출에 대한 설명이다.
    • 4번: 다단계추출에 대한 설명이다.
  50. 문제 50

    4지선다

    스피어만 상관분석과 피어슨 상관분석에 대한 설명 중 가장 잘못된 것은?

    • 1.스피어만 상관분석은 서열 정보를 이용해 단조 관계를 설명한다.
    • 2.피어슨 상관분석은 수치형 변수의 선형 관계를 설명한다.
    • 3.공분산은 단위의 영향을 받지 않고, 상관계수는 단위의 영향을 받는다.
    • 4.상관계수의 범위는 -1부터 +1까지이다.
    정답·해설 보기

    정답

    3. 공분산은 단위의 영향을 받지 않고, 상관계수는 단위의 영향을 받는다.

    해설

    정답: 3. 공분산은 변수의 단위에 영향을 받고, 상관계수는 표준화되어 단위의 영향을 받지 않는다.

    오답 풀이

    • 1번: 스피어만 상관분석은 순위 기반으로 서열형 자료·단조 관계에 활용된다.
    • 2번: 피어슨 상관분석은 연속형 수치 변수의 선형 관계를 측정한다.
    • 3번: 공분산·상관계수의 단위 영향 설명이 반대로 되어 있어 틀렸다.
    • 4번: 상관계수는 -1 이상 +1 이하의 값을 가진다.

이번엔 직접 풀어보세요

타이머와 자동 채점이 켜진 실제 시험 환경으로 응시할 수 있습니다.

ADsP 다른 회차 기출 복원

함께 읽으면 좋은 글