[ADsP] 2025년 45회 기출 복원

자격증	ADsP(데이터분석 준전문가)
연도	2025년
회차	45회
문항 수	50문항

과목	문항 수	비중
데이터 이해	10문항	20%
데이터 분석 기획	10문항	20%
데이터 분석	30문항	60%

📝 기출문제 전체 보기

데이터분석 준전문가(ADsP) 2025년 45회차 기출 복원입니다. 각 문제 아래의 「정답·해설 보기」를 펼치면 정답과 해설이 나타나요. 실전 시험 환경(타이머·자동 채점·오답 누적)에서 풀어보고 싶다면 글 맨 아래 「직접 풀러가기」를 눌러주세요.

문제 1
4지선다
다음 중 빅데이터 정보를 활용하는 방식으로 가장 부적절한 것은?
- 1.
  기존 방식으로는 얻기 어려웠던 데이터를 새롭게 조합해 활용할 수 있다.
- 2.
  개인정보를 당사자 보호 없이 대규모로 공유한다.
- 3.
  분석 기법의 발전을 통해 기존 데이터에 새로운 의미와 가치를 부여할 수 있다.
- 4.
  빅데이터 예측만을 근거로 아직 발생하지 않은 일에 대한 책임을 묻는 것은 바람직하지 않다.
정답·해설 보기▾▴
정답
2번
개인정보를 당사자 보호 없이 대규모로 공유한다.
해설
정답: 2. 개인정보를 보호 절차 없이 대규모로 공유하는 것은 빅데이터 활용 방식으로 부적절하다.

오답 풀이

1번: 빅데이터는 기존에 없던 방식으로 데이터를 결합해 새로운 가치를 만들 수 있다.

2번: 개인정보는 동의·비식별화·접근 통제 등 보호 원칙을 지켜야 하므로 부적절하다.

3번: 분석 방법 발전으로 기존 데이터에서도 새로운 통찰을 얻을 수 있다.

4번: 예측 결과만으로 사전 책임을 묻는 것은 빅데이터 시대의 윤리적 문제와 관련된다.

보충 개념 빅데이터 활용은 가치 창출이 목표이지만 개인정보 침해·감시·책임 왜곡 등의 위험을 함께 관리해야 한다.
문제 2
4지선다
빅데이터에 대한 설명으로 적절하지 않은 것은?
- 1.
  빅데이터는 수치 데이터뿐 아니라 영상, 이미지, 텍스트 등 다양한 형태의 데이터를 포함한다.
- 2.
  빅데이터 분석을 통해 기존에는 파악하기 어려웠던 통찰을 얻을 수 있다.
- 3.
  빅데이터를 활용하면 이전에는 없던 새로운 서비스를 만들 수 있다.
- 4.
  빅데이터를 활용하더라도 개인 맞춤형 서비스는 제공할 수 없다.
정답·해설 보기▾▴
정답
4번
빅데이터를 활용하더라도 개인 맞춤형 서비스는 제공할 수 없다.
해설
정답: 4. 빅데이터는 개인 맞춤형 추천·타깃 마케팅·맞춤형 의료 등 개인화 서비스에 활용될 수 있다.

오답 풀이

1번: 빅데이터는 정형뿐 아니라 비정형 데이터까지 포함한다.

2번: 대량 데이터 분석으로 기존에 찾기 어려운 패턴·통찰을 얻을 수 있다.

3번: 빅데이터는 새로운 비즈니스 모델·서비스를 가능하게 한다.

4번: 개인 맞춤형 서비스는 빅데이터의 대표적 활용 분야이므로 틀린 설명이다.
문제 3
4지선다
DIKW 모델에서 데이터(Data)에 대한 설명으로 가장 적절하지 않은 것은?
- 1.
  정보는 데이터를 가공하고 의미를 부여한 결과이다.
- 2.
  데이터는 지식과 아이디어가 결합된 창의적 산물이다.
- 3.
  지식은 정보를 경험과 맥락에 따라 내재화하면서 형성된다.
- 4.
  데이터는 객관적인 사실이나 관찰값에 기반한다.
정답·해설 보기▾▴
정답
2번
데이터는 지식과 아이디어가 결합된 창의적 산물이다.
해설
정답: 2. DIKW 모델에서 데이터는 가공 전의 객관적 사실이며, 지식과 아이디어가 결합된 창의적 산물은 지혜에 가깝다.

오답 풀이

1번: 정보는 데이터에 의미와 맥락을 부여한 것이다.

2번: 데이터는 창의적 판단의 결과가 아니라 원천 사실에 가깝다.

3번: 지식은 정보를 경험·규칙·맥락 속에서 이해하고 내재화한 것이다.

4번: 데이터는 관찰·측정된 객관적 사실로 볼 수 있다.

보충 개념 DIKW는 Data → Information → Knowledge → Wisdom 의 계층 구조이다.
문제 4
4지선다
데이터의 일관성과 정확성을 유지하고 검증하는 DBMS의 특징은?
- 1.
  데이터의 통합성
- 2.
  데이터의 공용성
- 3.
  데이터의 무결성
- 4.
  데이터의 변화성
정답·해설 보기▾▴
정답
3번
데이터의 무결성
해설
정답: 3. 데이터의 정확성·일관성·유효성을 유지하는 특성은 무결성이다.

오답 풀이

1번: 통합성은 흩어진 데이터를 중복을 줄여 통합 관리하는 성격이다.

2번: 공용성은 여러 사용자가 데이터를 공동 활용할 수 있음을 의미한다.

3번: 무결성은 데이터가 정확하고 일관된 상태를 유지하도록 제약·검증하는 특성이다.

4번: 변화성은 데이터가 현실 변화를 반영해 갱신될 수 있음을 의미한다.
문제 5
4지선다
다음 중 데이터베이스의 특징으로 적절하지 않은 것은?
- 1.
  데이터베이스는 사용자 모두가 반드시 동일한 목적만으로 데이터를 활용하도록 설계된다.
- 2.
  데이터베이스는 여러 사용자가 원격으로 접속해 사용할 수 있다.
- 3.
  데이터베이스의 데이터는 일관성과 지속성을 유지하도록 관리된다.
- 4.
  데이터베이스의 데이터는 권한이 있는 사용자가 접근하고 변경할 수 있어야 한다.
정답·해설 보기▾▴
정답
1번
데이터베이스는 사용자 모두가 반드시 동일한 목적만으로 데이터를 활용하도록 설계된다.
해설
정답: 1. 데이터베이스는 여러 사용자가 다양한 목적으로 공동 활용할 수 있도록 설계된다.

오답 풀이

1번: 모든 사용자가 동일 목적만 가져야 한다는 설명은 공용성과 맞지 않는다.

2번: DBMS는 네트워크를 통한 원격 접근과 다중 사용자 환경을 지원한다.

3번: 데이터베이스는 일관성·지속성·무결성을 유지하도록 관리된다.

4번: 권한이 있는 사용자는 필요한 범위에서 접근·변경할 수 있어야 한다.
문제 6
4지선다
자동차 회사가 엔지니어링 요소와 에너지 사용의 최적 조합을 찾아 연료 효율성을 극대화하는 차량 설계를 연구했다. 이때 가장 적절한 알고리즘은?
- 1.
  회귀 알고리즘
- 2.
  유전 알고리즘
- 3.
  연관 규칙 알고리즘
- 4.
  군집화 알고리즘
정답·해설 보기▾▴
정답
2번
유전 알고리즘
해설
정답: 2. 최적 조합을 탐색해 성능을 개선하는 문제에는 유전 알고리즘이 적합하다.

오답 풀이

1번: 회귀는 변수 간 관계를 모델링·예측한다.

2번: 유전 알고리즘은 선택·교차·변이로 최적해를 탐색하는 최적화 기법이다.

3번: 연관 규칙은 항목 간 동시 발생 관계 탐색 기법이다.

4번: 군집화는 유사 객체를 묶는 비지도 학습 기법이다.
문제 7
4지선다
개인정보 비식별화 기술에 대한 설명으로 가장 부적절한 것은?
- 1.
  총계처리는 개별 데이터가 드러나지 않도록 합계, 평균 같은 통계값으로 표현한다.
- 2.
  가명처리는 개인정보 주체를 직접 식별할 수 있는 이름 등을 다른 값으로 대체한다.
- 3.
  범주화는 정확한 값을 그대로 공개하지 않고 구간이나 범주로 바꾸어 표현한다.
- 4.
  마스킹은 개인정보 식별이 가능한 값을 원래 의미가 유지되도록 모두 공개하는 방법이다.
정답·해설 보기▾▴
정답
4번
마스킹은 개인정보 식별이 가능한 값을 원래 의미가 유지되도록 모두 공개하는 방법이다.
해설
정답: 4. 마스킹은 식별 가능한 일부 값을 가리거나 대체해 노출을 줄이는 방법이지, 원값을 모두 공개하는 방법이 아니다.

오답 풀이

1번: 총계처리는 개별 식별 가능성을 낮추기 위해 집계값을 제공한다.

2번: 가명처리는 이름·식별자 등을 가명·임의값으로 대체한다.

3번: 범주화는 27세 → 20대처럼 넓은 범주로 대체한다.

4번: 마스킹은 주민번호 일부 별표 처리처럼 값을 가리는 기술이다.
문제 8
4지선다
빅데이터 분석 및 활용의 최종 목표로 가장 적절한 것은?
- 1.
  데이터 처리 효율성을 높이는 것
- 2.
  다양한 분석 관점을 많이 도출하는 것
- 3.
  기존에는 없던 새로운 가치를 창출하는 것
- 4.
  많은 사용자가 공감할 수 있는 분석 결과를 만드는 것
정답·해설 보기▾▴
정답
3번
기존에는 없던 새로운 가치를 창출하는 것
해설
정답: 3. 빅데이터 분석의 핵심 목표는 데이터를 통해 새로운 가치·통찰을 창출하는 것이다.

오답 풀이

1번: 효율성 제고는 수단이지 최종 목표가 아니다.

2번: 다양한 관점 도출은 가치 창출을 위한 과정이다.

3번: 빅데이터 활용의 궁극적 목적은 새로운 가치 창출이다.

4번: 공감 가능한 결과는 중요하지만 최종 목표를 가장 잘 나타내지 않는다.
문제 9
4지선다
빅데이터 시대의 위기 요인에 대한 해결 방안으로 적절하지 않은 것은?
- 1.
  개인정보 활용에 대한 동의 절차를 강화한다.
- 2.
  개인정보 사용자의 책임을 강화한다.
- 3.
  결과 기반 책임 원칙을 강화한다.
- 4.
  알고리즘에 대한 접근권과 설명 가능성을 높인다.
정답·해설 보기▾▴
정답
1번
개인정보 활용에 대한 동의 절차를 강화한다.
해설
정답: 1. 빅데이터 시대에는 모든 활용 사례에 대한 사전 동의가 사실상 어려우므로 동의제에서 책임제로의 전환이 사생활 침해 위기에 대한 핵심 해결책이다.

오답 풀이

1번: 사전 동의 절차 강화는 빅데이터의 다양한 재활용 시나리오에서 한계가 있어 시대 흐름과 맞지 않는다.

2번: 사용자 책임 강화는 동의제에서 책임제로 전환하는 표준 대응책이다.

3번: 결과 기반 책임 원칙은 책임 원칙 훼손(잠재 위협 기반 처벌)에 대한 대응책이다.

4번: 알고리즘 접근권·설명 가능성 확대는 데이터 오용에 대한 표준 대응책이다.
문제 10
4지선다
다음 중 데이터 활용 사례로 적절하지 않은 것은?
- 1.
  마케팅 캠페인의 전환율을 분석해 타깃 계층을 최적화한다.
- 2.
  사용자 후기를 분석해 서비스 만족도와 개선 지점을 파악한다.
- 3.
  과거 가스 사용량을 바탕으로 향후 24시간 공급량을 최적화한다.
- 4.
  전문가와의 심층 면담만으로 업무 절차를 개선한다.
정답·해설 보기▾▴
정답
4번
전문가와의 심층 면담만으로 업무 절차를 개선한다.
해설
정답: 4. 전문가 심층 면담은 정성 조사 방법에 가깝고, 제시된 보기 중 데이터 활용 사례로는 가장 부적절하다.

오답 풀이

1번: 전환율 데이터 분석은 마케팅 최적화의 대표적 사례이다.

2번: 후기 텍스트 분석은 고객 만족도 분석에 활용된다.

3번: 과거 사용량 데이터로 수요를 예측하고 공급을 최적화할 수 있다.

4번: 면담 자체는 데이터 기반 분석이라기보다 정성 의견 수집에 해당한다.
문제 11
4지선다
분석 준비도 진단 시 고려 대상이 아닌 것은?
- 1.
  분석 인력과 조직
- 2.
  분석 비용
- 3.
  분석 인프라
- 4.
  분석 문화
정답·해설 보기▾▴
정답
2번
분석 비용
해설
정답: 2. 분석 준비도는 분석 업무·인력 및 조직·분석 기법·분석 데이터·분석 문화·분석 인프라를 중심으로 진단한다.

오답 풀이

1번: 분석 인력과 조직은 진단의 핵심 요소이다.

2번: 분석 비용은 일반 사업 검토 요소일 수 있으나 진단의 대표 축은 아니다.

3번: 분석 인프라는 환경·도구 측면의 진단 요소이다.

4번: 분석 문화는 조직의 데이터 활용 수용성을 평가한다.
문제 12
4지선다
분석 과제에서 고려해야 할 요소에 대한 설명으로 올바른 것은?
- 1.
  활용성 측면에서는 정밀도, 안정성 측면에서는 정확도가 항상 더 중요하다.
- 2.
  정확도를 높이면 모형의 해석 가능성이 낮아질 수 있다.
- 3.
  데이터 양이 크더라도 반드시 로컬 저장소에 데이터를 보관해야 한다.
- 4.
  분석 초기에 정형 데이터만 확보하는 데 집중해야 한다.
정답·해설 보기▾▴
정답
2번
정확도를 높이면 모형의 해석 가능성이 낮아질 수 있다.
해설
정답: 2. 복잡한 알고리즘으로 정확도를 높이면 해석 가능성이 낮아지는 trade-off가 발생할 수 있다.

오답 풀이

1번: 정밀도와 정확도의 중요도는 목적·상황에 따라 다르다.

2번: 정확도와 해석 가능성은 자주 고려하는 trade-off이다.

3번: 대용량 데이터는 분산 저장소·클라우드·DW 등 적절한 인프라를 선택해야 한다.

4번: 분석 대상에 따라 정형·반정형·비정형 데이터를 함께 고려할 수 있다.
문제 13
4지선다
상향식 접근 방법에 대한 설명 중 옳지 않은 것은?
- 1.
  Bottom-up 접근에 해당한다.
- 2.
  주로 비지도학습 방식으로 데이터를 탐색하며 문제를 발견한다.
- 3.
  문제가 명확히 정의된 상태에서 정해진 답을 찾는 방식이다.
- 4.
  프로토타이핑 방식도 상향식 접근의 한 형태로 볼 수 있다.
정답·해설 보기▾▴
정답
3번
문제가 명확히 정의된 상태에서 정해진 답을 찾는 방식이다.
해설
정답: 3. 문제가 명확히 정의된 상태에서 해결책을 찾는 방식은 하향식 접근에 가깝다.

오답 풀이

1번: 상향식 접근은 Bottom-up 접근이다.

2번: 데이터를 탐색하며 숨은 패턴이나 문제를 찾는 경우가 많다.

3번: 명확한 문제에서 출발하는 것은 Top-down 접근의 특징이다.

4번: 프로토타이핑은 데이터 탐색과 실험으로 문제·해법을 구체화하므로 상향식과 관련된다.
문제 14
4지선다
전사 차원의 모든 데이터 관리 정책, 프로세스, 운영 조직 등을 포함하는 표준화된 관리 체계는?
- 1.
  정보전략계획(ISP)
- 2.
  표준 데이터 생성
- 3.
  분석 거버넌스
- 4.
  데이터 거버넌스
정답·해설 보기▾▴
정답
4번
데이터 거버넌스
해설
정답: 4. 전사 데이터의 정책·표준·조직·프로세스를 관리하는 체계는 데이터 거버넌스이다.

오답 풀이

1번: ISP는 정보시스템 구축·운영을 위한 중장기 전략 계획이다.

2번: 표준 데이터 생성은 데이터 표준화 활동의 일부이다.

3번: 분석 거버넌스는 분석 과제·조직·활용 체계 관리에 초점이 있다.

4번: 데이터 거버넌스는 전사 데이터 관리의 원칙·체계를 의미한다.
문제 15
4지선다
분석 방법은 알고 있으나 분석 대상을 모를 때 적용하는 분석 기획 유형으로 적합한 것은?
- 1.
  최적화(Optimization)
- 2.
  통찰(Insight)
- 3.
  솔루션(Solution)
- 4.
  발견(Discovery)
정답·해설 보기▾▴
정답
2번
통찰(Insight)
해설
정답: 2. 분석 방법은 있으나 무엇을 분석할지 명확하지 않은 경우는 통찰 유형에 해당한다.

오답 풀이

1번: 최적화는 대상·방법이 모두 명확한 경우에 가깝다.

2번: 통찰은 분석 방법은 있으나 대상을 탐색해야 하는 유형이다.

3번: 솔루션은 분석 대상은 있으나 해결 방법을 찾아야 하는 유형이다.

4번: 발견은 대상·방법이 모두 불명확해 탐색적으로 접근하는 유형이다.
문제 16
4지선다
과제 우선순위를 평가할 때 본원적 업무와의 직접적인 연관성 및 이슈 미해결 시 발생할 수 있는 위험이나 손실의 정도를 나타내는 기준은?
- 1.
  전략적 필요성
- 2.
  비즈니스 성과와 ROI
- 3.
  투자의 용이성
- 4.
  기술적 용이성
정답·해설 보기▾▴
정답
1번
전략적 필요성
해설
정답: 1. 본원적 업무와의 관련성, 미해결 시 위험·손실은 전략적 필요성에 해당한다.

오답 풀이

1번: 전략적 필요성은 조직의 핵심 업무·목표 달성에 얼마나 중요한지를 평가한다.

2번: 비즈니스 성과와 ROI는 기대 수익·비용 대비 효과에 초점을 둔다.

3번: 투자의 용이성은 예산·자원 확보의 쉬움과 관련된다.

4번: 기술적 용이성은 분석 기술·데이터·시스템 구현 가능성과 관련된다.
문제 17
4지선다
데이터 분석 성숙도 모델의 4분면에서 분석 업무와 분석 기법은 부족하지만 조직 및 인력 등 준비도가 높아 데이터 분석을 바로 시행할 수 있는 기업의 분석 수준은?
- 1.
  도입형
- 2.
  준비형
- 3.
  정착형
- 4.
  확산형
정답·해설 보기▾▴
정답
1번
도입형
해설
정답: 1. ADsP 분석 성숙도 4분면에서 조직·인력 등 준비도는 높지만 분석 업무·기법 등 성숙도가 낮은 영역은 도입형에 해당한다.

오답 풀이

1번: 도입형은 준비도는 갖췄으나 분석 업무·기법이 부족해 분석을 시작하는 단계이다.

2번: 준비형은 준비도와 성숙도가 모두 낮은 유형이다.

3번: 정착형은 준비도는 낮지만 성숙도는 일정 수준 갖춘 유형이다.

4번: 확산형은 준비도와 성숙도가 모두 높아 전사적으로 분석을 활용한다.
문제 18
4지선다
하향식 접근법의 분석 과제 도출 단계를 올바른 순서로 나열한 것은?

<보기> 가. 문제 정의 나. 문제 탐색 다. 해결방안 탐색 라. 타당성 검토
- 1.
  가 → 나 → 다 → 라
- 2.
  나 → 가 → 다 → 라
- 3.
  가 → 나 → 라 → 다
- 4.
  나 → 가 → 라 → 다
정답·해설 보기▾▴
정답
2번
나 → 가 → 다 → 라
해설
정답: 2. 하향식 접근법은 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토 순서로 진행된다.

오답 풀이

1번: 문제 정의보다 문제 탐색이 먼저 수행되어야 한다.

2번: 나→가→다→라가 적절한 순서이다.

3번: 시작 순서가 잘못되고 타당성 검토가 해결방안 탐색보다 앞서 있다.

4번: 해결방안 탐색과 타당성 검토 순서가 바뀌었다.
문제 19
4지선다
분석 기획 시 고려사항에 해당하지 않는 것은?
- 1.
  필요한 데이터 확보 가능성을 고려한다.
- 2.
  가치 창출 방법과 활용 사례를 고려한다.
- 3.
  지속적인 교육과 활용 확산을 위한 변화 관리를 고려한다.
- 4.
  항상 최신 분석기법을 사용하는 것을 최우선으로 한다.
정답·해설 보기▾▴
정답
4번
항상 최신 분석기법을 사용하는 것을 최우선으로 한다.
해설
정답: 4. 분석 기획에서는 문제 해결에 적합한 방법을 선택해야 하며, 최신 기법 사용 자체가 목적은 아니다.

오답 풀이

1번: 데이터 확보 가능성은 분석 기획의 핵심 고려사항이다.

2번: 분석이 어떤 가치를 만들고 어떻게 활용될지 고려해야 한다.

3번: 분석 결과가 정착되려면 교육·변화 관리가 필요하다.

4번: 최신 기법보다 문제 적합성·해석 가능성·운영 가능성이 더 중요할 수 있다.
문제 20
4지선다
다음 두 설명에 해당하는 분석 태스크는?

<보기>
- 데이터의 정합성을 검토하고 특성을 파악한다.
- 데이터를 시각화하고 요약하여 숨겨진 패턴, 관계, 이상값 등을 발견한다.
- 1.
  텍스트 분석
- 2.
  예측 분석
- 3.
  탐색적 데이터 분석
- 4.
  정량적 분석
정답·해설 보기▾▴
정답
3번
탐색적 데이터 분석
해설
정답: 3. 데이터 특성·패턴·이상값을 시각화·요약 통계로 파악하는 것은 탐색적 데이터 분석(EDA)이다.

오답 풀이

1번: 텍스트 분석은 비정형 텍스트 분석 기법이다.

2번: 예측 분석은 미래 값·분류 결과 예측에 초점이 있다.

3번: EDA는 데이터 구조·특징을 이해하기 위한 초기 분석이다.

4번: 정량적 분석은 수치 데이터를 이용한 분석 전반을 의미한다.
문제 21
4지선다
다음 해석으로 옳지 않은 것은?

<출력 요약>
- weight Q1: 204.5
- weight Median: 258.0
- weight Mean: 261.3
- weight Q3: 323.5
- feed: 사료 종류를 나타내는 범주형 변수
- 1.
  weight 값의 25%는 weight의 Q1보다 크다.
- 2.
  weight의 IQR은 119이다.
- 3.
  평균이 중앙값보다 크면 오른쪽 꼬리가 긴 양의 왜도로 해석할 수 있다.
- 4.
  feed는 명목형 변수이다.
정답·해설 보기▾▴
정답
1번
weight 값의 25%는 weight의 Q1보다 크다.
해설
정답: 1. Q1은 제1사분위수이므로 일반적으로 전체 값의 약 25%가 Q1 이하, 약 75%가 Q1 이상에 위치한다.

오답 풀이

1번: Q1보다 큰 값은 보통 약 75%이므로 25%라고 하면 잘못된 설명이다.

2번: IQR = Q3 - Q1 = 323.5 - 204.5 = 119이다.

3번: 평균이 중앙값보다 크면 일반적으로 양의 왜도를 의심할 수 있다.

4번: feed처럼 종류 구분 범주 변수는 명목형이다.
문제 22
4지선다
상관계수에 대한 설명 중 틀린 것은?
- 1.
  상관계수가 -1일 때 상관관계가 가장 약하다는 뜻이다.
- 2.
  상관계수는 -1 이상 +1 이하의 값을 가진다.
- 3.
  상관계수가 양수이면 두 변수 사이에 양의 선형 관계가 있음을 의미한다.
- 4.
  상관계수의 통계적 유의성은 가설 검정을 통해 확인할 수 있다.
정답·해설 보기▾▴
정답
1번
상관계수가 -1일 때 상관관계가 가장 약하다는 뜻이다.
해설
정답: 1. 상관계수 -1은 완전한 음의 선형관계를 의미하므로 상관관계가 가장 약한 상태가 아니다.

오답 풀이

1번: 상관관계가 약한 상태는 상관계수가 0에 가까운 경우이다.

2번: 피어슨 상관계수의 범위는 -1 ~ +1이다.

3번: 양수 상관은 한 변수 증가 시 다른 변수도 증가하는 경향을 의미한다.

4번: 상관계수 유의성은 가설 검정으로 판단할 수 있다.

문제 23

4지선다

상관성 분석 결과의 해석으로 틀린 것은?

<iris 데이터 상관계수 행렬 요약>

변수쌍	상관계수
Sepal.Length - Sepal.Width	-0.118
Sepal.Length - Petal.Length	0.872
Sepal.Length - Petal.Width	0.818
Sepal.Width - Petal.Length	-0.428
Sepal.Width - Petal.Width	-0.366
Petal.Length - Petal.Width	0.963

1.
Sepal.Length와 가장 상관성이 높은 변수는 Petal.Length이다.
2.
가장 상관성이 낮은 경우는 Petal.Length와 Petal.Width이다.
3.
Sepal.Length가 길수록 Sepal.Width는 좁아지는 추세가 있다.
4.
Petal.Length가 길수록 Petal.Width도 커지는 추세가 있다.

정답·해설 보기▾

정답

2번

가장 상관성이 낮은 경우는 Petal.Length와 Petal.Width이다.

해설

정답: 2. Petal.Length-Petal.Width 의 상관계수는 약 0.963 으로 매우 강한 양의 상관관계이므로 가장 상관성이 낮다는 설명은 틀렸다.

오답 풀이

1번: Sepal.Length는 Petal.Length와 약 0.872로 비교적 높은 양의 상관을 가진다.
2번: Petal.Length-Petal.Width는 가장 강한 양의 상관에 가까우므로 부적절하다.
3번: Sepal.Length-Sepal.Width 약 -0.118의 음의 상관이라 약한 추세로 해석할 수 있다.
4번: Petal.Length-Petal.Width는 약 0.963의 강한 양의 상관을 보인다.

문제 24
4지선다
다음 회귀분석 결과에 대한 해석으로 옳지 않은 것은?

<회귀분석 결과 요약>
- Multiple R-squared: 0.7067
- Adjusted R-squared: 0.6710
- Education의 p-value: 0.05 미만
- Agriculture의 p-value: 0.05 이상
- 1.
  모델의 설명력은 70.67%이다.
- 2.
  Adjusted R-squared 값은 67.1%이다.
- 3.
  Education은 5% 유의수준에서 통계적으로 유의하다.
- 4.
  Education이 Fertility 변동의 원인이라고 단정할 수 있다.
정답·해설 보기▾▴
정답
4번
Education이 Fertility 변동의 원인이라고 단정할 수 있다.
해설
정답: 4. 회귀분석 결과에서 유의한 관계가 나타났다고 해서 곧바로 인과관계를 단정할 수는 없다.

오답 풀이

1번: R-squared 0.7067 → 모델 설명력 약 70.67%이다.

2번: Adjusted R-squared 0.671 → 약 67.1%이다.

3번: Education p-value < 0.05 → 5% 유의수준에서 유의하다.

4번: 회귀분석은 관계를 설명할 수 있지만 관찰자료만으로 인과 단정은 어렵다.
문제 25
4지선다
모델이 참이라고 예측한 것 중에서 실제로도 참인 비율을 나타내는 지표는?
- 1.
  재현율
- 2.
  민감도
- 3.
  정밀도
- 4.
  정확도
정답·해설 보기▾▴
정답
3번
정밀도
해설
정답: 3. 모델이 양성으로 예측한 것 중 실제 양성 비율은 정밀도이다.

오답 풀이

1번: 재현율은 실제 양성 중 모델이 양성으로 맞힌 비율이다.

2번: 민감도는 재현율과 같은 의미이다.

3번: 정밀도 = TP / (TP + FP)이다.

4번: 정확도는 전체 예측 중 맞힌 비율이다.
문제 26
4지선다
다음 중 연속형 변수 간 유사성 또는 거리를 측정하는 방법으로 적절하지 않은 것은?
- 1.
  마할라노비스 거리
- 2.
  유클리드 거리
- 3.
  체비셰프 거리
- 4.
  자카드 거리
정답·해설 보기▾▴
정답
4번
자카드 거리
해설
정답: 4. 자카드 거리는 주로 집합·이진형 데이터의 유사도 측정에 사용되며, 일반적인 연속형 변수 거리로는 적절하지 않다.

오답 풀이

1번: 마할라노비스 거리는 변수 간 공분산 구조를 고려한 거리이다.

2번: 유클리드 거리는 연속형 변수의 대표적 거리이다.

3번: 체비셰프 거리는 좌표별 차이 중 최댓값을 거리로 사용한다.

4번: 자카드 거리는 두 집합의 교집합·합집합으로 정의된다.
문제 27
4지선다
ROC 곡선에서 가장 이상적인 분류 성능을 나타내는 좌표는?
- 1.
  (0, 1)
- 2.
  (1, 0)
- 3.
  (1, 1)
- 4.
  (0, 0)
정답·해설 보기▾▴
정답
1번
(0, 1)
해설
정답: 1. ROC 곡선에서 x축 FPR, y축 TPR이므로 이상적 점은 FPR 0, TPR 1인 (0, 1)이다.

오답 풀이

1번: 거짓 양성률 0, 참 양성률 1 — 가장 이상적이다.

2번: FPR 1, TPR 0 — 매우 나쁜 결과이다.

3번: TPR 높지만 FPR도 1이라 이상적이지 않다.

4번: FPR 낮지만 TPR도 0이라 양성을 전혀 못 맞힌다.
문제 28
4지선다
앙상블 기법인 배깅(Bagging)과 부스팅(Boosting)에 대한 설명으로 적절한 것은?
- 1.
  부스팅은 이전에 잘못 분류된 데이터에 더 큰 가중치를 부여한다.
- 2.
  배깅은 재표본 추출을 사용하지 않는다.
- 3.
  배깅은 언제나 단일 모형보다 높은 정확도를 보장한다.
- 4.
  부스팅은 과적합 문제를 항상 방지한다.
정답·해설 보기▾▴
정답
1번
부스팅은 이전에 잘못 분류된 데이터에 더 큰 가중치를 부여한다.
해설
정답: 1. 부스팅은 이전 학습에서 틀린 관측치에 더 큰 가중치를 부여해 순차적으로 모형을 개선한다.

오답 풀이

1번: 부스팅의 대표적 특징이다.

2번: 배깅은 bootstrap 표본으로 여러 모델을 학습한다.

3번: 배깅은 분산을 줄이지만 항상 정확도 향상을 보장하지 않는다.

4번: 부스팅도 설정에 따라 과적합이 발생할 수 있다.
문제 29
4지선다
인공신경망 모형에 대한 설명으로 옳지 않은 것은?
- 1.
  은닉층의 개수가 많아진다고 해서 정확도가 항상 높아지는 것은 아니다.
- 2.
  각 은닉층의 노드 수는 분석가가 직접 설정해야 하는 하이퍼파라미터이다.
- 3.
  학습된 가중치를 해석해 항상 명확한 설명 변수를 선별할 수 있다.
- 4.
  은닉층의 활성화 함수에 따라 선형 또는 비선형 모델링이 가능하다.
정답·해설 보기▾▴
정답
3번
학습된 가중치를 해석해 항상 명확한 설명 변수를 선별할 수 있다.
해설
정답: 3. 인공신경망은 일반적으로 해석 가능성이 낮으며, 가중치만으로 설명력 있는 변수를 항상 명확히 선별하기 어렵다.

오답 풀이

1번: 은닉층 증가가 항상 성능 향상을 보장하지 않으며 과적합이 발생할 수 있다.

2번: 은닉층 수·노드 수는 대표적 하이퍼파라미터이다.

3번: 신경망은 블랙박스 성격이 강해 가중치 해석이 쉽지 않다.

4번: 비선형 활성화 함수를 사용하면 복잡한 비선형 관계를 학습할 수 있다.
문제 30
4지선다
로지스틱 회귀분석의 적용 사례로 가장 적절한 것은?
- 1.
  시험 점수 같은 연속형 값 예측
- 2.
  마케팅 캠페인의 성공 여부 예측
- 3.
  정년까지 남은 기간 예측
- 4.
  상품 판매량 예측
정답·해설 보기▾▴
정답
2번
마케팅 캠페인의 성공 여부 예측
해설
정답: 2. 로지스틱 회귀분석은 성공/실패·이탈/유지처럼 범주형 결과를 예측하는 데 사용된다.

오답 풀이

1번: 시험 점수는 연속형 종속변수이므로 선형회귀가 더 적절하다.

2번: 성공 여부는 이항 범주형이므로 로지스틱 회귀에 적합하다.

3번: 남은 기간은 연속형 값이라 일반 회귀·생존분석을 고려한다.

4번: 판매량은 수치형이라 일반 회귀가 적합하다.
문제 31
4지선다
척도에 대한 설명으로 올바르게 짝지어진 것은?
- 1.
  정수 0~5 중 하나를 선택하는 값은 연속형 척도이다.
- 2.
  교통사고의 확률은 순서형 척도이다.
- 3.
  몸무게는 이산형 척도이다.
- 4.
  고향이 수도권인지 비수도권인지 구분하는 값은 명목척도이다.
정답·해설 보기▾▴
정답
4번
고향이 수도권인지 비수도권인지 구분하는 값은 명목척도이다.
해설
정답: 4. 수도권/비수도권처럼 순서가 없는 범주 구분은 명목척도이다.

오답 풀이

1번: 정수 0~5 선택은 보통 이산·순서형이며 연속형은 아니다.

2번: 확률은 0과 1 사이의 수치형 비율척도에 가깝다.

3번: 몸무게는 연속형 비율척도이다.

4번: 수도권/비수도권은 순서 없는 범주이므로 명목척도이다.
문제 32
4지선다
범주형 자료 분석에 대한 설명 중 틀린 것은?
- 1.
  적합도 검정은 관찰도수와 기대도수가 얼마나 일치하는지 검정한다.
- 2.
  범주의 특성에 따라 비교 기준이 되는 기대도수를 계산해 사용할 수 있다.
- 3.
  동질성 검정은 여러 집단의 범주별 분포가 동일한지 검정한다.
- 4.
  독립성 검정은 서로 다른 요인들이 관찰값에 영향을 주는지 여부를 검정한다.
정답·해설 보기▾▴
정답
4번
독립성 검정은 서로 다른 요인들이 관찰값에 영향을 주는지 여부를 검정한다.
해설
정답: 4. 독립성 검정은 두 범주형 변수가 서로 독립인지(관련성이 있는지)를 검정하는 방법이다. 따라서 서로 다른 요인들이 관찰값에 영향을 주는지 여부를 검정한다는 설명은 정확하지 않다.

오답 풀이

1번: 적합도 검정은 관찰도수와 기대도수의 일치 정도를 검정한다.

2번: 범주 특성·가정 분포에 따라 기대도수를 계산해 사용한다.

3번: 동질성 검정은 여러 집단의 범주별 분포 동일성을 검정한다.

4번: 독립성 검정은 두 범주형 변수의 관련성 여부를 검정하는 것이다.
문제 33
4지선다
기술통계와 관련된 설명 중 틀린 것은?
- 1.
  기술통계량에는 평균과 중앙값이 포함된다.
- 2.
  결측치는 모두 0으로 변환한 뒤 계산해야 한다.
- 3.
  기술통계에서는 표본을 이용해 통계량을 계산할 수 있다.
- 4.
  이상값은 상자그림을 통해 비교적 쉽게 확인할 수 있다.
정답·해설 보기▾▴
정답
2번
결측치는 모두 0으로 변환한 뒤 계산해야 한다.
해설
정답: 2. 결측치를 무조건 0으로 대체하면 통계량이 왜곡될 수 있다.

오답 풀이

1번: 평균·중앙값·분산·표준편차는 대표적 기술통계량이다.

2번: 결측치는 삭제·대체·모델 기반 보정 등 상황에 맞게 처리해야 한다.

3번: 표본 자료로 평균·중앙값·분산을 계산할 수 있다.

4번: 상자그림은 사분위수·이상값 시각화에 유용하다.
문제 34
4지선다
다음 중 시계열 데이터의 정상성을 확보하는 방법으로 옳은 것은?
- 1.
  차분 연산 적용
- 2.
  분산제곱 통계량 적용
- 3.
  이상치 제거만 수행
- 4.
  결측값 제거만 수행
정답·해설 보기▾▴
정답
1번
차분 연산 적용
해설
정답: 1. 추세가 있는 시계열은 차분을 통해 정상성을 확보할 수 있다.

오답 풀이

1번: 차분은 현재 값과 이전 값의 차이로 추세를 제거하는 대표 방법이다.

2번: 분산제곱 통계량은 정상성 확보 방법으로 보기 어렵다.

3번: 이상치 제거만으로는 정상성 확보가 부족하다.

4번: 결측값 제거만으로도 정상성 확보 방법으로 부족하다.
문제 35
4지선다
시계열 분해에 대한 설명 중 잘못된 것은?
- 1.
  계절요인은 일정 주기를 가지고 반복적으로 나타나는 규칙적 변동이다.
- 2.
  순환요인은 경제나 자연현상 등과 관련된 장기적 주기 변동을 의미한다.
- 3.
  불규칙요인은 다른 요인들로 설명되지 않는 우연적 변동이다.
- 4.
  추세요인은 짧은 순간마다 무작위로 상승과 하락을 반복하는 성분이다.
정답·해설 보기▾▴
정답
4번
추세요인은 짧은 순간마다 무작위로 상승과 하락을 반복하는 성분이다.
해설
정답: 4. 추세요인은 장기간에 걸쳐 지속적으로 증가·감소하는 방향성 있는 패턴이다.

오답 풀이

1번: 계절요인은 월·분기·요일처럼 일정 주기로 반복되는 변동이다.

2번: 순환요인은 경기 변동처럼 주기가 일정하지 않은 장기 변동이다.

3번: 불규칙요인은 잔차적 변동이다.

4번: 무작위 반복 변동은 추세보다 불규칙요인에 가깝다.
문제 36
4지선다
분석 결과에 따른 회귀식으로 올바른 것은?

<단순선형회귀분석 결과 요약>

항목 Estimate
(Intercept) -17.5791
X 3.9324
- 1.
  f(X) = 6.07584 + 0.4155 * X
- 2.
  f(X) = 0.4155 + 6.07584 * X
- 3.
  f(X) = -17.5791 + 3.9324 * X
- 4.
  f(X) = -17.5791 + 6.7584 * X
정답·해설 보기▾▴
정답
3번
f(X) = -17.5791 + 3.9324 * X
해설
정답: 3. 회귀식은 절편 + 기울기 × X 형태로 작성하며, 출력의 절편과 기울기를 그대로 대입한다.

오답 풀이

1번: 출력의 값과 다르다.

2번: 절편·기울기 위치가 바뀌었다.

3번: 절편 -17.5791, 기울기 3.9324 → 올바른 회귀식이다.

4번: 기울기 값이 출력과 다르다.
문제 37
4지선다
선형회귀분석의 가정에 대한 설명 중 옳지 않은 것은?
- 1.
  독립성은 독립변수 간에 서로 관련이 없어야 한다는 의미이다.
- 2.
  선형성은 독립변수 변화에 따라 종속변수가 선형적으로 변한다는 의미이다.
- 3.
  정규성은 잔차의 분포가 정규분포를 따른다는 의미이다.
- 4.
  등분산성은 잔차의 분산이 모든 관측치에서 일정하다는 의미이다.
정답·해설 보기▾▴
정답
1번
독립성은 독립변수 간에 서로 관련이 없어야 한다는 의미이다.
해설
정답: 1. 회귀분석의 독립성 가정은 주로 오차항·관측치 간 독립성을 의미하며, 독립변수 간 관련 없음은 다중공선성 문제에 가깝다.

오답 풀이

1번: 독립변수 간 무상관은 독립성 가정보다 다중공선성 회피와 관련된다.

2번: 선형성은 독립·종속변수 관계가 선형이라는 가정이다.

3번: 정규성은 잔차가 정규분포를 따른다는 가정이다.

4번: 등분산성은 오차의 분산이 일정하다는 가정이다.
문제 38
4지선다
회귀식을 만들 때 독립변수 후보를 모두 포함한 모형에서 시작해 변수를 하나씩 제거하는 변수선택법은?
- 1.
  전진선택법
- 2.
  후진제거법
- 3.
  단계별선택법
- 4.
  혼합선택법
정답·해설 보기▾▴
정답
2번
후진제거법
해설
정답: 2. 모든 후보 변수를 포함한 뒤 유의하지 않은 변수를 제거해 가는 방식은 후진제거법이다.

오답 풀이

1번: 전진선택법은 변수가 없는 모형에서 시작해 하나씩 추가한다.

2번: 후진제거법은 전체 모형에서 시작해 변수를 제거한다.

3번: 단계별선택법은 추가·제거를 반복적으로 함께 고려한다.

4번: 혼합선택법은 전진·후진을 결합한 개념이다.
문제 39
4지선다
주성분 분석에 대한 설명으로 틀린 것은?
- 1.
  각 주성분을 만들기 위한 가중치가 산출된다.
- 2.
  데이터 변동이 큰 방향부터 순서대로 주성분을 추출한다.
- 3.
  서로 상관성이 없는 새로운 변수를 만들 수 있다.
- 4.
  기존 변수의 개수를 늘려 차원을 확장하는 용도로만 사용된다.
정답·해설 보기▾▴
정답
4번
기존 변수의 개수를 늘려 차원을 확장하는 용도로만 사용된다.
해설
정답: 4. PCA는 주로 차원축소에 활용되며, 변수 개수를 늘리는 용도가 아니다.

오답 풀이

1번: 주성분은 기존 변수들의 선형결합으로 가중치가 산출된다.

2번: 첫 번째 주성분은 데이터 분산을 가장 크게 설명한다.

3번: 주성분들은 서로 직교해 상관성이 없다.

4번: PCA의 핵심 목적은 정보 손실을 줄이며 차원을 축소하는 것이다.
문제 40
4지선다
주성분분석 결과에 대한 설명으로 틀린 것은?

<USArrests 데이터 PCA 결과 요약>
- PC1 설명분산 비율: 약 62.0%
- PC2 설명분산 비율: 약 24.7%
- PC1 + PC2 누적 설명분산 비율: 약 86.7%
변수 PC2 loading PC3 loading
Murder 0.418 -0.341
Assault 0.188 -0.268
UrbanPop -0.873 -0.378
Rape -0.167 0.818
- 1.
  성분 2개로 4개 변수의 분산을 86% 이상 설명할 수 있다.
- 2.
  PC2에 가장 크게 기여하는 변수는 UrbanPop이다.
- 3.
  PC3에 가장 크게 기여하는 변수는 Rape이다.
- 4.
  전반적으로 Murder의 영향력이 가장 크다.
정답·해설 보기▾▴
정답
4번
전반적으로 Murder의 영향력이 가장 크다.
해설
정답: 4. PCA 결과는 주성분별 기여도와 loading을 함께 봐야 하며, Murder의 영향력이 가장 크다고 단정하기 어렵다.

오답 풀이

1번: 첫 두 주성분 누적 설명력 약 86.7% 해석은 타당하다.

2번: PC2에서 UrbanPop의 loading 절댓값이 가장 크다면 맞는 설명이다.

3번: PC3에서 Rape의 loading 절댓값이 가장 크다면 맞는 설명이다.

4번: 변수 영향력은 주성분별 loading과 설명분산을 함께 봐야 하므로 단정하기 어렵다.
문제 41
4지선다
의사결정나무에 대한 설명으로 옳지 않은 것은?
- 1.
  종속변수가 연속형일 때 가지 분할 기준으로 분산을 활용할 수 있다.
- 2.
  종속변수가 범주형일 때 가지 분할 기준으로 엔트로피를 활용할 수 있다.
- 3.
  가지치기(pruning)를 통해 학습 데이터 세트에서의 정확도를 높이는 것이 주목적이다.
- 4.
  최종 노드가 많을수록 과대적합 가능성이 증가한다.
정답·해설 보기▾▴
정답
3번
가지치기(pruning)를 통해 학습 데이터 세트에서의 정확도를 높이는 것이 주목적이다.
해설
정답: 3. 가지치기는 학습 데이터 정확도를 높이기보다 과대적합을 줄이고 일반화 성능을 높이기 위한 방법이다.

오답 풀이

1번: 회귀나무에서는 분산 감소를 분할 기준으로 사용한다.

2번: 분류나무에서는 엔트로피·지니지수 등을 분할 기준으로 사용한다.

3번: 가지치기는 복잡 나무 단순화 → 일반화 성능 향상 목적이다.

4번: 최종 노드가 많고 깊은 나무는 학습 데이터 과적합에 취약하다.
문제 42
4지선다
k-means에 대한 설명 중 틀린 것은?
- 1.
  군집 수 k는 분석가가 임의로 설정할 수 있다.
- 2.
  이상치에 민감한 편이다.
- 3.
  중심점을 기준으로 군집을 형성한다.
- 4.
  군집 개수를 알고리즘이 자동으로 최종 선택해준다.
정답·해설 보기▾▴
정답
4번
군집 개수를 알고리즘이 자동으로 최종 선택해준다.
해설
정답: 4. k-means는 군집 수 k를 사전에 지정해야 하며, 알고리즘이 자동으로 최적 k를 선택하지 않는다.

오답 풀이

1번: k-means는 분석자가 k를 정하고 시작한다.

2번: 평균 중심을 사용하므로 이상치 영향이 있다.

3번: 각 데이터는 가장 가까운 중심점에 할당된다.

4번: 최적 k는 엘보우·실루엣 계수 등으로 별도 판단한다.
문제 43
4지선다
SOM(Self-Organizing Map)에 대한 설명 중 틀린 것은?
- 1.
  입력층과 경쟁층은 부분적으로만 연결된다.
- 2.
  고차원 데이터를 저차원 공간에 표현하는 방법이다.
- 3.
  반복 학습을 통해 경쟁층의 대표 노드가 조정된다.
- 4.
  일반적인 다층 신경망처럼 오차 역전파를 사용하지 않는다.
정답·해설 보기▾▴
정답
1번
입력층과 경쟁층은 부분적으로만 연결된다.
해설
정답: 1. SOM은 일반적으로 입력층의 각 노드가 경쟁층의 모든 노드와 연결되는 완전 연결 구조로 설명된다.

오답 풀이

1번: 부분적으로만 연결된다는 설명은 SOM의 일반 구조와 맞지 않는다.

2번: SOM은 고차원 데이터를 2차원 격자 등 저차원으로 시각화한다.

3번: 반복적으로 승자·이웃 노드의 가중치를 조정한다.

4번: SOM은 비지도학습이며 일반 역전파와 다르게 학습한다.
문제 44
4지선다
아래 덴드로그램에서 Height = 1.5 기준으로 수평 절단했을 때 만들어지는 클러스터의 수는?
- 1.
  2개
- 2.
  3개
- 3.
  4개
- 4.
  5개
정답·해설 보기▾▴
정답
3번
4개
해설
정답: 3. Height = 1.5의 수평 절단선과 교차하는 세로선의 수가 클러스터 수입니다. a–b(높이 0.6), c–d(0.9), e–f(1.2)는 절단선보다 낮은 높이에서 이미 병합되었고 g는 단독이므로, 절단 시 {a,b}, {c,d}, {e,f}, {g}의 4개 클러스터가 만들어집니다.

오답 풀이

1·2번: 절단선 아래에서 분리되어 있는 묶음 수를 과소 계산한 값입니다.

4번: e와 f를 각각 별도 군집으로 세면 5개가 되지만, 두 잎은 높이 1.2에서 이미 병합되어 있습니다.

보충 개념 덴드로그램에서 절단 높이를 낮출수록 군집 수는 많아지고, 높일수록 적어집니다. 절단선과 교차하는 세로 가지의 개수가 곧 군집 수입니다.
문제 45
4지선다
다음 구매 이력에서 '빵을 구매했을 때 버터도 함께 구매할 신뢰도'에 해당하는 값은?

<구매 이력>

내용 횟수
빵, 버터 3
빵 1
치즈 1
- 1.
  향상도: 0.25
- 2.
  향상도: 1.25
- 3.
  신뢰도: 0.6
- 4.
  신뢰도: 0.75
정답·해설 보기▾▴
정답
4번
신뢰도: 0.75
해설
정답: 4. 빵을 구매한 거래 4건 중 빵·버터 동시 구매가 3건이므로 신뢰도 = 3/4 = 0.75이다.

오답 풀이

1번: 0.25는 신뢰도·향상도로 부적절하다.

2번: 향상도는 신뢰도와 후건 지지도를 함께 고려해 계산하며 문제는 신뢰도이다.

3번: 전체 5건 중 빵·버터 동시 구매 3건이므로 0.6은 지지도에 해당할 수 있다.

4번: 빵 구매 전제 시 버터 함께 구매 비율 = 3/4 = 0.75이다.
문제 46
4지선다
연관분석 A → B에서 지지도에 해당하는 설명은?
- 1.
  전체 거래 중 A를 구매할 확률이다.
- 2.
  전체 거래 중 B를 구매할 확률이다.
- 3.
  A를 구매한 뒤 이어서 B를 구매할 조건부 확률이다.
- 4.
  전체 거래 중 A와 B를 동시에 구매할 확률이다.
정답·해설 보기▾▴
정답
4번
전체 거래 중 A와 B를 동시에 구매할 확률이다.
해설
정답: 4. 지지도는 전체 거래에서 A와 B가 동시에 나타나는 비율이다.

오답 풀이

1번: A만 구매할 확률은 A의 개별 지지도이다.

2번: B만 구매할 확률은 B의 개별 지지도이다.

3번: A → B 조건부 확률은 신뢰도이다.

4번: A·B 동시 발생 비율이 연관규칙의 지지도이다.
문제 47
4지선다
군집분석에 대한 설명 중 옳지 않은 것은?
- 1.
  종속변수가 필요 없는 분석이다.
- 2.
  관측치 사이의 거리 계산 방법을 정해야 한다.
- 3.
  입력변수가 범주형이면 어떠한 방식으로도 군집분석을 할 수 없다.
- 4.
  만들어진 군집의 의미 해석은 분석가가 수행해야 한다.
정답·해설 보기▾▴
정답
3번
입력변수가 범주형이면 어떠한 방식으로도 군집분석을 할 수 없다.
해설
정답: 3. 범주형 변수도 적절한 유사도 척도·변환 방법을 사용하면 군집분석에 활용할 수 있다.

오답 풀이

1번: 군집분석은 비지도학습으로 종속변수가 필요 없다.

2번: 거리·유사도 척도 선택은 결과에 영향을 준다.

3번: 더미변수화·자카드 거리·고워 거리 등으로 다룰 수 있다.

4번: 군집 의미 부여·라벨링은 분석가의 해석이 필요하다.
문제 48
4지선다
다차원 척도법(MDS)에 대한 설명으로 부적절한 것은?
- 1.
  고차원 데이터를 저차원 공간에 표현해 준다.
- 2.
  관측치 간 유사성을 바탕으로 배치하므로 군집화와 유사한 시각적 효과를 얻을 수 있다.
- 3.
  저차원 지도에서 데이터의 절대적 위치를 정확히 알 수 있다.
- 4.
  계량적 방법과 비계량적 방법이 있다.
정답·해설 보기▾▴
정답
3번
저차원 지도에서 데이터의 절대적 위치를 정확히 알 수 있다.
해설
정답: 3. MDS의 저차원 좌표는 관측치 간 상대적 거리·유사성 해석에 초점이 있으며 절대적 위치 자체가 중요한 것은 아니다.

오답 풀이

1번: MDS는 고차원 거리 정보를 저차원에 표현한다.

2번: 가까운 점은 유사하므로 군집화와 유사한 시각적 해석이 가능하다.

3번: 중요한 것은 절대 좌표가 아니라 상대적 거리 구조이다.

4번: 계량적 MDS와 비계량적 MDS가 있다.
문제 49
4지선다
계통추출의 정의로 가장 적절한 것은?
- 1.
  모집단의 데이터에 일련번호를 부여하고 일정한 간격마다 표본을 추출하는 방법이다.
- 2.
  모집단의 각 개체를 동일한 확률로 무작위 추출하는 방법이다.
- 3.
  모집단을 서로 겹치지 않는 계층으로 나눈 뒤 각 계층에서 표본을 뽑는 방법이다.
- 4.
  여러 단계에 걸쳐 집락이나 표본을 순차적으로 추출하는 방법이다.
정답·해설 보기▾▴
정답
1번
모집단의 데이터에 일련번호를 부여하고 일정한 간격마다 표본을 추출하는 방법이다.
해설
정답: 1. 계통추출은 번호를 부여한 뒤 일정 간격으로 표본을 선택하는 방법이다.

오답 풀이

1번: 계통추출의 정의에 해당한다.

2번: 단순임의추출에 대한 설명이다.

3번: 층화추출에 대한 설명이다.

4번: 다단계추출에 대한 설명이다.
문제 50
4지선다
스피어만 상관분석과 피어슨 상관분석에 대한 설명 중 가장 잘못된 것은?
- 1.
  스피어만 상관분석은 서열 정보를 이용해 단조 관계를 설명한다.
- 2.
  피어슨 상관분석은 수치형 변수의 선형 관계를 설명한다.
- 3.
  공분산은 단위의 영향을 받지 않고, 상관계수는 단위의 영향을 받는다.
- 4.
  상관계수의 범위는 -1부터 +1까지이다.
정답·해설 보기▾▴
정답
3번
공분산은 단위의 영향을 받지 않고, 상관계수는 단위의 영향을 받는다.
해설
정답: 3. 공분산은 변수의 단위에 영향을 받고, 상관계수는 표준화되어 단위의 영향을 받지 않는다.

오답 풀이

1번: 스피어만 상관분석은 순위 기반으로 서열형 자료·단조 관계에 활용된다.

2번: 피어슨 상관분석은 연속형 수치 변수의 선형 관계를 측정한다.

3번: 공분산·상관계수의 단위 영향 설명이 반대로 되어 있어 틀렸다.

4번: 상관계수는 -1 이상 +1 이하의 값을 가진다.

[ADsP] 2025년 45회 기출 복원

📋 회차 정보

📊 출제 영역 한눈에

💡 학습 팁

📝 기출문제 전체 보기

이번엔 직접 풀어보세요

ADsP 다른 회차 기출 복원

함께 읽으면 좋은 글

변수	PC2 loading	PC3 loading
Murder	0.418	-0.341
Assault	0.188	-0.268
UrbanPop	-0.873	-0.378
Rape	-0.167	0.818

항목	Estimate
(Intercept)	-17.5791
X	3.9324

내용	횟수
빵, 버터	3
빵	1
치즈	1