문제
유니코드 표준의 고급 특성과 구현 방식에 대한 설명으로 옳지 않은 것은?
① BMP(Basic Multilingual Plane) 외부 문자는 서로게이트 페어를 통해 UTF-16에서 표현된다 ② 정규화(Normalization)는 동일한 문자의 다양한 표현 방식을 통일하는 과정이다 ③ UTF-32는 모든 유니코드 문자를 고정 길이 4바이트로 표현하여 인덱싱이 용이하다 ④ 유니코드 코드 포인트는 최대 0x10FFFF까지 정의되어 약 110만 개 문자를 수용할 수 있다
정답
4번
해설
④번이 틀렸습니다. 유니코드 코드 포인트는 U+0000부터 U+10FFFF까지로 총 1,114,112개(약 110만 개)의 위치가 있지만, 실제로는 모든 위치에 문자가 할당된 것이 아니며, 서로게이트 영역 등 일부는 문자 할당에 사용되지 않습니다. '수용할 수 있다'는 표현이 부정확합니다. ①번 서로게이트 페어, ②번 정규화, ③번 UTF-32 특성은 모두 정확합니다.