본문 바로가기

Programming/XML

인코딩 및 유니코드3

 (3) 유니코드(Unicode)

유니코드는 국제화를 염두에 두고 설계된 문자 코드이다. 유니코드는 인간이 사용하는 모든 언어를 표현할 수 있도록 하기 위하여 만들어졌다.

유니코드는 한마디로 기존 언어의 인코딩 체계를 모두 포함할 수 있도록 고안된 커다란 문자 집합이다.

유니코드는 기존 언어의 모든 언어 체계를 모두 포함하고 있기 때문에, 일부에서는 한국어를, 일부에서는 일본어를, 또 다른 부분에서는 영어를 작성하는 것이 가능하게 된다.

유니코드에는 두 개의 대표적인 무자 인코딩이 있는데, 그것이 바로 UTF-8과 UTF-16이다.

UTF-8은 파일 사이즈를 적게 하기 위해, ASCII 문자 코드는 1바이트로 인코딩하고, 다른 문자들은 2바이트나 그 이상으로 인코딩하는 방식을 택하고 있다.

한글은 3바이트로 인코딩한다.

ASCII 문자로 이루어진 파일은 ASCII 와 UTF-8 체계가 8비트 인코딩 체계를 사용하기 때문에 서로 호환성이 있다

UTF-8 방식이 기존의 ASCII 문자 코드 체계와 그대로 호환이 가능하기 때문에 인터넷상에서 문서를 교환하기 위한 기본적인 인코딩으로 환영받고 있는 추세이다. XML 문서에서도 별도의 인코딩을 언급하지 않으면 디폴트로 UTF-8 인코딩을 사용하게 되어 있다.

UTF-16은 2바이트를 사용하여 모든 문자 코드를 표현한 방식이다. 보통 영어 이외의 다른 문자가 있는 경우에 사용한다.

 

이 글은 스프링노트에서 작성되었습니다.