인코딩 및 유니코드4 (4) XML 문서 인코딩 XML 권고안은 모든 XML 문서는 유니코드 인코딩 방식인 UTF-8 인코딩 방식으로 저장할 것을 기본으로 하고 있다. 만약 XML 문서가 UTF-8 방식으로 저장되지 않았다면 encoding 속성에 실제 인코딩 방식을 반드시 기술해야 한다. 그렇지 않으면 XML 파서는 XML 문서를 해석하지 못한다. UTF-8 방식과 euc-kr 방식의 차이점은 euc-kr은 ASCII : 1바이트 한글 : 2바이트인 반면에, UTF-8은 ASCII : 1바이트 한글 : 3바이트이기 때문에 XML 파서는 XML 문서가 혼재된 방식으로 즉, euc-kr 인코딩으로 문서 저장을 하고 encoding 속성을 UTF-8으로 선언하게 되었을 때 오류가 나게 되는 것이다. 이 글은 스프링노트에서 작성되.. 더보기 인코딩 및 유니코드3 (3) 유니코드(Unicode) 유니코드는 국제화를 염두에 두고 설계된 문자 코드이다. 유니코드는 인간이 사용하는 모든 언어를 표현할 수 있도록 하기 위하여 만들어졌다. 유니코드는 한마디로 기존 언어의 인코딩 체계를 모두 포함할 수 있도록 고안된 커다란 문자 집합이다. 유니코드는 기존 언어의 모든 언어 체계를 모두 포함하고 있기 때문에, 일부에서는 한국어를, 일부에서는 일본어를, 또 다른 부분에서는 영어를 작성하는 것이 가능하게 된다. 유니코드에는 두 개의 대표적인 무자 인코딩이 있는데, 그것이 바로 UTF-8과 UTF-16이다. UTF-8은 파일 사이즈를 적게 하기 위해, ASCII 문자 코드는 1바이트로 인코딩하고, 다른 문자들은 2바이트나 그 이상으로 인코딩하는 방식을 택하고 있다. 한글은 3바이트.. 더보기 인코딩 및 유니코드2 (2) KS C 5601과 EUC-KR 인코딩 한국 표준문자 집합(KS C 5601)은 한국 표준 협의회가 한국 공업 표준(Korea Industrial Standard)으로 정한 정보처리 분야(C)의 5601번 표준안이다. 'KS C 5601'은 'KSC-5601' 또는 'KSC5601' 등으로 줄여서 불리기도 한다. 'KS C 5601' 표준의 내용을 살펴보면, 2 바이트를 사용해서 완성형 한글을 표현하는 방법을 기술하고 있다. 이 표준안 내용에는 순수한 한글 코드에 대한 내용뿐 ASCII 문자에 대한 내용은 전혀 담고 있지 않다. ASCII 문자에 대한 표준은 'KS C 5635'에 있다. 'KS C 5636'은 ASCII 문자 집합에서 역슬래시 대신에 한국의 통화기호 원 표시를 대치해 넣은 것으로.. 더보기 인코딩 및 유니코드1 (1) 인코딩 XML 문서는 단순한 텍스트 형식의 파일이기 때문에 여러 나라의 언어 형태로 작성될 수 있다. 엘리먼트의 값뿐만 아니라 엘리먼트의 태그 이름과 속성 이름도 영어 및 한글을 비롯한 여러 가지 언어로 작성 및 저장될 수 있다. 여러 가지 언어 형태로 작성 및 저장된 XML 문서를 처리하기 위해서는 XML 문서가 어떤 문자코드 체계로 작성되어 있는지를 XML 프로세서에게 알려주어야 한다. XML 선언부에 인코딩 방식을 언급하는 이유가 바로 여기에 있다. 인코딩을 이해하려면 먼저 문자 코드에 대한 이해가 필요하다. 문자 코드(Character Code)란 문자들의 집합과 이 문자들을 나타내기 위해 정한 숫자(문자 코드)들을 1대 1로 연결시켜 놓은 것을 말한다. 아스키 코드표 출처 : http:/.. 더보기 인코딩 ASCII 7bit를 사용한 인코딩 KS C 5636 ASCII 문자에 대한 한국 공업 표준 정보처리 분야의 5636번 표준안 back slash를 한국 원화 기호로 대체한 형태 KS C 5601 2byte로 완성형 한글을 표현한 한국 공업 표준 정보처리 분야의 5601번 표준안 KS C 5861 영어는 KS C 5636를 적용하고 한글은 KS C 5601을 적용한다는 한국 공업 표준 정보처리 분야의 5861번 표준안 EUC-KR Extended Unix Code KS C 5861의 내용과 같음 더보기 ISO Latin-1 문자 셋 ISO Latin-1 문자 셋 더보기 XML 선언2 (2) XML 선언에서 사용되는 속성들 1) version 버전 번호는 XML 권고안의 버전 번호를 기술하는 부분으로, 현재 XML 권고안의 버전은 1.0이므로 반드시 이 값을 지정해야 한다. 그리고 XML 선언에서 version 속성은 반드시 기술해야 한다. 문법 2) encoding 작성하는 XML 문서를 어떤 인코딩 방식으로 저장할 것인가를 지정한다. encoding 속성은 생략 가능하다. 생략이 되면 디폴트로 유니코드 인코딩 방식인 UTF-8 방식으로 XML 프로세서는 XML 문서를 처리하게 된다. 문법 3) standalone 작성된 XML 문서를 XML 파서가 해석할 때 외부 DTD 문서를 참고해야 된다는 것을 XML 파서에게 알려주는 목적으로 XML 선언의 standalone 속성을 사용하게.. 더보기 XML 선언1 (1) XML 선언의 문법 현재 작성중인 문서가 XML 문서임을 명시하기 위해 사용되는 것이 바로 XML 선언이다. XML 문서에서 XML 선언은 없어도 되지만 XML 선언을 하는 것이 W3C의 권장 사항이다. XML 선언에는 XML 권고안의 버전, 문서의 인코딩 방식, 그리고 스탠드얼론 문서 여부에 대해 기술하도록 되어 있다. 다음은 XML 선언의 문법이다. 문법 XML 선언을 할 때 주의할 점은 첫째로 XML 선언 이전에는 어떤 내용이든 기술되면 안 된다는 것이다. 즉, XML 선언은 XML 문서 첫줄에 반드시 기술되어야 한다. 주의해야할 점 다음의 예제는 XML 문서 첫 줄에 XML 선언이 오지 않고, 다른 내용이 기술되어 잘못 작성된 XML 문서를 보여준다. XML 기초서 신민철 프리렉 가을엔 사.. 더보기 XML 문서 구조 XML 문서의 구조는 서두와 몸체 그리고 기타 부분으로 이루어져 있다. 서두에는 XML 선언과 XML 프로세스에게 XML 문서를 어떻게 처리해라 라는 정보를 알려주는 프로세싱 지시자 그리고 어떤 마크업 언어로 작성했는지에 대한 문서 유형 선언으로 구성된다. 몸체 부분에는 한 개의 엘리먼트가 와야 하는데, 이 엘리먼트를 루트 엘리먼트라고 부른다. 루트 엘리먼트를 제외한 다른 엘리먼트는 루트 엘리먼트의 자식(하위) 엘리먼트로 작성이 되어야 한다. 기타 부분에는 주석 및 서두와 마찬가지로 XML 문서를 어떻게 처리하라는 정보를 알려주는 프로세싱 지시자 그리고 공백으로 구성된다. 보통 기타 부분은 생략된다. 다음은 XML 1.0 권고안의 문서에 대한 EBNF 문법이다. 문법 document(문서) ::= pro.. 더보기 EBNF 표기법 (1) EBNF 문법 형태 XML 1.0 권고안의 공식 문법은 간단한 EBNF(Extended Backus-Naur Form) 표기법을 사용한다. XML을 사용하는 개발자들은 EBNF 표기법을 잘 알고 있어야 XMK 스펙을 이해할 수 있게 되고, 보다 쉽게 XMK을 활용할 수 있게 된다. 다음은 EBNF 문법 표기법이다. 기호 ::= 표현식 (Symbol ::= Expression) 다음은 기호 Char1이 소문자 a에서 z까지 한 문자를 갖는 표현식이다. 문법 char1 ::= [a-z] 다음은 기호 VersionNum가 숫자 0에서 9까지 한 문자를 갖는 표현식이다. 문법 VersionNum ::= [0-9] 다음은 기호 Word1이 "version"이라는 고정 문자열을 갖는 표현식이다. 문법 Wor.. 더보기 이전 1 ··· 18 19 20 21 22 23 24 ··· 28 다음