문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A101826389
2016
Korean
KCI등재
학술저널
170-177(8쪽)
0
0
상세조회0
다운로드국문 초록 (Abstract)
문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩...
문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.
다국어 초록 (Multilingual Abstract)
Character encoding is a method for changing a document to a binary document file using the code table for storage in a computer. When people decode a binary document file in a computer to be read, they must know the code table applied to the file at t...
Character encoding is a method for changing a document to a binary document file using the code table for storage in a computer. When people decode a binary document file in a computer to be read, they must know the code table applied to the file at the encoding stage in order to get the original document. Identifying the code table used for encoding the file is thus an essential part of decoding. In this paper, we propose a method for detecting the character code of the given binary document file automatically. The method uses many techniques to increase the detection rate, such as a character code range detection, escape character detection, character code characteristic detection, and commonly used word detection. The commonly used word detection method uses multiple word database, which means this method can achieve a much higher detection rate for multi-language files as compared with other methods. If the proportion of language is 20% less than in the document, the conventional method has about 50% encoding recognition. In the case of the proposed method, regardless of the proportion of language, there is up to 96% encoding recognition.
목차 (Table of Contents)
참고문헌 (Reference)
1 강희복, "문자 깨짐 방지를 위한 서버 상에서의 인코딩 자동인식 적용 방법" 한국정보기술학회 13 (13): 105-112, 2015
2 M. Dürst, "Unicode in XML and other Markup Languages" 2013
3 J. Bettels, "Unicode : A universal character code" 5 (5): 21-31, 1993
4 N. N. Karanikolas, "Uncovering Languages from written documents" 1-4, 2014
5 S. Hussain, "Survey of Language Computing in Asia 2005" 37-46, 2005
6 C. Y. Suen, "N-Gram Statics for Natural Language Understanding and Text Processing" PAMI-1 (PAMI-1): 164-172, 1979
7 N. H.F.Beebe, "Character set encoding" 11 (11): 171-175, 1990
8 S. Li, "A composite approach to language/encoding detection" Netscape Communications Corp 2002
9 S. J. Searle, "A Brief History of Character Codes"
1 강희복, "문자 깨짐 방지를 위한 서버 상에서의 인코딩 자동인식 적용 방법" 한국정보기술학회 13 (13): 105-112, 2015
2 M. Dürst, "Unicode in XML and other Markup Languages" 2013
3 J. Bettels, "Unicode : A universal character code" 5 (5): 21-31, 1993
4 N. N. Karanikolas, "Uncovering Languages from written documents" 1-4, 2014
5 S. Hussain, "Survey of Language Computing in Asia 2005" 37-46, 2005
6 C. Y. Suen, "N-Gram Statics for Natural Language Understanding and Text Processing" PAMI-1 (PAMI-1): 164-172, 1979
7 N. H.F.Beebe, "Character set encoding" 11 (11): 171-175, 1990
8 S. Li, "A composite approach to language/encoding detection" Netscape Communications Corp 2002
9 S. J. Searle, "A Brief History of Character Codes"
고성능 스토리지를 이용한 Lustre 파일 시스템의 성능 분석 연구
문법적 진화기법과 조건부 확률을 이용한 청소 로봇의 이동 패턴 계획
이산 프레셰 거리 척도를 이용한 궤적 유사도 고속계산 휴리스틱 알고리즘
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2022 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2019-01-01 | 평가 | 등재학술지 유지 (계속평가) | |
2016-01-01 | 평가 | 등재학술지 유지 (계속평가) | |
2015-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2014-09-16 | 학술지명변경 | 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 및 레터 -> 정보과학회 컴퓨팅의 실제 논문지외국어명 : Journal of KIISE : Computing Practices and Letters -> KIISE Transactions on Computing Practices | |
2013-04-26 | 학술지명변경 | 외국어명 : Journal of KISS : Computing Practices and Letters -> Journal of KIISE : Computing Practices and Letters | |
2011-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2009-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2008-10-02 | 학술지명변경 | 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 -> 정보과학회논문지 : 컴퓨팅의 실제 및 레터외국어명 : Journal of KISS : Computing Practices -> Journal of KISS : Computing Practices and Letters | |
2007-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2005-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2002-01-01 | 평가 | 등재학술지 선정 (등재후보2차) |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.29 | 0.29 | 0.27 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.24 | 0.21 | 0.503 | 0.04 |