RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법

      한글로보기

      https://www.riss.kr/link?id=A101826389

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩...

      문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Character encoding is a method for changing a document to a binary document file using the code table for storage in a computer. When people decode a binary document file in a computer to be read, they must know the code table applied to the file at t...

      Character encoding is a method for changing a document to a binary document file using the code table for storage in a computer. When people decode a binary document file in a computer to be read, they must know the code table applied to the file at the encoding stage in order to get the original document. Identifying the code table used for encoding the file is thus an essential part of decoding. In this paper, we propose a method for detecting the character code of the given binary document file automatically. The method uses many techniques to increase the detection rate, such as a character code range detection, escape character detection, character code characteristic detection, and commonly used word detection. The commonly used word detection method uses multiple word database, which means this method can achieve a much higher detection rate for multi-language files as compared with other methods. If the proportion of language is 20% less than in the document, the conventional method has about 50% encoding recognition. In the case of the proposed method, regardless of the proportion of language, there is up to 96% encoding recognition.

      더보기

      목차 (Table of Contents)

      • 요약
      • Abstract
      • 1. 서론
      • 2. 관련연구
      • 3. 문서에 적용된 문자 인코딩의 특징
      • 요약
      • Abstract
      • 1. 서론
      • 2. 관련연구
      • 3. 문서에 적용된 문자 인코딩의 특징
      • 4. 설계 및 구현
      • 5. 성능평가
      • 6. 결론
      • References
      더보기

      참고문헌 (Reference)

      1 강희복, "문자 깨짐 방지를 위한 서버 상에서의 인코딩 자동인식 적용 방법" 한국정보기술학회 13 (13): 105-112, 2015

      2 M. Dürst, "Unicode in XML and other Markup Languages" 2013

      3 J. Bettels, "Unicode : A universal character code" 5 (5): 21-31, 1993

      4 N. N. Karanikolas, "Uncovering Languages from written documents" 1-4, 2014

      5 S. Hussain, "Survey of Language Computing in Asia 2005" 37-46, 2005

      6 C. Y. Suen, "N-Gram Statics for Natural Language Understanding and Text Processing" PAMI-1 (PAMI-1): 164-172, 1979

      7 N. H.F.Beebe, "Character set encoding" 11 (11): 171-175, 1990

      8 S. Li, "A composite approach to language/encoding detection" Netscape Communications Corp 2002

      9 S. J. Searle, "A Brief History of Character Codes"

      1 강희복, "문자 깨짐 방지를 위한 서버 상에서의 인코딩 자동인식 적용 방법" 한국정보기술학회 13 (13): 105-112, 2015

      2 M. Dürst, "Unicode in XML and other Markup Languages" 2013

      3 J. Bettels, "Unicode : A universal character code" 5 (5): 21-31, 1993

      4 N. N. Karanikolas, "Uncovering Languages from written documents" 1-4, 2014

      5 S. Hussain, "Survey of Language Computing in Asia 2005" 37-46, 2005

      6 C. Y. Suen, "N-Gram Statics for Natural Language Understanding and Text Processing" PAMI-1 (PAMI-1): 164-172, 1979

      7 N. H.F.Beebe, "Character set encoding" 11 (11): 171-175, 1990

      8 S. Li, "A composite approach to language/encoding detection" Netscape Communications Corp 2002

      9 S. J. Searle, "A Brief History of Character Codes"

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2022 평가예정 재인증평가 신청대상 (재인증)
      2019-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2016-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2014-09-16 학술지명변경 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 및 레터 -> 정보과학회 컴퓨팅의 실제 논문지
      외국어명 : Journal of KIISE : Computing Practices and Letters -> KIISE Transactions on Computing Practices
      KCI등재
      2013-04-26 학술지명변경 외국어명 : Journal of KISS : Computing Practices and Letters -> Journal of KIISE : Computing Practices and Letters KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-10-02 학술지명변경 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 -> 정보과학회논문지 : 컴퓨팅의 실제 및 레터
      외국어명 : Journal of KISS : Computing Practices -> Journal of KISS : Computing Practices and Letters
      KCI등재
      2007-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2005-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2002-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.29 0.29 0.27
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.24 0.21 0.503 0.04
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼