RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      문서 영상 내 테이블 영역에서의 단어 추출 = Word Extraction form Table Regions in Document Images

      한글로보기

      https://www.riss.kr/link?id=A103973744

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      Document image is segmented and classified into text, picture, or table by a document layout analysis, and the words in table regions are significant for keyword spotting because they are more meaningful than the words in other regions. This paper pro...

      Document image is segmented and classified into text, picture, or table by a document layout analysis, and the words in table regions are significant for keyword spotting because they are more meaningful than the words in other regions. This paper proposes a method to extract words from table regions in document images. As word extraction from table regions is practically regarded extracting words from cell regions composing the table, it is necessary to extract the cell correctly. In the cell extraction module, table frame is extracted first by analyzing connected components, and then the intersection points are extracted from the table frame. We modify the false intersections using the correlation between the neighboring intersections, and extract the cells using the information of intersections. Text regions in the individual cells are located by using the connected components information that was obtained during the cell extraction module, and they are segmented into text lines by using projection profiles. Finally we divide the segmented lines into words using gap clustering and special symbol detection. The experiment performed on 100 table images that are extracted from Korean documents, and shows 99.16% accuracy of word extraction.

      더보기

      국문 초록 (Abstract)

      문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 ...

      문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자열로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 100개의 테이블 영상에 대해 실험한 결과, 99.16%의 단어 추출 성공률을 얻을 수 있었다.

      더보기

      참고문헌 (Reference)

      1 "The Retrieval of Document Images: A Brief Survey" 70 (70): 287-298, 1998.

      2 "Table Extraction and Analysis Algorithm from Document Images" 2 : 129-138, 1998.

      3 "Retrieving Imaged Documents in Digital Libraries Based on Word Image Coding" 174-187, Jan.,2004.

      4 "Research on the Table Vectorization in the Document Image" 3 (3): 1147-1159, Aug.1996

      5 "Reference Line Extraction from Form Documents with Complicated Backgrounds" 1080-1084, 2003.

      6 "Recognition and Data Extraction of Form Documents based on Three Types of Line Segments" 31 (31): 1525-1540, 1998.

      7 "Methodology of Automatic Extraction of Table-Form Cells" 15-21, Oct.2000.

      8 "Layout Recognition of Multi-Kinds of Table-Form Documents" 17 : 432-445, 1995.

      9 "Indexing and Retrieval of Words in Old Documents" 1 : 223-227, 2003.

      10 "Form Document Identification using Line Structure based Features" 704-709, Sept.,2001.

      1 "The Retrieval of Document Images: A Brief Survey" 70 (70): 287-298, 1998.

      2 "Table Extraction and Analysis Algorithm from Document Images" 2 : 129-138, 1998.

      3 "Retrieving Imaged Documents in Digital Libraries Based on Word Image Coding" 174-187, Jan.,2004.

      4 "Research on the Table Vectorization in the Document Image" 3 (3): 1147-1159, Aug.1996

      5 "Reference Line Extraction from Form Documents with Complicated Backgrounds" 1080-1084, 2003.

      6 "Recognition and Data Extraction of Form Documents based on Three Types of Line Segments" 31 (31): 1525-1540, 1998.

      7 "Methodology of Automatic Extraction of Table-Form Cells" 15-21, Oct.2000.

      8 "Layout Recognition of Multi-Kinds of Table-Form Documents" 17 : 432-445, 1995.

      9 "Indexing and Retrieval of Words in Old Documents" 1 : 223-227, 2003.

      10 "Form Document Identification using Line Structure based Features" 704-709, Sept.,2001.

      11 "Extraction of Data from Pre-printed Forms" 5 (5): 211-222, 1992.

      12 "Efficient Extraction of Primitives from Line Drawings Composed of Horizontal and Vertical Lines" 214-221, 1997.

      13 "A Tabular Survey of Automated Table Processing" 1941 : 93-120, 1999.

      14 "A Search Engine for Imaged Documents in PDF Files" 536-537, 2004.

      15 "A Retargetable Table Reader" 158-163, 1997.

      16 "A Keyword Spotting System of Korean Document Images" 530-, Dec.2002.

      17 "A General System for the Retrieval of Document Images from Digital Libraries" 150-173, Jan.2004.

      18 "A Document Image Preprocessing System for Keyword Spotting" 440-443, Dec.2004.

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2015-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2012-10-31 학술지명변경 한글명 : 소프트웨어 및 데이터 공학 -> 정보처리학회논문지. 소프트웨어 및 데이터 공학 KCI등재
      2012-10-10 학술지명변경 한글명 : 정보처리학회논문지B -> 소프트웨어 및 데이터 공학
      외국어명 : The KIPS Transactions : Part B -> KIPS Transactions on Software and Data Engineering
      KCI등재
      2010-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2006-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2003-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2002-01-01 평가 등재후보 1차 PASS (등재후보1차) KCI등재후보
      2000-07-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.35 0.35 0.28
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.23 0.19 0.511 0.06
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼