RISS 검색 - 국내학술지논문 상세보기

국문 초록 (Abstract)

최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위...

최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.

다국어 초록 (Multilingual Abstract)

Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requirement to specify HTML tags and style attributes that contain the text required for big data analysis in the web crawler. In this paper, we proposed a method of extracting text using the frequency of text appearing in web pages without specifying HTML tags and style attributes. In the proposed method, the text was extracted from the DOM tree of all collected web pages, the frequency of appearance of the text was analyzed, and the main text was extracted by excluding the text with high frequency of appearance. Through this study, the superiority of the proposed method was verified.

참고문헌 (Reference)

1 방한솔, "텍스트마이닝을 이용하여 텍스트의 주요 토픽을 시계열적으로 표현하는 방법론 연구" 한국데이터정보과학회 30 (30): 1259-1276, 2019

2 송원문, "텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출" 한국정보과학회 40 (40): 155-163, 2013

3 이정현, "텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로" 한국지식경영학회 21 (21): 197-210, 2020

4 이수련, "텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -“한일군사정보보호협정(GSOMIA) 종료”를 중심으로-" 한국디지털정책학회 18 (18): 277-284, 2020

5 조경원, "텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링" 한국정보통신학회 23 (23): 764-770, 2019

6 김소현, "소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법" 한국정보처리학회 6 (6): 279-284, 2017

7 차민금, "소셜 데이터를 통한 공간적 공동경험에 관한 연구" 사단법인 인문사회과학기술융합학회 7 (7): 851-859, 2017

8 T. Vogels, "Web2text : Deep structured boilerplate removal" 167-179, 2018

9 전현지, "HTML 논리적 구조분석을 통한 본문추출 알고리즘" 한국디지털콘텐츠학회 16 (16): 445-455, 2015

10 A. Tharwat, "Classification assessment methods" 17 (17): 168-192, 2021