최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A107869573
김진환 (한국기술교육대학교) ; 김은경 (한국기술교육대학교) ; Kim, Jin-Hwan ; Kim, Eun-Gyung
2021
Korean
KCI등재
학술저널
1135-1143(9쪽)
1
0
상세조회0
다운로드국문 초록 (Abstract)
최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위...
최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.
다국어 초록 (Multilingual Abstract)
Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requir...
Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requirement to specify HTML tags and style attributes that contain the text required for big data analysis in the web crawler. In this paper, we proposed a method of extracting text using the frequency of text appearing in web pages without specifying HTML tags and style attributes. In the proposed method, the text was extracted from the DOM tree of all collected web pages, the frequency of appearance of the text was analyzed, and the main text was extracted by excluding the text with high frequency of appearance. Through this study, the superiority of the proposed method was verified.
참고문헌 (Reference)
1 방한솔, "텍스트마이닝을 이용하여 텍스트의 주요 토픽을 시계열적으로 표현하는 방법론 연구" 한국데이터정보과학회 30 (30): 1259-1276, 2019
2 송원문, "텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출" 한국정보과학회 40 (40): 155-163, 2013
3 이정현, "텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로" 한국지식경영학회 21 (21): 197-210, 2020
4 이수련, "텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -“한일군사정보보호협정(GSOMIA) 종료”를 중심으로-" 한국디지털정책학회 18 (18): 277-284, 2020
5 조경원, "텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링" 한국정보통신학회 23 (23): 764-770, 2019
6 김소현, "소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법" 한국정보처리학회 6 (6): 279-284, 2017
7 차민금, "소셜 데이터를 통한 공간적 공동경험에 관한 연구" 사단법인 인문사회과학기술융합학회 7 (7): 851-859, 2017
8 T. Vogels, "Web2text : Deep structured boilerplate removal" 167-179, 2018
9 전현지, "HTML 논리적 구조분석을 통한 본문추출 알고리즘" 한국디지털콘텐츠학회 16 (16): 445-455, 2015
10 A. Tharwat, "Classification assessment methods" 17 (17): 168-192, 2021
1 방한솔, "텍스트마이닝을 이용하여 텍스트의 주요 토픽을 시계열적으로 표현하는 방법론 연구" 한국데이터정보과학회 30 (30): 1259-1276, 2019
2 송원문, "텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출" 한국정보과학회 40 (40): 155-163, 2013
3 이정현, "텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로" 한국지식경영학회 21 (21): 197-210, 2020
4 이수련, "텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -“한일군사정보보호협정(GSOMIA) 종료”를 중심으로-" 한국디지털정책학회 18 (18): 277-284, 2020
5 조경원, "텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링" 한국정보통신학회 23 (23): 764-770, 2019
6 김소현, "소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법" 한국정보처리학회 6 (6): 279-284, 2017
7 차민금, "소셜 데이터를 통한 공간적 공동경험에 관한 연구" 사단법인 인문사회과학기술융합학회 7 (7): 851-859, 2017
8 T. Vogels, "Web2text : Deep structured boilerplate removal" 167-179, 2018
9 전현지, "HTML 논리적 구조분석을 통한 본문추출 알고리즘" 한국디지털콘텐츠학회 16 (16): 445-455, 2015
10 A. Tharwat, "Classification assessment methods" 17 (17): 168-192, 2021
11 C. Kohlschütter, "Boilerplate detection using shallow text features" 441-450, 2010
12 J. Leonhardt, "Boilerplate Removal using a Neural Sequence Labeling Model" 226-229, 2020
가상현실과 증강현실 기반의 산업용 공정에 필요한 세부 제어 기술에 관한 연구
MANET에서 종단간 통신지연 최소화를 위한 심층 강화학습 기반 분산 라우팅 알고리즘
한국형 국제국방산업협력제도 도입시 방산협력국가 수요확산 예측 연구
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2027 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2021-01-01 | 평가 | 등재학술지 유지 (재인증) | |
2018-01-01 | 평가 | 등재학술지 선정 (계속평가) | |
2017-12-01 | 평가 | 등재후보로 하락 (계속평가) | |
2013-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2011-11-23 | 학술지명변경 | 외국어명 : THE JOURNAL OF The KOREAN Institute Of Maritime information & Communication Science -> Journal of the Korea Institute Of Information and Communication Engineering | |
2011-11-16 | 학회명변경 | 영문명 : International Journal of Information and Communication Engineering(IJICE) -> The Korea Institute of Information and Communication Engineering | |
2011-11-14 | 학회명변경 | 한글명 : 한국해양정보통신학회 -> 한국정보통신학회영문명 : 미등록 -> International Journal of Information and Communication Engineering(IJICE) | |
2010-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2008-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2005-01-01 | 평가 | 등재학술지 선정 (등재후보2차) | |
2004-01-01 | 평가 | 등재후보 1차 PASS (등재후보1차) | |
2002-07-01 | 평가 | 등재후보학술지 선정 (신규평가) |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.23 | 0.23 | 0.27 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.24 | 0.22 | 0.424 | 0.11 |