RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      빈도 분석을 이용한 HTML 텍스트 추출 = HTML Text Extraction Using Frequency Analysis

      한글로보기

      https://www.riss.kr/link?id=A107869573

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위...

      최근 빅데이터 분석을 위해 웹 크롤러를 이용한 텍스트 수집이 빈번하게 이루어지고 있다. 하지만 수많은 태그와 텍스트로 복잡하게 구성된 웹 페이지에서 필요한 텍스트만을 수집하기 위해서는 웹 크롤러에 빅데이터 분석에 필요한 본문이 포함된 HTML태그와 스타일 속성을 명시해야 하는 번거로움이 있다. 본 논문에서는 HTML태그와 스타일 속성을 명시하지 않고 웹 페이지에서 출현하는 텍스트의 빈도를 이용하여 본문을 추출하는 방법을 제안하였다. 제안한 방법에서는 수집된 모든 웹 페이지의 DOM 트리에서 텍스트를 추출하여 텍스트의 출현 빈도를 분석한 후, 출현 빈도가 높은 텍스트를 제외시킴으로써 본문을 추출하였으며, 본 연구에서 제안한 방법과 기존 방법의 정확도 비교를 통해서 본 연구에서 제안한 방법의 우수성을 검증하였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requir...

      Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requirement to specify HTML tags and style attributes that contain the text required for big data analysis in the web crawler. In this paper, we proposed a method of extracting text using the frequency of text appearing in web pages without specifying HTML tags and style attributes. In the proposed method, the text was extracted from the DOM tree of all collected web pages, the frequency of appearance of the text was analyzed, and the main text was extracted by excluding the text with high frequency of appearance. Through this study, the superiority of the proposed method was verified.

      더보기

      참고문헌 (Reference)

      1 방한솔, "텍스트마이닝을 이용하여 텍스트의 주요 토픽을 시계열적으로 표현하는 방법론 연구" 한국데이터정보과학회 30 (30): 1259-1276, 2019

      2 송원문, "텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출" 한국정보과학회 40 (40): 155-163, 2013

      3 이정현, "텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로" 한국지식경영학회 21 (21): 197-210, 2020

      4 이수련, "텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -“한일군사정보보호협정(GSOMIA) 종료”를 중심으로-" 한국디지털정책학회 18 (18): 277-284, 2020

      5 조경원, "텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링" 한국정보통신학회 23 (23): 764-770, 2019

      6 김소현, "소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법" 한국정보처리학회 6 (6): 279-284, 2017

      7 차민금, "소셜 데이터를 통한 공간적 공동경험에 관한 연구" 사단법인 인문사회과학기술융합학회 7 (7): 851-859, 2017

      8 T. Vogels, "Web2text : Deep structured boilerplate removal" 167-179, 2018

      9 전현지, "HTML 논리적 구조분석을 통한 본문추출 알고리즘" 한국디지털콘텐츠학회 16 (16): 445-455, 2015

      10 A. Tharwat, "Classification assessment methods" 17 (17): 168-192, 2021

      1 방한솔, "텍스트마이닝을 이용하여 텍스트의 주요 토픽을 시계열적으로 표현하는 방법론 연구" 한국데이터정보과학회 30 (30): 1259-1276, 2019

      2 송원문, "텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출" 한국정보과학회 40 (40): 155-163, 2013

      3 이정현, "텍스트 마이닝을 활용한 스마트 스피커 제품의 포지셔닝: 인공지능 속성을 중심으로" 한국지식경영학회 21 (21): 197-210, 2020

      4 이수련, "텍스트 마이닝을 이용한 SNS와 언론의 이슈에 대한 반응 비교 -“한일군사정보보호협정(GSOMIA) 종료”를 중심으로-" 한국디지털정책학회 18 (18): 277-284, 2020

      5 조경원, "텍스트 마이닝을 이용한 4차 산업 연구 동향 토픽 모델링" 한국정보통신학회 23 (23): 764-770, 2019

      6 김소현, "소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법" 한국정보처리학회 6 (6): 279-284, 2017

      7 차민금, "소셜 데이터를 통한 공간적 공동경험에 관한 연구" 사단법인 인문사회과학기술융합학회 7 (7): 851-859, 2017

      8 T. Vogels, "Web2text : Deep structured boilerplate removal" 167-179, 2018

      9 전현지, "HTML 논리적 구조분석을 통한 본문추출 알고리즘" 한국디지털콘텐츠학회 16 (16): 445-455, 2015

      10 A. Tharwat, "Classification assessment methods" 17 (17): 168-192, 2021

      11 C. Kohlschütter, "Boilerplate detection using shallow text features" 441-450, 2010

      12 J. Leonhardt, "Boilerplate Removal using a Neural Sequence Labeling Model" 226-229, 2020

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 선정 (계속평가) KCI등재
      2017-12-01 평가 등재후보로 하락 (계속평가) KCI등재후보
      2013-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2011-11-23 학술지명변경 외국어명 : THE JOURNAL OF The KOREAN Institute Of Maritime information & Communication Science -> Journal of the Korea Institute Of Information and Communication Engineering KCI등재
      2011-11-16 학회명변경 영문명 : International Journal of Information and Communication Engineering(IJICE) -> The Korea Institute of Information and Communication Engineering KCI등재
      2011-11-14 학회명변경 한글명 : 한국해양정보통신학회 -> 한국정보통신학회
      영문명 : 미등록 -> International Journal of Information and Communication Engineering(IJICE)
      KCI등재
      2010-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2005-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2004-01-01 평가 등재후보 1차 PASS (등재후보1차) KCI등재후보
      2002-07-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.23 0.23 0.27
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.24 0.22 0.424 0.11
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼