웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A107273590
2021
Korean
웹 크롤링 ; 데이터 수집 ; 셀레니움 ; 크롤러 설정 ; 동적 웹페이지 ; web crawling ; collect data ; Selenium ; dynamic webpage ; configuration of crawler
KCI등재
학술저널
98-103(6쪽)
0
0
상세조회0
다운로드국문 초록 (Abstract)
웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스...
웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스 코드를 수정해야하는 종속적 특징을 가지며, 운영 규모가 클수록 유지보수 비용이 비례적으로 증가하게 되어 웹 크롤링 운영에 대한 부담이 발생하게 된다. 본 논문은 웹 크롤러의 유지보수의 비용을 절감하기 위한 방안으로 웹 크롤러의 동작을 구조화한 설정 항목을 도출하고 설정에 따라 동작하는 크롤러 개발을 통하여 설정만으로 다수의 웹 크롤러 관리하는 방안을 제시한다. 웹 크롤러의 설정은 웹페이지 이동 설정, 데이터 수집 설정으로 구분하여 설계하고 Selenium 프레임워크를 활용한 웹 크롤러를 구현하였으며 다양한 유형에 웹 사이트를 대상으로 데이터 수집 실험을 수행하여 설계된 설정 구조가 다양한 웹 페이지에서 적용 가능함을 확인하였다.
다국어 초록 (Multilingual Abstract)
Web crawler is a program that moves between web pages, parses structure of HTML, and collects web data. If there are any changes to a website, the web crawler must modify its source code. Therefore, the cost of maintenance increases proportionally to ...
Web crawler is a program that moves between web pages, parses structure of HTML, and collects web data. If there are any changes to a website, the web crawler must modify its source code. Therefore, the cost of maintenance increases proportionally to the size of the operation. To reduce the cost of maintenance, we propose designing configuration items that structure the behavior of web crawlers and creating a method of managing multiple web crawlers with only configurations. The web crawler configuration is designed for web page navigation and data collection, so we developed the Selenium-based web crawler and tested it on various types of websites. Through the proposed configuration, it has been confirmed that it is available in multiple websites.
목차 (Table of Contents)
참고문헌 (Reference)
1 나철원, "최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안" 한국인터넷정보학회 20 (20): 49-59, 2019
2 김대유, "자바스크립트 함수 처리 기능을 포함한 분산처리 방식의 웹 수집 로봇의 설계" 한국정보통신학회 13 (13): 2595-2602, 2009
3 조완섭, "웹크롤러의 수집주기 최적화" 한국콘텐츠학회 13 (13): 30-39, 2013
4 "Selenium"
5 Ministry of the Interior and Safety, "Korean Government Data Portal"
6 "Apache Nutch"
7 w3schools.com, "AJAX Introduction"
8 Se-jin Oh, "A design of web crawler based an event of in HTML tags" Soongsil Univ 2015
1 나철원, "최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안" 한국인터넷정보학회 20 (20): 49-59, 2019
2 김대유, "자바스크립트 함수 처리 기능을 포함한 분산처리 방식의 웹 수집 로봇의 설계" 한국정보통신학회 13 (13): 2595-2602, 2009
3 조완섭, "웹크롤러의 수집주기 최적화" 한국콘텐츠학회 13 (13): 30-39, 2013
4 "Selenium"
5 Ministry of the Interior and Safety, "Korean Government Data Portal"
6 "Apache Nutch"
7 w3schools.com, "AJAX Introduction"
8 Se-jin Oh, "A design of web crawler based an event of in HTML tags" Soongsil Univ 2015
중첩 조건이 없는 규칙 검색 시간 단축을 위한 다계층 인덱싱 기술
데이터베이스 내부자 공격탐지를 위한 사용자 질의의 분리표현 학습
가상 스캔 매칭을 이용한 3차원 점군 지도의 품질 평가
Improving BERT-based Sentiment Analysis Model using Graph-based Ranking Mechanism
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2022 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2019-01-01 | 평가 | 등재학술지 유지 (계속평가) | |
2016-01-01 | 평가 | 등재학술지 유지 (계속평가) | |
2015-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2014-09-16 | 학술지명변경 | 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 및 레터 -> 정보과학회 컴퓨팅의 실제 논문지외국어명 : Journal of KIISE : Computing Practices and Letters -> KIISE Transactions on Computing Practices | |
2013-04-26 | 학술지명변경 | 외국어명 : Journal of KISS : Computing Practices and Letters -> Journal of KIISE : Computing Practices and Letters | |
2011-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2009-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2008-10-02 | 학술지명변경 | 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 -> 정보과학회논문지 : 컴퓨팅의 실제 및 레터외국어명 : Journal of KISS : Computing Practices -> Journal of KISS : Computing Practices and Letters | |
2007-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2005-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2002-01-01 | 평가 | 등재학술지 선정 (등재후보2차) |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.29 | 0.29 | 0.27 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.24 | 0.21 | 0.503 | 0.04 |