RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      다중 웹사이트 관리를 위한 동작 기반 웹 크롤러 설정 구조 설계

      한글로보기

      https://www.riss.kr/link?id=A107273590

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스...

      웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스 코드를 수정해야하는 종속적 특징을 가지며, 운영 규모가 클수록 유지보수 비용이 비례적으로 증가하게 되어 웹 크롤링 운영에 대한 부담이 발생하게 된다. 본 논문은 웹 크롤러의 유지보수의 비용을 절감하기 위한 방안으로 웹 크롤러의 동작을 구조화한 설정 항목을 도출하고 설정에 따라 동작하는 크롤러 개발을 통하여 설정만으로 다수의 웹 크롤러 관리하는 방안을 제시한다. 웹 크롤러의 설정은 웹페이지 이동 설정, 데이터 수집 설정으로 구분하여 설계하고 Selenium 프레임워크를 활용한 웹 크롤러를 구현하였으며 다양한 유형에 웹 사이트를 대상으로 데이터 수집 실험을 수행하여 설계된 설정 구조가 다양한 웹 페이지에서 적용 가능함을 확인하였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Web crawler is a program that moves between web pages, parses structure of HTML, and collects web data. If there are any changes to a website, the web crawler must modify its source code. Therefore, the cost of maintenance increases proportionally to ...

      Web crawler is a program that moves between web pages, parses structure of HTML, and collects web data. If there are any changes to a website, the web crawler must modify its source code. Therefore, the cost of maintenance increases proportionally to the size of the operation. To reduce the cost of maintenance, we propose designing configuration items that structure the behavior of web crawlers and creating a method of managing multiple web crawlers with only configurations. The web crawler configuration is designed for web page navigation and data collection, so we developed the Selenium-based web crawler and tested it on various types of websites. Through the proposed configuration, it has been confirmed that it is available in multiple websites.

      더보기

      목차 (Table of Contents)

      • 요약
      • Abstract
      • 1. 서론
      • 2. 동작 기반 웹 크롤링
      • 3. 동작 기반 웹 크롤링의 설정 구조 설계
      • 요약
      • Abstract
      • 1. 서론
      • 2. 동작 기반 웹 크롤링
      • 3. 동작 기반 웹 크롤링의 설정 구조 설계
      • 4. 웹 크롤러의 구현
      • 5. 성능 테스트
      • 6. 결론 및 향후 연구
      • References
      더보기

      참고문헌 (Reference)

      1 나철원, "최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안" 한국인터넷정보학회 20 (20): 49-59, 2019

      2 김대유, "자바스크립트 함수 처리 기능을 포함한 분산처리 방식의 웹 수집 로봇의 설계" 한국정보통신학회 13 (13): 2595-2602, 2009

      3 조완섭, "웹크롤러의 수집주기 최적화" 한국콘텐츠학회 13 (13): 30-39, 2013

      4 "Selenium"

      5 Ministry of the Interior and Safety, "Korean Government Data Portal"

      6 "Apache Nutch"

      7 w3schools.com, "AJAX Introduction"

      8 Se-jin Oh, "A design of web crawler based an event of in HTML tags" Soongsil Univ 2015

      1 나철원, "최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안" 한국인터넷정보학회 20 (20): 49-59, 2019

      2 김대유, "자바스크립트 함수 처리 기능을 포함한 분산처리 방식의 웹 수집 로봇의 설계" 한국정보통신학회 13 (13): 2595-2602, 2009

      3 조완섭, "웹크롤러의 수집주기 최적화" 한국콘텐츠학회 13 (13): 30-39, 2013

      4 "Selenium"

      5 Ministry of the Interior and Safety, "Korean Government Data Portal"

      6 "Apache Nutch"

      7 w3schools.com, "AJAX Introduction"

      8 Se-jin Oh, "A design of web crawler based an event of in HTML tags" Soongsil Univ 2015

      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2022 평가예정 재인증평가 신청대상 (재인증)
      2019-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2016-01-01 평가 등재학술지 유지 (계속평가) KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2014-09-16 학술지명변경 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 및 레터 -> 정보과학회 컴퓨팅의 실제 논문지
      외국어명 : Journal of KIISE : Computing Practices and Letters -> KIISE Transactions on Computing Practices
      KCI등재
      2013-04-26 학술지명변경 외국어명 : Journal of KISS : Computing Practices and Letters -> Journal of KIISE : Computing Practices and Letters KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-10-02 학술지명변경 한글명 : 정보과학회논문지 : 컴퓨팅의 실제 -> 정보과학회논문지 : 컴퓨팅의 실제 및 레터
      외국어명 : Journal of KISS : Computing Practices -> Journal of KISS : Computing Practices and Letters
      KCI등재
      2007-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2005-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2002-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.29 0.29 0.27
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.24 0.21 0.503 0.04
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼