RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 = Design and Implemention of Real-time web Crawling distributed monitoring system

      한글로보기

      https://www.riss.kr/link?id=A106024212

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines ...

      We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines use web crawling in order to make data updated. Web crawling is usually used to generate copies of all the pages of visited sites. Search engines index the pages for faster searching. With regard to data collection for wholesale and order information changing in realtime, the keyword-oriented web data collection is not adequate. The alternative for selective collection of web information in realtime has not been suggested. In this paper, we propose a method of collecting information of restricted web sites by using Web crawling distributed monitoring system (R-WCMS) and estimating collection time through detailed analysis of data and storing them in parallel system. Experimental results show that web site information retrieval is applied to the proposed model, reducing the time of 15-17%.

      더보기

      국문 초록 (Abstract)

      급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된...

      급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세 분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

      더보기

      참고문헌 (Reference)

      1 김효종, "큐를 이용한 다중스레드 방식의 웹 크롤링 설계" 중소기업융합학회 7 (7): 43-51, 2017

      2 김광영, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발" 한국콘텐츠학회 11 (11): 9-16, 2011

      3 신은정, "오디세우스 대용량 검색 엔진을 위한병렬 웹 크롤러의 구현" 한국정보과학회 14 (14): 567-581, 2008

      4 구진희, "실시간 데이터 분석의 성능개선을 위한 적응형 학습 모델연구" 중소기업융합학회 8 (8): 201-206, 2018

      5 Christopher Olston, "Web Crawling" Now Publishers 4 (4): 175-246, 2010

      6 M. Zaharia, "Scott Shenker, and Ion Stoica, Spark:Cluster Computing with Working Set" 10 (10): 95-, 2010

      7 H. J. Mun, "Polling Method based on Weight Table for Efficient Monitoring" 5 (5): 5-10, 2015

      8 J. h. Cho, "Parallel crawlers" ACM 124-135, 2009

      9 G. Pant, "MySpiders : Evolve your own intelligent Web crawlers" 5 (5): 221-229, 2002

      10 "Kafka"

      1 김효종, "큐를 이용한 다중스레드 방식의 웹 크롤링 설계" 중소기업융합학회 7 (7): 43-51, 2017

      2 김광영, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발" 한국콘텐츠학회 11 (11): 9-16, 2011

      3 신은정, "오디세우스 대용량 검색 엔진을 위한병렬 웹 크롤러의 구현" 한국정보과학회 14 (14): 567-581, 2008

      4 구진희, "실시간 데이터 분석의 성능개선을 위한 적응형 학습 모델연구" 중소기업융합학회 8 (8): 201-206, 2018

      5 Christopher Olston, "Web Crawling" Now Publishers 4 (4): 175-246, 2010

      6 M. Zaharia, "Scott Shenker, and Ion Stoica, Spark:Cluster Computing with Working Set" 10 (10): 95-, 2010

      7 H. J. Mun, "Polling Method based on Weight Table for Efficient Monitoring" 5 (5): 5-10, 2015

      8 J. h. Cho, "Parallel crawlers" ACM 124-135, 2009

      9 G. Pant, "MySpiders : Evolve your own intelligent Web crawlers" 5 (5): 221-229, 2002

      10 "Kafka"

      11 Y. S. Jeong, "Business Process Model for Efficient SMB using Big Data" 5 (5): 11-16, 2015

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2025 평가예정 신규평가 신청대상 (신규평가)
      2022-06-01 평가 등재학술지 취소
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 선정 (계속평가) KCI등재
      2017-02-02 학술지명변경 한글명 : 중소기업융합학회논문지 -> 융합정보논문지
      외국어명 : Journal of Convergence Society for SMB -> Journal of Convergence for Information Technology
      KCI등재후보
      2016-01-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0 0 0
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0 0 0 0
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼