RISS 검색 - 국내학술지논문 상세보기

다국어 초록 (Multilingual Abstract)

We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines use web crawling in order to make data updated. Web crawling is usually used to generate copies of all the pages of visited sites. Search engines index the pages for faster searching. With regard to data collection for wholesale and order information changing in realtime, the keyword-oriented web data collection is not adequate. The alternative for selective collection of web information in realtime has not been suggested. In this paper, we propose a method of collecting information of restricted web sites by using Web crawling distributed monitoring system (R-WCMS) and estimating collection time through detailed analysis of data and storing them in parallel system. Experimental results show that web site information retrieval is applied to the proposed model, reducing the time of 15-17%.

국문 초록 (Abstract)

급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된...

급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세 분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

참고문헌 (Reference)

1 김효종, "큐를 이용한 다중스레드 방식의 웹 크롤링 설계" 중소기업융합학회 7 (7): 43-51, 2017

2 김광영, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발" 한국콘텐츠학회 11 (11): 9-16, 2011

3 신은정, "오디세우스 대용량 검색 엔진을 위한병렬 웹 크롤러의 구현" 한국정보과학회 14 (14): 567-581, 2008

4 구진희, "실시간 데이터 분석의 성능개선을 위한 적응형 학습 모델연구" 중소기업융합학회 8 (8): 201-206, 2018

5 Christopher Olston, "Web Crawling" Now Publishers 4 (4): 175-246, 2010

6 M. Zaharia, "Scott Shenker, and Ion Stoica, Spark:Cluster Computing with Working Set" 10 (10): 95-, 2010

7 H. J. Mun, "Polling Method based on Weight Table for Efficient Monitoring" 5 (5): 5-10, 2015

8 J. h. Cho, "Parallel crawlers" ACM 124-135, 2009

9 G. Pant, "MySpiders : Evolve your own intelligent Web crawlers" 5 (5): 221-229, 2002

10 "Kafka"

1 김효종, "큐를 이용한 다중스레드 방식의 웹 크롤링 설계" 중소기업융합학회 7 (7): 43-51, 2017

2 김광영, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발" 한국콘텐츠학회 11 (11): 9-16, 2011

3 신은정, "오디세우스 대용량 검색 엔진을 위한병렬 웹 크롤러의 구현" 한국정보과학회 14 (14): 567-581, 2008

4 구진희, "실시간 데이터 분석의 성능개선을 위한 적응형 학습 모델연구" 중소기업융합학회 8 (8): 201-206, 2018

5 Christopher Olston, "Web Crawling" Now Publishers 4 (4): 175-246, 2010

6 M. Zaharia, "Scott Shenker, and Ion Stoica, Spark:Cluster Computing with Working Set" 10 (10): 95-, 2010

7 H. J. Mun, "Polling Method based on Weight Table for Efficient Monitoring" 5 (5): 5-10, 2015

8 J. h. Cho, "Parallel crawlers" ACM 124-135, 2009

9 G. Pant, "MySpiders : Evolve your own intelligent Web crawlers" 5 (5): 221-229, 2002

10 "Kafka"

11 Y. S. Jeong, "Business Process Model for Efficient SMB using Big Data" 5 (5): 11-16, 2015

연월일	이력구분	이력상세
2025	평가예정	신규평가 신청대상 (신규평가)
2022-06-01	평가	등재학술지 취소
2021-01-01	평가	등재학술지 유지 (재인증)
2018-01-01	평가	등재학술지 선정 (계속평가)
2017-02-02	학술지명변경	한글명 : 중소기업융합학회논문지 -> 융합정보논문지 외국어명 : Journal of Convergence Society for SMB -> Journal of Convergence for Information Technology
2016-01-01	평가	등재후보학술지 선정 (신규평가)

기준연도	WOS-KCI 통합IF(2년)	KCIF(2년)	KCIF(3년)
2016	0	0	0
KCIF(4년)	KCIF(5년)	중심성지수(3년)	즉시성지수
0	0	0	0

상세검색

RISS 보유자료

상세검색

해외전자자료

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 = Design and Implemention of Real-time web Crawling distributed monitoring system

부가정보

동일학술지(권/호) 다른 논문

분석정보

인용정보 인용지수 설명보기

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료