RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        크롤링을 통한 데이터 수집과 형사책임 - 대법원 2022.5.12. 선고 2021도1533 판결을 중심으로

        선종수 한국형사법학회 2023 刑事法硏究 Vol.35 No.3

        정보통신기술이 발달함에 따라 생산되는 데이터의 양은 상상을 초월하는 수준에이르렀다. 이러한 데이터는 하나의 경제 자원으로 인식되고 있다. 그러나 모든 데이터가 경제 자원일 수 없으므로 수집된 데이터는 분석과정을 거쳐 활용하게 된다. 이러한 과정에서 사용되는 방법이 웹 크롤링(web crawling)이다. 일반적으로 웹 크롤링은 웹 크롤러(web crawler), 즉 조직적, 자동화된 방법으로월드 와이드 웹(World Wide Web, WWW)을 탐색하는 컴퓨터 프로그램을 통한 작업을 말한다. 다시 말해 웹 크롤링은 정보수집 로봇을 통하여 다른 사람이 운영하는 웹사이트에서 필요한 정보를 수집하는 행위를 의미한다. 이러한 웹 크롤링은 인터넷을기반으로 하는 여러 분야에서 폭넓게 활용되고 있다. 특히 데이터의 중요성이 강조되는 현재 시점에서 웹 크롤링은 더욱 주목을 받고 있다. 최근 대법원은 웹 크롤링과 관련한 정보통신망법상 정보통신망 침입에 해당하는지여부에 대한 판결을 선고하였다. 이 판결은 웹 크롤링 관련 최초의 판결로 그 의미가있다. 대상판결은 웹 크롤링을 이용한 데이터 수집에 관한 형사책임을 최초로 판시하였다는 점에서 그 의의가 있다. 대상판결은 형사법적 쟁점 세 가지 모두 무죄를 선고하였다. 구체적으로 보면 정보통신망법위반죄(정보통신망침해등), 형법상 컴퓨터등장애업무방해죄 그리고 저작권법위반죄(데이터베이스저작권 침해) 등이다. 그러나 비록 대상판결에 따라 형사법적 쟁점에 대한 무죄의 판단이더라도 기술 자체에 대하여 법률적 가치판단을 할 수는 없다. 따라서 크롤링 기술에 대해 형사책임이 없다는 것으로 단정하기 어렵다. 이러한 의미에서 본다면 향후 유사 사례의 경우대상판결과는 다른 결론이 나올 수 있다. 왜냐하면 대상판결의 경우 정보통신망법 위반은 무죄가 되었지만 구체적인 사정에 따라 웹 크롤링을 통한 데이터 수집행위가정보통신망 침입으로 인정될 여지가 남아있기 때문이다. With the development of information and communication technology, the amount of data produced has reached an unimaginable level. Such data is recognized as an economic resource. However, not all data can be economic resources, so the collected data is used through the analysis process. Web crawling is a method used in this process. In general, web crawling refers to the work of a web crawler, that is, a computer program that explores the World Wide Web (WWW) in an organized and automated manner. In other words, web crawling refers to the act of collecting necessary information from a website operated by another person through an information collection robot. Such web crawling is widely used in various fields based on the Internet. Web crawling is drawing more attention, especially at a time when the importance of data is emphasized. Recently, the Supreme Court ruled on whether it constitutes an intrusion into the information and communication network under the Information and Communication Network Act related to web crawling. This ruling is meaningful as it is the first ruling related to web crawling. The target judgment is meaningful in that it was the first to judge criminal responsibility for data collection using web crawling. The target judgment acquitted all three criminal legal issues. Specifically, they are crimes of violating the Information and Communication Network Act (infringement of information and communication network, etc.), obstruction of business such as computers under the criminal law, and violation of copyright law (infringement of database copyright). However, even if it is a judgment of innocence on criminal legal issues according to the target judgment, legal value judgment on the technology itself cannot be made. Therefore, it is difficult to conclude that there is no criminal responsibility for crawling technology. In this sense, similar cases in the future may come to a different conclusion from the target judgment. This is because in the case of the target judgment, the violation of the Information and Communication Network Act was acquitted, but there is still room for data collection through web crawling to be recognized as an intrusion into the information and communication network.

      • KCI등재

        데이터 경제 시대에 있어서 웹 크롤링(crawling)의 법적 인식에 관한 연구

        권세진,이정훈,이창무 한국산업보안연구학회 2021 한국산업보안연구 Vol.11 No.3

        웹 크롤링은 빅데이터 시대에 있어서 필수불가결한 데이터 수집 방법론임에도 불구하고 그 법 적 기준이 불분명하고 관련 분쟁이 지속적으로 발생하고 있다는 점에서 부정적인 시각이 일부 존재한다. 그러나 웹 크롤링에 대한 소극적이고 부정적인 이해는 빅데이터 시대의 데이터 경제 촉진을 저해할 우려가 있다. 따라서 이 연구는 보다 객관적이고 중립적 입장에서 웹크롤링의 필 요성과 중요성에 대한 인식을 환기시키고자 웹 크롤링에 관한 특허기술, 선행 연구, 언론보도 등 을 분석하고, 관련 판례 및 법적 쟁점을 검토하였다. 분석 결과 웹 크롤링은 데이터 경제시대에 필수불가결한 기술이자 데이터 경쟁력의 원천이 되 며 몹시 다양한 분야에 활용되고 있으나, 지식재산권 침해 및 정보통신망 침입죄 등을 구성할 우 려가 존재한다는 점을 확인할 수 있었다. 그러나 웹 크롤링이 타인의 권리를 침해할 소지가 있더 라도, 데이터를 수집하여 새로운 가치를 창출하기 위해 유용하게 사용되는 웹 크롤링 기술의 특 성상 이에 대한 과도한 규제는 바람직하지 않다는 점을 도출하였다. 따라서 이 연구에서는 웹 크롤링을 데이터 경제시대의 원천이 되는 “자원 수집 기술”이자, “자 원 활용 기술”로서 원천기술에 해당하는 역할을 수행하는 것으로 이해하였다. 나아가 향후 TDM 면책 규정이 입법되고 데이터 활용 기반이 확충되는 경우라면 웹 크롤링의 역할은 더욱 중요해 질 것으로 전망하였다. 이에 따라 데이터 경제시대의 공정한 웹 크롤링 기반 조성의 방향성을 i) 법제도·정책 기반 개선 및 공정이용 가이드라인 마련, ii) 웹 크롤링 관련 대체적 분쟁해결 제도 활성화, iii) 상생과 협력의 웹 크롤링 생태계 마련으로서 공정거래법상 웹 크롤링 제한에 관한 규 율과 대·중소기업의 데이터 상생과 상호 활용 모델 발굴을 각 제안하였다. Web crawling is an indispensable data collection methodology in the era of big data. Nevertheless, the criteria for this are unclear, and related disputes continue to arise. This leads to a negative view of web crawling. However, a passive and negative understanding of web crawling raises concerns that it will hinder the promotion of the data economy in the era of big data. In order to raise awareness of the necessity and importance of web crawling from a more objective and neutral standpoint, this study analyzed patent technology, previous studies, and media reports on web crawling and reviewed related precedents and legal issues. As a result of the analysis, web crawling is an indispensable technology and a source of data competitiveness in the data economy era. At the same time, it was found that web crawling may constitute infringement of intellectual property rights and intrusion of information and networks. However, even if web crawling may infringe on the rights of others, excessive regulation of web crawling technology, which is usefully used to collect data and create new value, is not desirable. Therefore, in this study, web crawling was understood to play a role corresponding to the original technology as a “resource collection technology” and a “resource utilization technology” that is the source of the data economy era. Furthermore, it is predicted that the role of web crawling will become more important if the TDM exemption regulations are legislated and the basis for data utilization is expanded in the future. Accordingly, the direction of creating a fair web crawling base in the data economy era was suggested to 1) improve the legal and policy base and establish fair use guidelines, 2) revitalize alternative dispute resolution systems related to web crawling, and 3) establish web crawling ecosystems under the Fair Trade Act.

      • KCI등재

        최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안

        나철원,온병원 한국인터넷정보학회 2019 인터넷정보학회논문지 Vol.20 No.3

        Today, with the spread of smartphones and the development of social networking services, structured and unstructured big data have stored exponentially. If we analyze them well, we will get useful information to be able to predict data for the future. Large amounts of data need to be collected first in order to analyze big data. The web is repository where these data are most stored. However, because the data size is large, there are also many data that have information that is not needed as much as there are data that have useful information. This has made it important to collect data efficiently, where data with unnecessary information is filtered and only collected data with useful information. Web crawlers cannot download all pages due to some constraints such as network bandwidth, operational time, and data storage. This is why we should avoid visiting many pages that are not relevant to what we want and download only important pages as soon as possible. This paper seeks to help resolve the above issues. First, We introduce basic web-crawling algorithms. For each algorithm, the time-complexity and pros and cons are described, and compared and analyzed. Next, we introduce the state-of-the-art web crawling algorithms that have improved the shortcomings of the basic web crawling algorithms. In addition, recent research trends show that the web crawling algorithms with special purposes such as collecting sentiment words are actively studied. We will one of the introduce Sentiment-aware web crawling techniques that is a proactive web crawling technique as a study of web crawling algorithms with special purpose. The result showed that the larger the data are, the higher the performance is and the more space is saved. 오늘날 스마트폰의 보급과 SNS의 발달로 정형/비정형 빅데이터는 기하급수적으로 증가하였다. 이러한 빅데이터를 잘 분석한다면 미래 예측도 가능할 만큼 훌륭한 정보를 얻을 수 있다. 빅데이터를 분석하기 위해서는 먼저 대용량의 데이터 수집이 필요하다. 이러한 데이터가 가장 많이 저장되어 있는 곳은 바로 웹 페이지다. 하지만 데이터의 양이 방대하기 때문에 유용한 정보를 가진 데이터가 많은 만큼 필요하지 않은 정보를 가진 데이터도 많이 존재한다. 그렇기 때문에 필요하지 않은 정보를 가진 데이터는 거르고 유용한 정보를 가진 데이터만을 수집하는 효율적인 데이터 수집의 중요성이 대두되었다. 웹 크롤러는 네트워크 대역폭, 시간적인 문제, 하드웨어적인 저장소 등의 제약으로 인해 모든 페이지를 다운로드 할 수 없다. 그렇기 때문에 원하는 내용과 관련 없는 많은 페이지들의 방문은 피하며 가능한 빠른 시간 내에 중요한 페이지만을 다운로드해야한다. 이 논문은 위와 같은 이슈의 해결을 돕고자한다. 먼저 기본적인 웹 크롤링 알고리즘들을 소개한다. 각 알고리즘마다 시간복잡도와 장단점을 설명하며 비교 및 분석한다. 다음으로 기본적인 웹 크롤링 알고리즘의 단점을 개선한 최신 웹 크롤링 알고리즘들을 소개한다. 더불어 최근 연구 흐름을 보면 감성어휘 수집과 같은 특수한 목적을 가진 웹 크롤링 알고리즘의 대한 연구가 활발히 이루어지고 있다. 특수 목적을 가진 웹 크롤링 알고리즘에 대한 연구로써 선제적인 웹 크롤링 기법으로 감성 반응 웹 크롤링(Sentiment-aware Web Crawling) 기법을 소개한다. 실험결과 데이터의 크기가 커질수록 기존방안보다 높은 성능을 보였고 데이터베이스의 저장 공간도 절약되었다.

      • KCI등재

        웹 크롤링의 데이터 수집행위와 경쟁법적 논의 - 대법원 2022. 5. 12. 선고 2021도1533 판결을 중심으로

        강정희 사법발전재단 2022 사법 Vol.1 No.61

        Recently, the Supreme Court found the defendant not guilty in the case, where the defendant running an accommodation information offering service accessed the mobile application server managed by the victim who was running the same service and copied the database, such as a list of accommodation, which the victim owned and managed by using crawling. In the meantime there were some cases which were related to crawling, however the case was the first judgement of the Supreme Court so it has a great signification. Crawling or web crawling means an act of collecting necessary data from websites by using data-collecting robots called crawlers. In a data economy where data collection and use is more important than ever, it is no wonder that legal issues about crawling are getting attention. In the cases of crawling competitors’ websites and collecting and using data, the scope of legal protection has been decided so far mainly depending on whether communication network of information was infringed without right to access or beyond right to access or not, whether the crawled data was protected by copyright or not. However, as the competitiveness in the time of big data is determined by how much data you have and how much meaningful value you can make from the data, the conflict of interest between the data-haves and the data-trying to have is bound to be fierce. Nevertheless, it is too naive to leaving crawling and collecting data only in the area of copyright or tort law. Crawling is a technic for collecting data and the technic itself is innocent. The question is that the evaluation from a competition law perspective should be different according to how much important the data collected by using crawling is as an asset, whether the results created by using so-collected data has added new value or they are mere copied. As the larger the amount of data is, the more value could be created, data-sharing improve consumer welfare and social utility. On the other hand, if free sharing-data is prevalent it will be harder for data producers to withdraw their investment, and there would be less incentives for innovation. Therefore, the only criteria for solving the legal disputes about collecting data should be to find a balancing-point between data-protection and data-use. In this article, I will try to seek the criteria in the competition law after reviewing the current status and limitation of the pre-existing legal regulations on data-collecting by using crawling. 최근 대법원에서 숙박업체 정보제공 서비스를 운영하는 피고인 회사가 동일한 서비스를 제공하는 피해자 회사의 모바일 애플리케이션 서버에 접속하여 크롤링 방식으로 숙박업소 목록 등 피해자 회사가 보유·관리하는 데이터베이스를 복제한 사안에서 무죄판결이 확정되었다. 그동안에도 크롤링 행위가 문제 된 사건들은 있어 왔으나 대법원에서 최초의 판결이 선고되었다는 점에 의의가 있다. 크롤링(Crawling) 또는 웹 크롤링(Web Crawling)이란 크롤러(Crawler)라 불리우는 정보수집 로봇을 이용하여 다른 사이트에서 필요한 정보를 수집하는 행위를 말한다. 데이터 수집 및 활용이 무엇보다 중요한 데이터 경제 시대에 크롤링을 둘러싼 법적 문제가 주목을 받는 것은 당연하다. 빅데이터 시대에 누가 얼마만큼의 데이터를 보유하고 있으며, 그로부터 얼마나 의미 있는 가치를 도출해 낼 수 있는지가 경쟁력을 좌우하는 만큼 데이터를 가진 자와 이를 가지려고 하는 자 사이에 첨예하게 이해관계가 대립할 수밖에 없다. 경쟁사의 웹사이트를 크롤링하여 데이터를 수집·활용하는 사안에서, 그동안은 주로 접근권한이 없거나 접근권한을 넘어서서 정보통신망을 침해하는지 여부, 수집 대상 데이터가 저작권의 보호대상인지 여부에 따라 법적 보호가 달라졌다. 그러나 공정한 경쟁을 통한 데이터 산업 발전 및 소비자 이익 도모를 위하여 크롤링으로 데이터를 수집하는 행위를 저작권법이나 불법행위법의 영역에만 남겨둘 것이 아니라 경쟁법에서 면밀히 들여다 볼 필요가 있다. 크롤링 기술을 활용하여 수집한 데이터가 경쟁에 있어 얼마나 중요한 자산인지, 수집된 데이터를 활용하여 만들어낸 결과물이 새로운 가치를 더하는지 아니면 일종의 베끼기에 그치는지에 따라 경쟁법적 평가가 달라져야 할 것이다. 데이터의 양이 많을수록 더 많은 가치를 창출할 수 있으므로 데이터 공유는 소비자 후생 나아가 사회적 효용을 증대시킨다. 반면 데이터를 무상공유하도록 할 경우 데이터 생산자의 투하자본의 회수가 곤란해져 혁신의 유인이 감소하는 문제가 있다. 따라서 정보수집을 둘러싼 법적 분쟁 해결 기준은 데이터 보호와 이용 사이의 균형점을 찾는 것일 수밖에 없다. 이 글에서는 대상판결을 통해 크롤링을 통한 데이터 수집행위에 대한 기존의 법규제 현황과 한계를 살펴보고 경쟁법에서의 판단 기준을 모색해 보기로 한다.

      • KCI등재

        웹크롤러의 수집주기 최적화

        조완섭(Wan-Sup Cho),이정은(Jeong-Eun Lee),최치환(Chi-Hwan Choi) 한국콘텐츠학회 2013 한국콘텐츠학회논문지 Vol.13 No.6

        웹 크롤러는 서버의 부담을 최소화하면서도 최신의 데이터를 웹사이트로부터 수집하고 유지해야 한다. 빅데이터 시대와 같이 데이터가 폭발적으로 증가하는 시대에 데이터 소스로부터 자주 모든 데이터를 추출하는 것은 서버에 심각한 부담을 주게 된다. 무선통신 기술과 다양한 스마트 기기들의 확산으로 정보가 급속도로 생성되고 있으며, 어디에서나 어느 시간이나 지속적으로 생성 및 변경되고 있다. 웹크롤러는 이러한 상황을 감안하여 최신의 정보를 적은 오버헤드로 유지해 나가는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 웹사이트의 변경사항을 체크할 수 있는 효과적인 방안과 웹사이트의 수집 주기를 동적으로 변경함으로써 적은 비용으로 최신성을 유지할 수 있는 방안을 제시한다. 핵심 아이디어는 과거 히스토리로부터 웹사이트 변경이 집중되는 시간을 파악하여 웹수집 주기를 결정하는데 반영한다는 점이다. 논문에서는 특정 웹사이트의 데이터를 추출하는 Java 크롤러를 개발하고, 제안된 방식과 기존 방식의 유용성을 비교하였다. 제안된 기법을 사용하면 정적인 방식보다 서버 오버헤드를 절반정도(46.2%)로 줄이면서도 최신성을 더욱 높게 보장할 수 있게 된다. Web crawler should maintain fresh data with minimum server overhead for large amount of data in the web sites. The overhead in the server increases rapidly as the amount of data is exploding as in the big data era. The amount of web information is increasing rapidly with advanced wireless networks and emergence of diverse smart devices. Furthermore, the information is continuously being produced and updated in anywhere and anytime by means of easy web platforms, and smart devices. Now, it is becoming a hot issue how frequently updated web data has to be refreshed in data collection and integration. In this paper, we propose dynamic web-data crawling methods, which include sensitive checking of web site changes, and dynamic retrieving of web pages from target web sites based on historical update patterns. Furthermore, we implemented a Java-based web crawling application and compared efficiency between conventional static approaches and our dynamic one. Our experiment results showed 46.2% overhead benefits with more fresh data compared to the static crawling methods.

      • KCI등재

        웹 크롤링을 통한 데이터 복제의 위법성 판단- 대법원 2022. 5. 12. 선고 2021도1533 판결 -

        최민준 경북대학교 IT와 법연구소 2024 IT와 법 연구 Vol.- No.28

        최근 대법원은 웹 크롤링을 통한 데이터 수집, 복제의 형사책임이 문제된 사안에서, 정보통신망법상 정보통신망 침입과 저작권법상 데이터베이스권 침해를 부정하는 판결을 선고한 바 있다. 대상판결은 IP 차단조치 및 약관에도 불구하고 이용자의 접근권한 자체가 제한된 것은 아니라는 엄격한 태도를 취하고, 데이터베이스권 보호 범위도 질적인 상당성을 기준으로 제한하는 입장이다. 이를 통해 공개된 웹에 대한 이용자의 자유로운 접근이 보장되고, 창작성 없는 데이터베이스에 대해 배타적 보호보다 자유로운 활용의 여지가 확보되는 순기능이 기대된다. 미국에서도 웹 크롤링에 대한 제재수단으로 우리의 정보통신망법과 유사한 컴퓨터사기 및 남용방지법(CFAA) 위반, 계약(약관) 위반, 저작권법 위반 등이 논의되어 왔지만, 최근의 판결 경향에 따르면 이러한 소송원인을 이유로 위법성을 인정하는 데 상당히 소극적이다. 개별 사안에서 웹 크롤링을 통한 데이터 복제의 위법성 여부를 판단하는 것은 곧 데이터 보호와 공유 사이의 갈등을 어떻게 해결할지의 문제라 할 수 있다. 데이터를 독점하려는 자와 이를 수집, 복제, 이용하려는 자 사이의 이해충돌을 해결하는 문제인 것이다. 결국 위법성 판단을 위해서는 데이터를 보호하는 측면의 효용 못지 않게 데이터를 공유하고 활용하는 측면의 효용도 함께 고려되어야 하고, 양자간 이익형량이 무엇보다 중요하다. 그러나 정보통신망 침입 여부로 형사처벌 여부를 결정하는 방식, 데이터베이스권을 배타적, 물권적 권리로 보호하는 방식은 이러한 이익형량을 불가능하게 하는 all or nothing의 방식이다. 이는 자칫 빅데이터, 인공지능 등 기술 분야의 발전을 저해할 우려도 있다. 그보다는 이익형량이 충분히 기능할 수 있는 방식, 즉 자유롭고 공정한 경쟁질서 관점에서 부정경쟁방지법, 공정거래법을 통해 조정과 해결을 모색하는 것이 타당할 것이다. Recently, the Supreme Court issued a ruling denying violations of the Information and Communication Network Act and copyright law in case that matters criminal responsibility of web crawling data copying. The target judgment takes a strict attitude in recognizing restrictions on users' access to information and communication networks in consideration of the public nature of the web. The target judgment also limits the scope of database rights protection based on qualitative equivalence. In the United States, Computer Fraud and Abuse Act, breach of contract and copyright law have been discussed as a sanction against web crawling data copying. The recent U.S. ruling has a strict attitude toward judging illegality of web crawling data copying. In order to judge the illegality of web crawling data copying in individual cases, an interest balancing between data protection and sharing is essential. But the method of determining criminal punishment based on whether or not to invade the information and communication network, and the method of protecting database rights as exclusive rights makes this interest balancing impossible. There is a concern that it will hinder the development of technology fields such as big data and artificial intelligence. In the end, it would be reasonable to seek mediation and resolution through the Unfair Competition Prevention Act and the Fair Trade Act from the perspective of free and fair competition order.

      • KCI등재

        심층 웹 문서 자동 수집을 위한 크롤링 알고리즘 설계 및 실험

        강윤정,이민혜,원동현 한국정보통신학회 2023 한국정보통신학회논문지 Vol.27 No.1

        Deep web collection means entering a query in a search form and collecting response results. It is estimated that the information possessed by the deep web has about 450 to 550 times more information than the statically constructed surface web. The static method does not show the changed information until the web page is refreshed, but the dynamic web page method updates the necessary information in real time and provides real-time information without reloading the web page, but crawler has difficulty accessing the updated information. Therefore, there is a need for a way to automatically collect information on these deep webs using a crawler. Therefore, this paper proposes a method of utilizing scripts as general links, and for this purpose, an algorithm that can utilize client scripts like regular URLs is proposed and experimented. The proposed algorithm focused on collecting web information by menu navigation and script execution instead of the usual method of entering data into search forms. 심층 웹 수집은 검색 양식에 질의어를 입력하고 응답 결과를 수집하는 것을 의미한다. 심층 웹이 가진 정보는 정적으로 구성되는 표면 웹보다 약 450∼550배 이상의 정보를 가지고 있을 것으로 추산한다. 정적인 방식에서는 웹페이지가 새로 고쳐지기 전까지 변화된 정보를 보여주지 못한다. 동적 웹페이지 방식은 실시간으로 필요한 정보가 갱신되어 웹페이지를 새로 불러오지 않아도 실시간 정보 제공이 가능한 장점이 있지만, 일반적인 크롤러는 갱신된 정보에 접근하는 데 어려움이 있다. 따라서 이들 심층 웹에 있는 정보들을 크롤러를 이용해 자동으로 수집할 방안이 필요하다. 이에 본 논문은 스크립트를 일반적인 링크로 활용하는 방법을 제안하였으며, 이를 위해 클라이언트 스크립트를 일반 URL처럼 활용이 가능한 알고리즘을 제안하고 실험하였다. 제안된 알고리즘은, 검색 양식에 데이터를 입력하는 일반적인 방법 대신 메뉴 탐색 및 스크립트 실행으로 웹 정보를 수집하는 데 중점을 두었다.

      • KCI등재

        대규모 웹 기록물의 원격수집을 위한 콘텐츠 중복 필터링 개선 연구

        이연수,남성운,윤대현 한국기록학회 2013 기록학연구 Vol.0 No.35

        As the network and electronic devices have been developed rapidly, the influences the web exerts on our daily lives have been increasing. Information created on the web has been playing more and more essential role as the important records which reflect each era. So there is a strong demand to archive information on the web by a standardized method. One of the methods is the snapshot strategy, which is crawling the web contents periodically using automatic software. But there are two problems in this strategy. First, it can harvest the same and duplicate contents and it is also possible that meaningless and useless contents can be crawled due to complex IT skills implemented on the web. In this paper, we will categorize the problems which can emerge when crawling web contents using snapshot strategy and present the possible solutions to settle the problems through the technical aspects by crawling the web contents in the public institutions. 네트워크 및 정보통신기기가 발전함에 따라 웹이 우리 일상에 미치는 영향력은 점점 더 증가하고 있다. 또한 웹 공간에서 생성되는 정보도 각 시대를 반영하는 중요한 기록물로서 그 중요성이 나날이 커지고 있다. 이에 따라 웹 정보들을 아카이빙 할 수 있는 표준화된 방법이 요구되고 있으며, 그중 한 가지가 자동화된 수집도구를 사용하여 주기적으로 수집하는 스냅샷 전략이다. 하지만 스냅샷 전략은 주기적으로 웹 콘텐츠를 수집하기 때문에 동일한 웹 콘텐츠가 중복 수집되는 문제가 있다. 또한 웹 환경에서 구현되는 복잡한 기술로 인하여 의미 없는 웹 콘텐츠가 수집될 가능성도 배제할 수 없는 실정이다. 본 논문에서는 공공기관 홈페이지 웹 콘텐츠를 스냅샷 전략으로 수집한 사례 분석을 통해서 원격 수집할 때 발생할 수 있는 콘텐츠 중복 문제들을 살펴보고, 기술 측면에 해결책을 제시하고자 한다.

      • KCI우수등재

        웹 브라우저 렌더링 및 스크립팅 작업 제거를 통한 토르(Tor) 기반 다크 웹(Dark Web) 수집 성능 개선

        문현수,김수현,이영석 한국정보과학회 2020 정보과학회논문지 Vol.47 No.10

        The dark web, represented by Tor, has become a place where various illegal services, content, and transactions such as exchanges of drugs, child pornography, weapons, and contracts are conducted because of the anonymity guaranteed by the protocol. The Tor-based dark web service requires at least 3 tunneling nodes, and this makes the Tor-based services 2.2 times slower than the general web. And the slow speed makes difficult to monitor the illegal services which open irregularly. Therefore, this paper proposes a method for improving the speed of collecting Tor-based dark web data by removing rendering and scripting tasks using the Tor Socks5 proxy server. The performance of the existing and proposed crawlers was tested on 651 dark web addresses. By removing rendering and scripting, the collection performance was improved by up to 10.04 times. 토르(Tor)로 대표되는 다크 웹(Dark web)은 프로토콜에 의해 익명성이 보장된다는 이유로 마약, 아동 포르노, 무기, 청부 등 다양한 불법 서비스 및 콘텐츠, 거래가 이루어지는 장소가 되었다. 최소 3개 이상의 터널링 노드가 필요한 토르 기반 서비스는 일반 웹에 비해 2.2배 느려 많은 수의 불법 서비스를 모니터링할 때에 서비스가 열려 있는 시간을 놓치기 쉽다. 따라서, 본 논문에서는 토르 Socks5 프록시 서버를 활용하여 렌더링 및 스크립팅 작업 제거를 통한 토르(Tor) 기반 다크 웹(Dark Web) 수집 성능 개선 방법을 제안한다. 기존 수집기와 제안 수집기의 성능을 다크 웹 주소 612개를 대상으로 실험하여 평균적으로 1.8배 개선 결과를 보였다. 렌더링과 스크립팅을 제거하여 수집 성능을 최대 10.04배 개선하였다.

      • KCI등재

        웹 크롤링의 경쟁법적 고찰

        황태희 ( Tae Hi Hwang ) 한국경쟁법학회 2021 競爭法硏究 Vol.43 No.-

        The purpose of the Competition Law is to enhance consumer welfare through free and fair competition in the market. In particular, the nature of search-based services in a data-driven economy requires data to be constantly shared, communicated, and analyzed in the marketplace. The Web crawling, which uses information collection robots to collect necessary information from other websites, is becoming common in the trading world as a new way of collecting the necessary information directly among the numerous information posted on the Internet. Web crawling is an essential act of gathering information in such search-based services, not in itself to limit the operations of others. It is a consumer-friendly mechanism that promotes price and quality competition for products or services and increases consumers’ choice because it can quickly and accurately provide the desired search results, product information, photos, and reviews. Thus, unfair restricting web crawling could impede consumer interests and also create obstruction of business activities for counterparts and competitors. It would be necessary to prevent large online operators from monopolizing information or distorting competition so that various information can be provided to consumers. As to whether it is illegal to crawl copyrighted content or databases, it will be necessary to determine whether crawling is consistent with the fair use of copyright. And if collecting information through crawling helps consumers expand their options and promote their welfare, it is necessary to avoid hastily judging them as violations of the law. The most important thing in the data-driven economy is that operators can compete fairly and that consumers should benefit from competition and innovation, which should not be overlooked in the legal judgment of crawling.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼