RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        데이터 경제 시대에 있어서 웹 크롤링(crawling)의 법적 인식에 관한 연구

        권세진,이정훈,이창무 한국산업보안연구학회 2021 한국산업보안연구 Vol.11 No.3

        웹 크롤링은 빅데이터 시대에 있어서 필수불가결한 데이터 수집 방법론임에도 불구하고 그 법 적 기준이 불분명하고 관련 분쟁이 지속적으로 발생하고 있다는 점에서 부정적인 시각이 일부 존재한다. 그러나 웹 크롤링에 대한 소극적이고 부정적인 이해는 빅데이터 시대의 데이터 경제 촉진을 저해할 우려가 있다. 따라서 이 연구는 보다 객관적이고 중립적 입장에서 웹크롤링의 필 요성과 중요성에 대한 인식을 환기시키고자 웹 크롤링에 관한 특허기술, 선행 연구, 언론보도 등 을 분석하고, 관련 판례 및 법적 쟁점을 검토하였다. 분석 결과 웹 크롤링은 데이터 경제시대에 필수불가결한 기술이자 데이터 경쟁력의 원천이 되 며 몹시 다양한 분야에 활용되고 있으나, 지식재산권 침해 및 정보통신망 침입죄 등을 구성할 우 려가 존재한다는 점을 확인할 수 있었다. 그러나 웹 크롤링이 타인의 권리를 침해할 소지가 있더 라도, 데이터를 수집하여 새로운 가치를 창출하기 위해 유용하게 사용되는 웹 크롤링 기술의 특 성상 이에 대한 과도한 규제는 바람직하지 않다는 점을 도출하였다. 따라서 이 연구에서는 웹 크롤링을 데이터 경제시대의 원천이 되는 “자원 수집 기술”이자, “자 원 활용 기술”로서 원천기술에 해당하는 역할을 수행하는 것으로 이해하였다. 나아가 향후 TDM 면책 규정이 입법되고 데이터 활용 기반이 확충되는 경우라면 웹 크롤링의 역할은 더욱 중요해 질 것으로 전망하였다. 이에 따라 데이터 경제시대의 공정한 웹 크롤링 기반 조성의 방향성을 i) 법제도·정책 기반 개선 및 공정이용 가이드라인 마련, ii) 웹 크롤링 관련 대체적 분쟁해결 제도 활성화, iii) 상생과 협력의 웹 크롤링 생태계 마련으로서 공정거래법상 웹 크롤링 제한에 관한 규 율과 대·중소기업의 데이터 상생과 상호 활용 모델 발굴을 각 제안하였다. Web crawling is an indispensable data collection methodology in the era of big data. Nevertheless, the criteria for this are unclear, and related disputes continue to arise. This leads to a negative view of web crawling. However, a passive and negative understanding of web crawling raises concerns that it will hinder the promotion of the data economy in the era of big data. In order to raise awareness of the necessity and importance of web crawling from a more objective and neutral standpoint, this study analyzed patent technology, previous studies, and media reports on web crawling and reviewed related precedents and legal issues. As a result of the analysis, web crawling is an indispensable technology and a source of data competitiveness in the data economy era. At the same time, it was found that web crawling may constitute infringement of intellectual property rights and intrusion of information and networks. However, even if web crawling may infringe on the rights of others, excessive regulation of web crawling technology, which is usefully used to collect data and create new value, is not desirable. Therefore, in this study, web crawling was understood to play a role corresponding to the original technology as a “resource collection technology” and a “resource utilization technology” that is the source of the data economy era. Furthermore, it is predicted that the role of web crawling will become more important if the TDM exemption regulations are legislated and the basis for data utilization is expanded in the future. Accordingly, the direction of creating a fair web crawling base in the data economy era was suggested to 1) improve the legal and policy base and establish fair use guidelines, 2) revitalize alternative dispute resolution systems related to web crawling, and 3) establish web crawling ecosystems under the Fair Trade Act.

      • KCI우수등재

        크롤링을 통한 데이터 수집과 형사책임 - 대법원 2022.5.12. 선고 2021도1533 판결을 중심으로

        선종수 한국형사법학회 2023 刑事法硏究 Vol.35 No.3

        정보통신기술이 발달함에 따라 생산되는 데이터의 양은 상상을 초월하는 수준에이르렀다. 이러한 데이터는 하나의 경제 자원으로 인식되고 있다. 그러나 모든 데이터가 경제 자원일 수 없으므로 수집된 데이터는 분석과정을 거쳐 활용하게 된다. 이러한 과정에서 사용되는 방법이 웹 크롤링(web crawling)이다. 일반적으로 웹 크롤링은 웹 크롤러(web crawler), 즉 조직적, 자동화된 방법으로월드 와이드 웹(World Wide Web, WWW)을 탐색하는 컴퓨터 프로그램을 통한 작업을 말한다. 다시 말해 웹 크롤링은 정보수집 로봇을 통하여 다른 사람이 운영하는 웹사이트에서 필요한 정보를 수집하는 행위를 의미한다. 이러한 웹 크롤링은 인터넷을기반으로 하는 여러 분야에서 폭넓게 활용되고 있다. 특히 데이터의 중요성이 강조되는 현재 시점에서 웹 크롤링은 더욱 주목을 받고 있다. 최근 대법원은 웹 크롤링과 관련한 정보통신망법상 정보통신망 침입에 해당하는지여부에 대한 판결을 선고하였다. 이 판결은 웹 크롤링 관련 최초의 판결로 그 의미가있다. 대상판결은 웹 크롤링을 이용한 데이터 수집에 관한 형사책임을 최초로 판시하였다는 점에서 그 의의가 있다. 대상판결은 형사법적 쟁점 세 가지 모두 무죄를 선고하였다. 구체적으로 보면 정보통신망법위반죄(정보통신망침해등), 형법상 컴퓨터등장애업무방해죄 그리고 저작권법위반죄(데이터베이스저작권 침해) 등이다. 그러나 비록 대상판결에 따라 형사법적 쟁점에 대한 무죄의 판단이더라도 기술 자체에 대하여 법률적 가치판단을 할 수는 없다. 따라서 크롤링 기술에 대해 형사책임이 없다는 것으로 단정하기 어렵다. 이러한 의미에서 본다면 향후 유사 사례의 경우대상판결과는 다른 결론이 나올 수 있다. 왜냐하면 대상판결의 경우 정보통신망법 위반은 무죄가 되었지만 구체적인 사정에 따라 웹 크롤링을 통한 데이터 수집행위가정보통신망 침입으로 인정될 여지가 남아있기 때문이다. With the development of information and communication technology, the amount of data produced has reached an unimaginable level. Such data is recognized as an economic resource. However, not all data can be economic resources, so the collected data is used through the analysis process. Web crawling is a method used in this process. In general, web crawling refers to the work of a web crawler, that is, a computer program that explores the World Wide Web (WWW) in an organized and automated manner. In other words, web crawling refers to the act of collecting necessary information from a website operated by another person through an information collection robot. Such web crawling is widely used in various fields based on the Internet. Web crawling is drawing more attention, especially at a time when the importance of data is emphasized. Recently, the Supreme Court ruled on whether it constitutes an intrusion into the information and communication network under the Information and Communication Network Act related to web crawling. This ruling is meaningful as it is the first ruling related to web crawling. The target judgment is meaningful in that it was the first to judge criminal responsibility for data collection using web crawling. The target judgment acquitted all three criminal legal issues. Specifically, they are crimes of violating the Information and Communication Network Act (infringement of information and communication network, etc.), obstruction of business such as computers under the criminal law, and violation of copyright law (infringement of database copyright). However, even if it is a judgment of innocence on criminal legal issues according to the target judgment, legal value judgment on the technology itself cannot be made. Therefore, it is difficult to conclude that there is no criminal responsibility for crawling technology. In this sense, similar cases in the future may come to a different conclusion from the target judgment. This is because in the case of the target judgment, the violation of the Information and Communication Network Act was acquitted, but there is still room for data collection through web crawling to be recognized as an intrusion into the information and communication network.

      • 로봇배제표준의 법적 함의

        최지예 서울대학교 기술과법센터 2020 Law & technology Vol.16 No.5

        로봇배제표준은 웹크롤링에 의한 원치 않는 데이터 자동수집으로부터 데이터를 보호하기 위한 사실상의 인터넷 표준으로 널리 이용되고 있다. 로봇배제표준을 준수할 것인지의 여부는 웹크롤러 스스로 판단하기 때문에, 로봇배제표준 그 자체로는 기술적 강제력을 지니지 아니한다. 또한, 브라우즈랩 계약의 효력이 일반적으로 인정될 수 있는지는 별론으로, 웹사이트 운영자가 선언한 크롤링의 조건 및 한계에 대해 상대방에게 계약상 책임을 지우기 위하여는 그 내용을 계약으로 편입하는 별도의 의사표시를 필요로 한다고 해석된다. 로봇배제표준이 그 자체로는 기술적, 법적 강제력을 지니지 않는다고 하여도, 웹크롤링이 문제 된 민⋅형사소송에 있어서 로봇배제표준의 사용 여부는 침해의 고의, 과실, 그 밖에 구성요건 해당 표지 등을 적극적으로 입증하는 수단으로 사실상 기능하고 있다. 이러한 사례에서 법원의 판단 근거들을 살펴보면, 웹사이트 이용자가 허용된 크롤링의 범위와 조건을 위반한 경우 계약상 책임으로 접근하지는 않았고, 그러한 의미에서 로봇 배제표준이 이용자를 구속한다고 보지는 않았으나, 명시된 크롤링의 범위와 조건을 무시하고 크롤링을 한 경우 저작권침해, 부정경쟁행위 등을 인정하는 쪽으로 기울어지는 태도를 취하고 있다. 이러한 로봇배제표준의 기능을 고려하면, 데이터 보호를 원하는 웹사이트 운영자의 입장에서는 향후 있을 수도 있는 소송에서의 입증의 편의와 과실상계 주장의 방어를 위하여 로봇배제표준을 계속하여 사용하는 것이 안전할 것이다. 그러나 한편으로, 로봇배제표준의 남용은 일반 대중이 포 털이나 메타사이트를 이용하여 정보에 접근하는 것을 어렵게 하기 때문에, 공공성이 강조되는 영역에서는 웹개방성을 추구하여 데이터 보호와 정보의 자유로운 흐름 간의 조화를 이루는 것이 바람직하다. The robots exclusion standard is widely used as a de facto Internet standard to protect data from unwanted automatic data collection by web crawlers. Web crawlers decide whether to comply with the robots exclusion standard, so the robot exclusion standard itself does not have technical force. It is also necessary to express a separate intention to incorporate the robots exclusion into the contract to hold the other party liable for the terms and limitations of the protocol declared by the website operator. Even if the robots exclusion standard does not have technical or legal binding force in itself, the fact that the robots exclusion is declared functions as a means to prove the intention, negligence, and other components of infringement in civil and criminal lawsuits where web crawling matters. In these cases, courts did not approach this issue as a matter of contractual responsibility. So they did not depict the fact that the web crawlers violated terms and conditions in declared robots.txt as a breach of contract. Instead, the courts tend to consider the fact as elements to judge whether web crawling constitutes an infringement of copyright, unfair competition, or tort. Considering these functions, it would be safe for website operators who want data protection to continue using the robots exclusion standards to ease the burden of proof in future lawsuits and defend claims of comparative negligence against them. On the other hand, however, the overuse of robots exclusion standards makes it difficult for the general public to access information using search engines. Thus, it would be desirable to seek web openness in areas where the public good is emphasized to achieve harmony between data protection and the free flow of information.

      • KCI등재

        다중 웹사이트 관리를 위한 동작 기반 웹 크롤러 설정 구조 설계

        한동희(Dong-Hee Han),이영구(Young-Koo Lee) 한국정보과학회 2021 정보과학회 컴퓨팅의 실제 논문지 Vol.27 No.2

        웹 크롤러(Web crawler)는 웹 페이지 사이를 이동하며 HTML 구조를 파싱하는 웹 데이터 수집하는 기술이다. 따라서 웹사이트의 리뉴얼 등에 의해 HTML 구조가 변경되면 그에 따라 웹 크롤러의 소스 코드를 수정해야하는 종속적 특징을 가지며, 운영 규모가 클수록 유지보수 비용이 비례적으로 증가하게 되어 웹 크롤링 운영에 대한 부담이 발생하게 된다. 본 논문은 웹 크롤러의 유지보수의 비용을 절감하기 위한 방안으로 웹 크롤러의 동작을 구조화한 설정 항목을 도출하고 설정에 따라 동작하는 크롤러 개발을 통하여 설정만으로 다수의 웹 크롤러 관리하는 방안을 제시한다. 웹 크롤러의 설정은 웹페이지 이동 설정, 데이터 수집 설정으로 구분하여 설계하고 Selenium 프레임워크를 활용한 웹 크롤러를 구현하였으며 다양한 유형에 웹 사이트를 대상으로 데이터 수집 실험을 수행하여 설계된 설정 구조가 다양한 웹 페이지에서 적용 가능함을 확인하였다. Web crawler is a program that moves between web pages, parses structure of HTML, and collects web data. If there are any changes to a website, the web crawler must modify its source code. Therefore, the cost of maintenance increases proportionally to the size of the operation. To reduce the cost of maintenance, we propose designing configuration items that structure the behavior of web crawlers and creating a method of managing multiple web crawlers with only configurations. The web crawler configuration is designed for web page navigation and data collection, so we developed the Selenium-based web crawler and tested it on various types of websites. Through the proposed configuration, it has been confirmed that it is available in multiple websites.

      • KCI우수등재

        판례 분석을 통한 웹크롤링 행위의 위법성 판단기준에 관한 연구

        정원준 한국민사법학회 2022 民事法學 Vol.100 No.-

        In order to effectively utilize data that is recognized as an important asset in the era of the data economy, data collection activities in a wide range of categories must be premised. From this point of view, so-called ‘Web Crawling’, which automatically collects data released on the web and extracts data in a mechanical manner, is known as a very useful software technology. The problem is that even if the information is released on the web page, should it be sanctioned as an unauthorized exploitation of the property rights and business interests of the original data right holder, or is it in line with the purpose of the information protection law, such as the Intellectual Property Act. This study compared and analyzed the main contents and key issues of civil and criminal litigation of the Yanolja vs. Yeogieottae case, which recently controversial legal disputes, including the existing ‘Rigvedawiki vs. En-Hawiki Mirror Case’ and ‘Job Korea vs. Saram In’. Our court has presented certain criteria for judging the illegality of crawling acts through several trial cases in question by using crawled information for business interests without permission. Nevertheless, there are still limitations that cannot be judged differently depending on the specific issues in question, such as how continuous and systematic the infringement was performed for data analysis and extraction, and what technical measures the right holder took in advance to restrict and block web page access. Through the review of domestic precedents, it is beneficial to examine the criteria for judging whether infringement of rights under the Real Law is recognized under the Copyright Act, the Information and Communication Network Utilization Promotion and Information Protection Act, etc. Crawling technology is one of the technologies that has been useful in considerable fields. Therefore, in order to encourage data analysis activities of companies or general companies that are engaged in data analysis in the future, it will be more important to provide a clear interpretation of the criteria for judging the illegality of network access and data collection and use. 데이터 경제 시대에 중요한 자산으로 인정받고 있는 데이터를 효과적으로 활용하기 위해서는 광범위한 범주에서의 데이터 수집 활동이 전제가 되어야 한다. 이러한 관점에서 웹상에 공개된 데이터를 기계적인 방법으로 자동 수집하여 데이터를 추출하는 소위 ‘웹크롤링(Web Crawling)’은 매우 유용한 소프트웨어 기술로 알려져 있다. 그런데 문제는 웹페이지상 공개된 정보일지라도 이를 무단으로 가져가 동종의 영업행위에 사용하는 것은 무단편승 행위로서 권리자의 재산권과 영업상 이익에 대한 침해에 해당하는가 하는 점이다. 한편 웹페이지 운영자나 당해 서비스 제공자의 입장에서는 망 침입행위에 대한 명확한 인식을 통해 사전에 접근 제한 조치를 충분히 취하였는지가 불법성 판단에 있어서 중요한 고려요소가 될 것이다. 왜냐하면 웹상에 공개된 정보는 서비스 제공의 목적 외에 다른 목적으로 사용되는 것을 묵시적으로 동의 내지 승인한 것으로 볼 수 있다는 침해자측의 주장에 반박할 수 있는 결정적 증거가 되기 때문이다. 본 연구에서는 이러한 웹크롤링 행위의 적법성 판단에 관하여 판시한 기존의 ‘리그베다위키 대 엔하위키 미러 사건’과 ‘잡코리아 대 사람인 사건’을 비롯하여 최근 법적 분쟁이 논란이 된 ‘야놀자 대 여기어때 사건’의 민․형사상 소송의 주요 내용과 핵심 쟁점을 비교․분석하였다. 우리 법원은 크롤링한 정보를 무단으로 영업상 이익을 위해 사용하여 문제가 된 국내 재판례를 통해 크롤링 행위의 위법성에 대하여 일정한 판단기준을 제시해왔다. 그럼에도 불구하고 여전히 데이터 분석․추출을 목적으로 행해지는 망 접근행위와 그로부터 수집된 데이터를 활용하는 데에 있어서 그 침해행위가 얼마나 지속적이고 체계적인 방식으로 이루어졌는지, 웹페이지 접근을 제한 및 차단하기 위해 권리자가 사전적으로 취한 기술적 조치는 무엇인지 등 문제가 된 구체적인 사안에 따라 달리 판단될 수밖에 없는 한계가 있다. 따라서 판례의 검토를 통해 어떠한 성립 요건 하에 「저작권법」, 「정보통신망 이용촉진 및 정보보호 등에 관한 법률」, 「부정경쟁방지 및 영업비밀보호에 관한 법률」 등 실정법상의 권리 침해를 인정하고 있는지에 관한 판단기준을 살펴볼 실익이 있다. 크롤링 기술은 상당한 분야에서 유용하게 사용되고 있는 기술 중 하나이다. 따라서 향후 데이터 분석을 업으로 하는 기업 혹은 일반 기업들의 데이터 분석 활동을 장려하기 위해 웹크롤링 과정에서 수반되는 망 접근행위와 데이터 수집․이용행위의 위법성 판단기준에 대하여 명확한 해석방향을 제시하는 것이 더욱 중요해질 것이다.

      • KCI등재

        실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현

        김영아,김계희,김현주,김창근 중소기업융합학회 2019 융합정보논문지 Vol.9 No.1

        We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines use web crawling in order to make data updated. Web crawling is usually used to generate copies of all the pages of visited sites. Search engines index the pages for faster searching. With regard to data collection for wholesale and order information changing in realtime, the keyword-oriented web data collection is not adequate. The alternative for selective collection of web information in realtime has not been suggested. In this paper, we propose a method of collecting information of restricted web sites by using Web crawling distributed monitoring system (R-WCMS) and estimating collection time through detailed analysis of data and storing them in parallel system. Experimental results show that web site information retrieval is applied to the proposed model, reducing the time of 15-17%. 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세 분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

      • KCI등재

        웹 크롤링의 데이터 수집행위와 경쟁법적 논의 - 대법원 2022. 5. 12. 선고 2021도1533 판결을 중심으로

        강정희 사법발전재단 2022 사법 Vol.1 No.61

        Recently, the Supreme Court found the defendant not guilty in the case, where the defendant running an accommodation information offering service accessed the mobile application server managed by the victim who was running the same service and copied the database, such as a list of accommodation, which the victim owned and managed by using crawling. In the meantime there were some cases which were related to crawling, however the case was the first judgement of the Supreme Court so it has a great signification. Crawling or web crawling means an act of collecting necessary data from websites by using data-collecting robots called crawlers. In a data economy where data collection and use is more important than ever, it is no wonder that legal issues about crawling are getting attention. In the cases of crawling competitors’ websites and collecting and using data, the scope of legal protection has been decided so far mainly depending on whether communication network of information was infringed without right to access or beyond right to access or not, whether the crawled data was protected by copyright or not. However, as the competitiveness in the time of big data is determined by how much data you have and how much meaningful value you can make from the data, the conflict of interest between the data-haves and the data-trying to have is bound to be fierce. Nevertheless, it is too naive to leaving crawling and collecting data only in the area of copyright or tort law. Crawling is a technic for collecting data and the technic itself is innocent. The question is that the evaluation from a competition law perspective should be different according to how much important the data collected by using crawling is as an asset, whether the results created by using so-collected data has added new value or they are mere copied. As the larger the amount of data is, the more value could be created, data-sharing improve consumer welfare and social utility. On the other hand, if free sharing-data is prevalent it will be harder for data producers to withdraw their investment, and there would be less incentives for innovation. Therefore, the only criteria for solving the legal disputes about collecting data should be to find a balancing-point between data-protection and data-use. In this article, I will try to seek the criteria in the competition law after reviewing the current status and limitation of the pre-existing legal regulations on data-collecting by using crawling. 최근 대법원에서 숙박업체 정보제공 서비스를 운영하는 피고인 회사가 동일한 서비스를 제공하는 피해자 회사의 모바일 애플리케이션 서버에 접속하여 크롤링 방식으로 숙박업소 목록 등 피해자 회사가 보유·관리하는 데이터베이스를 복제한 사안에서 무죄판결이 확정되었다. 그동안에도 크롤링 행위가 문제 된 사건들은 있어 왔으나 대법원에서 최초의 판결이 선고되었다는 점에 의의가 있다. 크롤링(Crawling) 또는 웹 크롤링(Web Crawling)이란 크롤러(Crawler)라 불리우는 정보수집 로봇을 이용하여 다른 사이트에서 필요한 정보를 수집하는 행위를 말한다. 데이터 수집 및 활용이 무엇보다 중요한 데이터 경제 시대에 크롤링을 둘러싼 법적 문제가 주목을 받는 것은 당연하다. 빅데이터 시대에 누가 얼마만큼의 데이터를 보유하고 있으며, 그로부터 얼마나 의미 있는 가치를 도출해 낼 수 있는지가 경쟁력을 좌우하는 만큼 데이터를 가진 자와 이를 가지려고 하는 자 사이에 첨예하게 이해관계가 대립할 수밖에 없다. 경쟁사의 웹사이트를 크롤링하여 데이터를 수집·활용하는 사안에서, 그동안은 주로 접근권한이 없거나 접근권한을 넘어서서 정보통신망을 침해하는지 여부, 수집 대상 데이터가 저작권의 보호대상인지 여부에 따라 법적 보호가 달라졌다. 그러나 공정한 경쟁을 통한 데이터 산업 발전 및 소비자 이익 도모를 위하여 크롤링으로 데이터를 수집하는 행위를 저작권법이나 불법행위법의 영역에만 남겨둘 것이 아니라 경쟁법에서 면밀히 들여다 볼 필요가 있다. 크롤링 기술을 활용하여 수집한 데이터가 경쟁에 있어 얼마나 중요한 자산인지, 수집된 데이터를 활용하여 만들어낸 결과물이 새로운 가치를 더하는지 아니면 일종의 베끼기에 그치는지에 따라 경쟁법적 평가가 달라져야 할 것이다. 데이터의 양이 많을수록 더 많은 가치를 창출할 수 있으므로 데이터 공유는 소비자 후생 나아가 사회적 효용을 증대시킨다. 반면 데이터를 무상공유하도록 할 경우 데이터 생산자의 투하자본의 회수가 곤란해져 혁신의 유인이 감소하는 문제가 있다. 따라서 정보수집을 둘러싼 법적 분쟁 해결 기준은 데이터 보호와 이용 사이의 균형점을 찾는 것일 수밖에 없다. 이 글에서는 대상판결을 통해 크롤링을 통한 데이터 수집행위에 대한 기존의 법규제 현황과 한계를 살펴보고 경쟁법에서의 판단 기준을 모색해 보기로 한다.

      • KCI등재후보

        큐를 이용한 다중스레드 방식의 웹 크롤링 설계

        김효종,이준연,신승수 중소기업융합학회 2017 융합정보논문지 Vol.7 No.2

        본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다. The purpose of this study is to propose a multi-threaded web crawl using queues that can solve the problem of time delay of single processing method, cost increase of parallel processing method, and waste of manpower by utilizing multiple bots connected by wide area network Design and implement. This study designs and analyzes applications that run on independent systems based on multi-threaded system configuration using queues. We propose a multi-threaded web crawler design using queues. In addition, the throughput of web documents can be analyzed by dividing by client and thread according to the formula, and the efficiency and the number of optimal clients can be confirmed by checking efficiency of each thread. The proposed system is based on distributed processing. Clients in each independent environment provide fast and reliable web documents using queues and threads. There is a need for a system that quickly and efficiently navigates and collects various web sites by applying queues and multiple threads to a general purpose web crawler, rather than a web crawler design that targets a particular site.

      • KCI등재

        심층 웹 문서 자동 수집을 위한 크롤링 알고리즘 설계 및 실험

        강윤정,이민혜,원동현 한국정보통신학회 2023 한국정보통신학회논문지 Vol.27 No.1

        Deep web collection means entering a query in a search form and collecting response results. It is estimated that the information possessed by the deep web has about 450 to 550 times more information than the statically constructed surface web. The static method does not show the changed information until the web page is refreshed, but the dynamic web page method updates the necessary information in real time and provides real-time information without reloading the web page, but crawler has difficulty accessing the updated information. Therefore, there is a need for a way to automatically collect information on these deep webs using a crawler. Therefore, this paper proposes a method of utilizing scripts as general links, and for this purpose, an algorithm that can utilize client scripts like regular URLs is proposed and experimented. The proposed algorithm focused on collecting web information by menu navigation and script execution instead of the usual method of entering data into search forms. 심층 웹 수집은 검색 양식에 질의어를 입력하고 응답 결과를 수집하는 것을 의미한다. 심층 웹이 가진 정보는 정적으로 구성되는 표면 웹보다 약 450∼550배 이상의 정보를 가지고 있을 것으로 추산한다. 정적인 방식에서는 웹페이지가 새로 고쳐지기 전까지 변화된 정보를 보여주지 못한다. 동적 웹페이지 방식은 실시간으로 필요한 정보가 갱신되어 웹페이지를 새로 불러오지 않아도 실시간 정보 제공이 가능한 장점이 있지만, 일반적인 크롤러는 갱신된 정보에 접근하는 데 어려움이 있다. 따라서 이들 심층 웹에 있는 정보들을 크롤러를 이용해 자동으로 수집할 방안이 필요하다. 이에 본 논문은 스크립트를 일반적인 링크로 활용하는 방법을 제안하였으며, 이를 위해 클라이언트 스크립트를 일반 URL처럼 활용이 가능한 알고리즘을 제안하고 실험하였다. 제안된 알고리즘은, 검색 양식에 데이터를 입력하는 일반적인 방법 대신 메뉴 탐색 및 스크립트 실행으로 웹 정보를 수집하는 데 중점을 두었다.

      • 웹 크롤링 기반 SNS웹사이트 설계 및 구현

        윤경섭(Kyung Seob Yoon),김연홍(Yeon Hong Kim) 한국컴퓨터정보학회 2018 한국컴퓨터정보학회 학술발표논문집 Vol.26 No.1

        기존 Facebook 페이지의 경우에는 수많은 제보 글이 올라와 사용자가 원하는 글을 찾기 어렵다는 문제점이 발생하고 있다. 본 논문에서는 이를 위해 다양한 Facebook 페이지 내용을 크롤링하여 사용자가 원하는 Facebook 페이지 내용을 검색하여 사용자에게 제공할 수 있도록 데이터베이스 서버에 저장 한 후 크롤링 된 Facebook 페이지 내용을 제공할 수 있는 웹사이트를 설계하고 구현한다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼