http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
다양한 네트워크 환경에서 Apache Storm의 지역성 고려 그룹핑 성능 비교
손시운(Siwoon Son),남궁주홍(Juhong Namgung),문양세(Yang-Sae Moon) 한국정보과학회 2019 정보과학회 컴퓨팅의 실제 논문지 Vol.25 No.1
Apache Storm은 분산 환경에서 데이터 스트림을 빠르게 처리하는 실시간 데이터 처리 시스템이다. Storm은 다수의 서버에서 데이터 스트림을 빠르게 송수신하기 위해, 메시지 수신 서버를 선택하는 스트림 그룹핑 기법들을 다수 제공한다. 하지만, 현재 Storm이 제공하는 그룹핑 기법들은 지역성을 고려하지 않거나 부분적으로만 고려하여 암맹 분배와 부하 불균형 문제가 발생할 수 있다. 이러한 문제를 해결하는 Locality Aware 그룹핑은 지역성을 고려하여 가까운 수신 서버에게 더 많은 메시지를 전송하는 기법이다. 본 논문은 Locality Aware 그룹핑이 속도가 다른 네트워크 대역폭에서 기존 그룹핑 기법 대비 어떤 성능 차이를 갖는지 평가한다. 대역폭의 변화를 위해, 가장 널리 사용되는 Ethernet 장비와 고성능 네트워크 장비인 InfiniBand에서 실험한다. 본 논문의 결과는 네트워크 대역폭에 따라 적절한 Storm 그룹핑 기법을 선택하는 기준으로 활용될 수 있다. Apache Storm is a real-time data processing system that processes data streams quickly in a distributed environment. Storm provides several stream grouping methods for selecting a server which processes a message so as to quickly transmit data streams among multiple servers. However, the grouping methods provided by Storm may cause blind distribution and load imbalance problems because they do not consider or only partially consider the locality. Locality Aware grouping, which solves these problems, is a novel method to send more messages to more nearby receivers by considering the locality. In this study, we evaluate how the Locality Aware grouping is different, with respect to performance, from the existing grouping methods on the perspective of different network bandwidths. To change bandwidths, we experiment on the most widely used Ethernet equipment and InfiniBand which is high-performance network equipment. We can use the evaluation results as the selection criteria for choosing the appropriate Storm grouping method according to the network bandwidth.
하둡 에코시스템을 활용한 로그 데이터의 이상 탐지 기법
손시운(Siwoon Son),길명선(Myeong-Seon Gil),문양세(Yang-Sae Moon) 한국정보과학회 2017 정보과학회 컴퓨팅의 실제 논문지 Vol.23 No.2
최근 대용량 데이터 분석을 위해 다수의 서버를 사용하는 시스템이 증가하고 있다. 대표적인 빅데이터 기술인 하둡은 대용량 데이터를 다수의 서버로 구성된 분산 환경에 저장하여 처리한다. 이러한 분산 시스템에서는 각 서버의 시스템 자원 관리가 매우 중요하다. 본 논문은 다수의 서버에서 수집된 로그 데이터를 토대로 간단하면서 효율적인 이상 탐지 기법을 사용하여 로그 데이터의 변화가 급증하는 이상치를 탐지하고자 한다. 이를 위해, 각 서버로부터 로그 데이터를 수집하여 하둡 에코시스템에 저장할 수 있도록 Apache Hive의 저장 구조를 설계하고, 이동 평균 및 3-시그마를 사용한 세 가지 이상 탐지 기법을 설계한다. 마지막으로 실험을 통해 세 가지 기법이 모두 올바로 이상 구간을 탐지하며, 또한 가중치가 적용된 이상 탐지 기법이 중복을 제거한 더 정확한 탐지 기법임을 확인한다. 본 논문은 하둡 에코시스템을 사용하여 간단한 방법으로 로그 데이터의 이상을 탐지하는 우수한 결과라 사료된다. In recent years, the number of systems for the analysis of large volumes of data is increasing. Hadoop, a representative big data system, stores and processes the large data in the distributed environment of multiple servers, where system-resource management is very important. The authors attempted to detect anomalies from the rapid changing of the log data that are collected from the multiple servers using simple but efficient anomaly-detection techniques. Accordingly, an Apache Hive storage architecture was designed to store the log data that were collected from the multiple servers in the Hadoop ecosystem. Also, three anomaly-detection techniques were designed based on the moving-average and 3-sigma concepts. It was finally confirmed that all three of the techniques detected the abnormal intervals correctly, while the weighted anomaly-detection technique is more precise than the basic techniques. These results show an excellent approach for the detection of log-data anomalies with the use of simple techniques in the Hadoop ecosystem.
손시운 ( Siwoon Son ),길명선 ( Myeong-seon Gil ),문양세 ( Yang-sae Moon ),민차우 ( Minh Chau Nguyen ),원희선 ( Hee-sun Won ) 한국정보처리학회 2015 한국정보처리학회 학술대회논문집 Vol.22 No.1
본 논문에서는 하둡의 인메모리 기반 ACL(access control list)을 RDBMS 기반으로 관리하도록 기존 하둡을 재설계하였다. 기존 하둡은 ACL을 인메모리에서 관리하기 때문에 대용량 ACL 정보를 관리함에 있어 메모리 오버헤드, ACL 정보 관리의 비효율성 등 몇 가지 문제가 발생할 수 있다. 본 논문에서는 ACL 관리에 RDBMS를 사용함으로써 메모리 크기에 종속되지 않으며, 외부 응용 프로그램에서도 쉽고 일관성 있게 ACL 정보를 관리할 수 있다. 이 같은 결과에 따라, 본 논문은 빅데이터를 하둡에서 안정하게 관리할 수 있는 우수한 연구 설계 결과라 생각된다.
Storm 기반 실시간 SNS 데이터의 동적 태그 클라우드
손시운 ( Siwoon Son ),김다솔 ( Dasol Kim ),이수정 ( Sujeong Lee ),길명선 ( Myeong-seon Gil ),문양세 ( Yang-sae Moon ) 한국정보처리학회 2016 한국정보처리학회 학술대회논문집 Vol.23 No.2
최근 SNS(social networking service)의 사용이 급증함에 따라 SNS에서 발생하는 데이터의 분석이 활발해졌다. 하지만 SNS 데이터는 빠르게 생성되며 정형화 되어 있지 않은 빅데이터이기 때문에 그대로 수집할 경우 분석하기가 어렵다. 본 논문은 분산 스트리밍 처리 기술인 Storm을 사용하여 트위터에서 실시간으로 발생하는 데이터를 수집 및 집계하고, 태그 클라우드를 사용하여 집계 결과를 동적으로 시각화하고자 한다. 또한 사용자가 쉽게 키워드를 입력하고 시각화 결과를 실시간으로 확인할 수 있도록 웹 인터페이스를 구현한다. 그리고 결과를 통해 태그 클라우드의 결과가 시간에 따라 바르게 시각화되었는지 확인한다. 본 논문은 빠르게 발생하는 SNS 데이터로부터 각 키워드와 관련된 정보를 시각화하여 각 사용자에게 제공할 수 있는 우수한 결과라 사료된다.