http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
확장된 나이브 베이즈 분류기를 활용한 질문-답변 커뮤니티의 질문 분류 (pp.95-99)
연종흠(Jongheum Yeon),심준호(Junho Shim),이상구(Sang-goo Lee) 한국정보과학회 2010 정보과학회 컴퓨팅의 실제 논문지 Vol.16 No.1
소셜 미디어(social media)는 블로그, 소셜 네트워크, 위키 등과 같이 사용자의 참여로 만들어지는 정보 컨텐츠이다. 사용자가 작성한 질문에 다른 사용자들이 답변을하는 질문-답변 커뮤니티 서비스도 이러한 소셜 미디어의 한 가지로서 지난 몇 년간 많은 양의 정보를 축적해왔다. 하지만 축적된 질문-답변의 양이 많아질수록 이전의 질문을 정확히 검색하는 것은 점점 어려운 작업이 되고 있다. 본 논문에서는 질문-답변 커뮤니티의 효율적인 정보 검색을 위해 확장된 나이브 베이즈 분류기(na?ve Bayes classifier)를 이용하여 질문을 그 목적에 따라 정보형, 제안형, 의견형으로 자동 분류하는 기법을 제안한다. 정확한 분류를 위해 분류기는 질문-답변 문서의 구조적인 특징을 활용한다. 실제 질문-답변 커뮤니티의 질문들에 대해 실험을 수행한 결과 71.2%의 분류 정확도를 보였다. Social media refers to the content, which are created by users, such as blogs, social networks, and wikis. Recently, question-answering (QA) communities, in which users share information by questions and answers, are regarded as a kind of social media. Thus, QA communities have become a huge source of information for the past decade. However, it is hard for users to search the exact question-answer that is exactly matched with their needs as the number of questionanswers increases in QA communities. This paper proposes an approach for classifying a question into three categories (information, opinion, and suggestion) according to the purpose of the question for more accurate information retrieval. Specifically, our approach is based on modified na?ve Bayes classifier which uses structural characteristics of QA documents to improve the classification accuracy. Through our experiments, we achieved about 71.2% in classification accuracy.
연종흠(Jongheum Yeon),이동주(Dongjoo Lee),심준호(Junho Shim),이상구(Sang-goo Lee) 한국전자거래학회 2011 한국전자거래학회지 Vol.16 No.4
전자 상거래 사이트의 상품 리뷰는 구매 예정자들에게 유용한 정보로 활용될 수 있지만, 방대한 양으로 인해 사용자가 모든 리뷰를 읽는 것은 불가능에 가깝다. 이를 보완하고자 전자 상거래 사이트들은 상품이나 그 특징에 대한 별점 통계, 유용한 리뷰 분류 등을 사용자의 참여나 수작업을 통해 제공하고 있다. 오피니언 마이닝(opinion mining) 혹은 감성 분석(sentiment analysis)은 이러한 일련의 과정을 자동화하는 연구로서, 상품 리뷰의 사용자 의견을 대상으로 그 의견이 긍정적인지, 부정적인지 판단한 후 요약하여 제공한다. 하지만 기존의 감성 분석은 구매예정자에게 유용한 정보, 즉 상품평의 극성을 판별하거나, 상품 특징별 평가 요약 등에만 초점을 맞추고 있어, 상대적으로 의견 정보의 활용도가 낮아지는 문제가 있다. 실제 상품 리뷰에는 상품의 평가 외에도 제품이 가지고 있는 문제점, 고객의 불만 등이 제시되어 있으며, 이를 관리자가 효과적으로 분석하여 의사 결정에 지원에 활용하고자 하는 요구가 늘어나고 있다. 이에 본 논문은 다양한 종류의 의견 정보를 파악하여 데이터 웨어하우스에 저장한 후, 의견 정보를 온라인에서 동적으로 분석하고 통합 처리하는 모델링 방안을 제시한다. 또한 이를 활용하여 실제 전자 상거래 사이트의 한 종류인 어플리케이션 판매 사이트의 리뷰에 대한 분석을 수행하였다. Product reviews in online shopping sites can serve as a useful guideline to buying decisions of customers. However, due to the massive amount of such reviews, it is almost impossible for users to read all the product reviews. For this reason, e-commerce sites provide users with useful reviews or statistics of ratings on products that are manually chosen or calculated. Opinion mining or sentiment analysis is a study on automating above process that involves firstly analyzing users’ reviews on a product to tell if a review contains positive or negative feedback, and secondly, providing a summarized report of users’ opinions. Previous researches focus on either providing polarity of a user’s opinion or summarizing user’s opinion on a feature of a product that result in relatively low usage of information that a user review contains. Actual user reviews contains not only mere assessment of a product, but also dissatisfaction and flaws of a product that a user experiences. There are increasing needs for effective analysis on such criteria to help users on their decision-making process. This paper proposes a model that stores various types of user reviews in a data warehouse, and analyzes integrated reviews dynamically. Also, we analyze reviews of an online application shopping site with the proposed model.
연종흠(Jongheum Yeon),심준호(Junho Shim),이상구(Sang goo Lee) 한국전자거래학회 2013 한국전자거래학회지 Vol.18 No.4
소셜 미디어에서는 상품평, 영화평 등의 다양한 종류의 의견이 표현되고 있으며, 사용자들이 물품 구매 등에 있어 이러한 의견을 참고로 하여 결정을 내리는 것은 일반적이 되었다. 하지만 의견 정보의 활용도가 높아질수록 이를 부적절하게 왜곡하는 사례 또한 증가하고 있다. 예를 들어, 홍보를 목적으로 과도하게 긍정적인 의견이 포함된 리뷰를 작성하거나, 반대로 일반적인 평가에서 벗어나 과도하게 부정적인 의견을 게시하는 경우 등이다. 편향된 의견은 소셜미디어의 신뢰성과 연결 되기 때문에 이를 검출하는 것은 점차 중요한 문제로 대두되고 있다. 기존의 오피니언 마이닝 혹은 감성 분석은 문서를 분석하여 그 문서가 가지고 있는 의견의 성향을 판단하는 기법이다. 하지만 기존의 연구는 의견을 단순히 긍정/부정으로만 분류하는 방향으로 연구가 이루어져 왔으며, 특히 사전에 의견 성향에 따라 분류된 충분한 양의 학습 데이터가 필요하다는 단점이 있다. 본 논문에서는 학습데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗어난 의견 문서를 검출하는 기법을 제안한다. 여기에는 각도기반 이상치 탐지와, 개인화된 페이지랭크 방법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안한 방법들의 성능을 분석하였다 Users in social media post various types of opinions such as product reviews and movie reviews. It is a common trend that customers get assistance from the opinions in making their decisions. However, as opinion usage grows, distorted feedbacks also have increased. For example, exaggerated positive opinions are posted for promoting target products. So are negative opinions which are far from common evaluations. Finding these biased opinions becomes important to keep social media reliable. Techniques of opinion mining (or sentiment analysis) have been developed to determine sentiment polarity of opinionated documents. These techniques can be utilized for finding the biased opinions. However, the previous techniques have some drawback. They categorize the text into only positive and negative, and they also need a large amount of training data to build the classifier. In this paper, we propose methods for discovering the biased opinions which are skewed from the overall common opinions. The methods are based on angle based outlier detection and personalized PageRank, which can be applied without training data. We analyze the performance of the proposed techniques by presenting experimental results on a movie review dataset.
꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구
이동주(Dongjoo Lee),연종흠(Jongheum Yeon),황인범(Inbeom Hwang),이상구(Sang-goo Lee) 한국정보과학회 2010 정보과학회 컴퓨팅의 실제 논문지 Vol.16 No.11
말뭉치는 언어학 분야에서 다양한 연구를 위한 기초자료로서 활용된다. 국내에서도 세종 21세기 계획 등을 통해서 몇몇 대용량 말뭉치가 구축되었으나, 다수의 사용자가 쉽게 활용할 수 있는 활용 도구에 대한 연구는 여전히 부족하다. 본 논문에서는 한국어 대용량 말뭉치 중 하나인 세종 현대 국어 말뭉치를 관계형 데이터베이스에 저장하여, 다양한 방법으로 활용할 수 있도록 지원하는 말뭉치 활용도구에 대한 설계 및 구현 방법을 보인다. 웹 기반의 말뭉치 활용 시스템을 구축하였고, 실제로 언어학 연구자들에게 사용되고 있다. Corpus is widely used as a fundamental resource for various purposes in linguistic studies. There are several large corpora such as Sejong corpus in Korea. However, it is hard to find a tool utilizing such large corpora. In this paper, we propose a method of utilizing Sejong corpus based on the relational database. We designed the relational database scheme to store corpus and implemented a Web-based application so that many researchers can easily access and utilize the Sejong corpus.
실제 의료 데이터 분석을 통한 데이터 익명화 방법 제시
권용진(Yongjin Kwon),연종흠(Jongheum Yeon),이상구(Sang-goo Lee) 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1C
정부, 병원, 공공기관, 기업 등에서 많은 양의 개인 정보를 수집하고, 다양한 목적으로 수집한 데이터를 공개하기도 한다. 프라이버시 보호를 위해 공개할 데이터를 어떻게 익명화를 할 것인지 많이 연구가 되었지만, 알고리즘 적용의 어려움과 데이터에 대한 비현실적인 가정 때문에 실제 데이터에 적용되는 사례는 찾아보기 힘들다. 본 논문에서는 먼저 다양한 익명화 방법에 대한 분류를 하고, 장단점을 살펴본다. 그리고 의료 기관에서 의료 데이터를 공개하는 경우를 고려하여 실제 의료 데이터가 갖는 특징을 파악하고, 의료 데이터에 적용할 수 있는 프라이버시 모델(privacy model)과 알고리즘에 적용하기 위한 의료 데이터의 기본 형태에 대해 제시한다.