http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
김주영 ( Jooyoung Kim ),이지민 ( Jimin Lee ),안순홍 ( Soonhong An ),이훈석 ( Hoonsuk Lee ) 한국정보처리학회 2018 한국정보처리학회 학술대회논문집 Vol.25 No.1
비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용 되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석 하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면,축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는,데이터의 크기가 크지 않고,축약어가 혼재되어 있으며,문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와,단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함 된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.