http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
다중 레이블 데이터 분류를 위한 상호 정보 척도를 이용한 특징 선별 기법
임현기,김대원 한국정보과학회 2012 정보과학회논문지 : 소프트웨어 및 응용 Vol.39 No.10
Lately multi-label data set occurs in many applications. However it is difficult to apply in machine learning and data mining fields. There are two reasons: One is that most of researches are focusing on the single-label problem and the other is that the previous methods do not account the characteristics of multi-label. Existing methods cannot be applied to multi-label data because most of feature selection methods have focused in single-label data. For applying existing method, there have been used label transformation methods. However label transformation may lead to information loss of data. In this paper, we propose feature selection method for multi-label data considering the dependency between labels. We experimented classification for demonstrating the superiority of proposed method. This shows that the proposed method is better than previous feature selection methods. 최근 많은 응용에서 다중 레이블 데이터가 발생하고 있다. 하지만 이 데이터는 기존 기계 학습, 데이터 마이닝 분야의 방법 적용이 어렵다. 그 이유는 크게 두 가지로 기존 방법들이 단일 레이블 데이터에 초점을 맞추고 있다는 것과 다중 레이블 데이터의 특성을 반영하지 못하고 있다는 것이다. 대부분의 특징 선별 기법은 단일 레이블 데이터에 초점을 맞추고 있기 때문에 다중 레이블 데이터에는 기존 특징 선별 기법들을 적용할 수 없다. 다중 레이블 데이터에 특징 선별 기법을 적용하기 위해서 다중 레이블 데이터를 단일 레이블 데이터로 전환하는 방법들이 사용된다. 하지만 레이블 변환은 데이터 고유의 특성을 반영하지 못하고 정보 손실을 가져올 수 있다. 본 논문은 레이블과 레이블 사이의 연관성을 고려하여 다중 레이블 데이터에 바로 적용할 수 있는 특징 선별 기법을 제안한다. 제안하는 방법의 우수성을 보이기 위해 클래스 분류 실험을 하였다. 이를 통해 기존 특징 선별 기법들에 비해서 제안하는 기법의 성능이 우수하다는 것을 보였다.
다중레이블 학습을 위한 희소성과 저랭크 기반 특징 선별 기법
임현기(Hyunki Lim) 한국컴퓨터정보학회 2021 韓國컴퓨터情報學會論文誌 Vol.26 No.7
본 논문에서는 다중 레이블 분류를 위한 특징 선별 기법을 제안한다. 기존 많은 특징 선별 기법들은 상호정보척도 등을 이용하여 특징과 레이블 사이의 연관성을 계산하여 특징을 선별하였다. 하지만 상호정보척도는 결합 확률을 요구하기 때문에 실제 전제 특징 집합에서 결합 확률을 계산하는 것은 어렵다. 따라서 소수의 특징만 계산이 가능하여 지역적 최적화만 가능하다는 단점을 가진다. 이런 지역적 최적화 문제를 피해, 주어진 특징 전체 공간에서 저랭크 공간을 구성하고, 희소성을 가진 특징들을 선별할 수 있는 특징 선별 기법을 제안한다. 이를 위해 뉴클리어 노름을 이용해 회귀 기반의 목적함수를 설계하였고, 이 목적 함수의 최적화 문제를 풀기 위한 경사하강법 방식의 알고리즘을 제안하였다. 4가지의 데이터와 3가지 다중 레이블 분류 성능을 기준으로 다중 레이블 분류 실험 결과를 통해 제안하는 방법론이 기존 특징 선별 기법보다 좋은 성능을 나타내는 것을 보였다. 또한 제안하는 목적함수의 파라미터 값 변화에도 성능 변화가 둔감한 것을 실험적인 결과로 확인하였다. In this paper, we propose a feature selection technique for multi-label classification. Many existing feature selection techniques have selected features by calculating the relation between features and labels such as a mutual information scale. However, since the mutual information measure requires a joint probability, it is difficult to calculate the joint probability from an actual premise feature set. Therefore, it has the disadvantage that only a few features can be calculated and only local optimization is possible. Away from this regional optimization problem, we propose a feature selection technique that constructs a low-rank space in the entire given feature space and selects features with sparsity. To this end, we designed a regression-based objective function using Nuclear norm, and proposed an algorithm of gradient descent method to solve the optimization problem of this objective function. Based on the results of multi-label classification experiments on four data and three multi-label classification performance, the proposed methodology showed better performance than the existing feature selection technique. In addition, it was showed by experimental results that the performance change is insensitive even to the parameter value change of the proposed objective function.
직교 분해와 저랭크 근사를 이용한 비지도 특징 선별 기법
임현기(Hyunki Lim) 한국컴퓨터정보학회 2022 韓國컴퓨터情報學會論文誌 Vol.27 No.5
본 논문에서는 새로운 비지도 특징 선별 기법을 제안한다. 기존 비지도 방식의 특징 선별 기법들은 특징을 선별하기 위해 가상의 레이블 데이터를 정하고 주어진 데이터를 이 레이블 데이터에 사영하는 회귀 분석 방식으로 특징을 선별하였다. 하지만 가상의 레이블은 데이터로부터 생성되기 때문에 사영된 공간이 비슷하게 형성될 수 있다. 따라서 기존의 방법들에서는 제한된 공간에서만 특징이 선택될 수 있었다. 이를 해소하기 위해 본 논문에서는 직교 사영과 저랭크 근사를 이용하여 특징을 선별한다. 이 문제를 해소하기 위해 가상의 레이블을 직교 사영하고 이 공간에 데이터를 사영할 수 있도록 한다. 이를 통해 더 주요한 특징 선별을 기대할 수 있다. 그리고 사영을 위한 변환 행렬에 저랭크 제한을 두어 더 효과적으로 저차원 공간의 특징을 선별할 수 있도록 한다. 이 목표를 달성하기 위해 본 논문에서는 비용 함수를 설계하고 효율적인 최적화 방법을 제안한다. 여섯 개의 데이터에 대한 실험 결과는 제안된 방법이 대부분의 경우 기존의 비지도 특징 선별 기법보다 좋은 성능을 보여주었다. In this paper, we propose a novel unsupervised feature selection method. Conventional unsupervised feature selection method defines virtual label and uses a regression analysis that projects the given data to this label. However, since virtual labels are generated from data, they can be formed similarly in the space. Thus, in the conventional method, the features can be selected in only restricted space. To solve this problem, in this paper, features are selected using orthogonal projections and low-rank approximations. To solve this problem, in this paper, a virtual label is projected to orthogonal space and the given data set is also projected to this space. Through this process, effective features can be selected. In addition, projection matrix is restricted low-rank to allow more effective features to be selected in low-dimensional space. To achieve these objectives, a cost function is designed and an efficient optimization method is proposed. Experimental results for six data sets demonstrate that the proposed method outperforms existing conventional unsupervised feature selection methods in most cases.
강화된 진화 탐색이 생성하는 큰 자손 기반 효과적인 다중 레이블 특징 선별
임현기(Hyunki Lim),서왕덕(Wangduk Seo),이재성(Jaesung Lee) 한국컴퓨터정보학회 2018 韓國컴퓨터情報學會論文誌 Vol.23 No.9
Recent advancement in data gathering technique improves the capability of information collecting, thus allowing the learning process between gathered data patterns and application sub-tasks. A pattern can be associated with multiple labels, demanding multi-label learning capability, resulting in significant attention to multi-label feature selection since it can improve multi-label learning accuracy. However, existing evolutionary multi-label feature selection methods suffer from ineffective search process. In this study, we propose a evolutionary search process for the task of multi-label feature selection problem. The proposed method creates large set of offspring or new feature subsets and then retains the most promising feature subset. Experimental results demonstrate that the proposed method can identify feature subsets giving good multi-label classification accuracy much faster than conventional methods.