RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • ACCURATE CLASSIFIER SELECTION METHODOLOGY USING MULTI-CRITERIA DECISION MAKING AND META-LEARNING

        Rahman Ali 경희대학교 대학원 2016 국내박사

        RANK : 2943

        One of the important tasks in data mining applications is to find suitable classifier(s), for user’s classification problems, and designing the classifier accurately to meet their application’s requirements. The design of an accurate methodology for evaluating the performance of these algorithms and selecting the best one has recently gained an immense interest of the research community due to the rapid shift of data mining processes and the use of classification algorithms from academics to the real-world application domains. If these tasks are not carefully accomplished, the evaluation of algorithms performance and consequently the selection of a best classifier may result in invalid recommendations of a statistically incorrect classifier(s). Subsequently, incorrect decisions will be made by the applications, which are based on these recommended classifiers. In practical data mining application scenarios, this is a subjective decision making process that not only takes experts’ preferences and interests into account but also considers a number of other factors into account, such as data characteristic (e.g., meta-features), classifiers characteristics (e.g., performance metrics) and domain specific data mining processes and their associated domain constraints. For example, some domains require interpretable classification model, while other requires classifiers with reasonable training and/or testing time, or have the capacity to classify binary class problem or multi-class problem or have consistent performance results. These obligations make the processes of classifiers evaluation, selection, and design more challenging, especially in situations where the evaluation and selection are based on multiple characteristics of the classifier (i.e., performance metrics, called criteria), data characteristics (i.e., meta-features) and the associated constraints, all taken into account simultaneously. This thesis is focused on multi-criteria evaluation of classifiers, meta-learning based decision tree classifier selection and design of some accurate classifiers for real-world applications scenarios. The design of accurate rough-set and hybrid case-based reasoning (hybrid-CBR) classifiers are discussed along with their associated issues, such as domain-specific data acquisition for real-world dataset and case-base creation, semantics-preserving discretization and accurate and efficient case matching and retrieval functions for case-based reasoning. In case of classifiers performance evaluation, there is no universally acceptable classifier that outperforms all other classifiers on every kind of domain data, given a single evaluation criterion or multi-metrics evaluation criteria. Similarly, there is no universally acceptable guidelines or rules for the selection of suitable evaluation metric(s) to evaluate the classifiers. Other related issues regarding classifier evaluation include: the experts’ preferences (i.e., weights on the criteria) are normally defined using absolute values that lack the consistency check for insuring that the assigned weight are correct, global and local constraints of the domain and evaluation metrics which sometimes impose restrictions on the classifiers performance evaluation process and must need to be satisfied. Moreover, there is lack of a universally acceptable classifier evaluation strategy, which includes almost all the required multiple-criteria including consistency measure to insure the selection of optimum performance consistent classifier. Apart from the issues highlighted in state-of-the-art classifiers performance evaluation methods, the automatic classifiers selection using meta-learning also suffers from a number of challenging issues. These include: the extraction and selection of a suitable set of meta-characteristics of the data to best represent the intrinsic behaviors of the dataset from all aspects and thus help in automatic recommendation of best classifier and enabling multi-views multi-level meta-learning and reasoning for accurately selecting classifiers based on data and classifiers characteristics. This thesis establishes the problem statement and proposes a number of theoretical and systematic empirical methods and meta-learning based methods to provide solutions to the problem of accurate classifier selection and the associated issues, mentioned above. Similarly, for the issues highlighted in real-world application scenarios, novel methods are proposed to improve performance of the traditional rough-set and case-based reasoning classifiers. The problem of best classifier selection and design can be approached either using automatic evaluation, ranking and selection methods or using the expert’s heuristic knowledge about the domain problem and the candidate classifiers. Under the automatic classifier selection approach, two types of novel methodologies are proposed. In the first methodology, a unique accurate multi-criteria decision making (AMD) method is proposed that evaluates the classifiers performance on the basis of multiple performance metrics (constituting a composite criterion) satisfying the domain constraints and ranks the final score to select the top-ranked classifier as the best one. In this method, based on the motivation from experts’ consensus-based nominal group technique (NGT), an experts’ group-based decision making method is proposed that accurately selects suitable performance metrics satisfying the domain constraints. The experts’ preferences on the evaluation metrics are realized and quantified using the experts’ group decision making with relative consistent weighting scheme using analytical hierarchy process (AHP). For ranking performance of the classification algorithms, relative closeness values, with respect to the ideal classifier, are computed for all the classifiers using multi-criteria decision making Technique for Order Performance by Similarity to Ideal Solution (TOPSIS). Moreover, this thesis contributes in the selection of a significant performance consistent classifier by introducing an additional consistency measure in the evaluation criteria and using only statistically significant classifiers in the evaluation process. The statistical significance test is enhanced by encompassing a fitness evaluation function that excludes the algorithms that perform significantly poor on all the considered evaluation criteria. In the second methodology of classifier selection, a novel CBR-based meta-learning and reasoning (CBR-MLR) framework is proposed and implemented that utilizes data and classifiers meta-characteristics during multi-level multi-views case-based reasoning to accurately recommend best decision tree classifier for users’ applications in-hand. In this method, 29 meta-characteristics are extracted from user data and 09 decision tree classifiers are empirically evaluated, using predictive accuracy and consistency, to design a Case-Base. Accurate case retrieval functions are defined and the CBR output is refined with classifiers conflict resolution approach that uses weight sum score and AMD methods. The heuristic-based evaluation and selection method is based on the experts’ knowledge about the candidate classifiers’ performance on a particular application. Under this approach, semantics-preserving accurate rough-set classifier, based on rough-set theory (RST), and precise hybrid-CBR classifiers, are proposed, designed and implemented in real-world application scenarios. In the design of these classifiers, standard data mining process flow is used with necessary modifications in order to fulfill the specific requirements of the domain applications. However, the methodologies are designed in generalized manner, without restricting to the specific domains for which they have been initially designed. For improving capability of the rough-set classifier, a new, semantics-preserving discretization scheme is introduced that keeps the data semantics intact after being transformed into decision rules. Similarly, the design of the standard CBR classifier is improved by efficiently integrating it with rule-based reasoning and defining accurate case similarity and retrieval function.

      • ACCURATE CLASSIFIER SELECTION METHODOLOGY USING MULTI-CRITERIA DECISION MAKING AND META-LEARNING

        Rahman Ali Kyung Hee University 2016 국내박사

        RANK : 2943

        One of the important tasks in data mining applications is to find suitable classifier(s), for user’s classification problems, and designing the classifier accurately to meet their application’s requirements. The design of an accurate methodology for evaluating the performance of these algorithms and selecting the best one has recently gained an immense interest of the research community due to the rapid shift of data mining processes and the use of classification algorithms from academics to the real-world application domains. If these tasks are not carefully accomplished, the evaluation of algorithms performance and consequently the selection of a best classifier may result in invalid recommendations of a statistically incorrect classifier(s). Subsequently, incorrect decisions will be made by the applications, which are based on these recommended classifiers. In practical data mining application scenarios, this is a subjective decision making process that not only takes experts’ preferences and interests into account but also considers a number of other factors into account, such as data characteristic (e.g., meta-features), classifiers characteristics (e.g., performance metrics) and domain specific data mining processes and their associated domain constraints. For example, some domains require interpretable classification model, while other requires classifiers with reasonable training and/or testing time, or have the capacity to classify binary class problem or multi-class problem or have consistent performance results. These obligations make the processes of classifiers evaluation, selection, and design more challenging, especially in situations where the evaluation and selection are based on multiple characteristics of the classifier (i.e., performance metrics, called criteria), data characteristics (i.e., meta-features) and the associated constraints, all taken into account simultaneously. This thesis is focused on multi-criteria evaluation of classifiers, meta-learning based decision tree classifier selection and design of some accurate classifiers for real-world applications scenarios. The design of accurate rough-set and hybrid case-based reasoning (hybrid-CBR) classifiers are discussed along with their associated issues, such as domain-specific data acquisition for real-world dataset and case-base creation, semantics-preserving discretization and accurate and efficient case matching and retrieval functions for case-based reasoning. In case of classifiers performance evaluation, there is no universally acceptable classifier that outperforms all other classifiers on every kind of domain data, given a single evaluation criterion or multi-metrics evaluation criteria. Similarly, there is no universally acceptable guidelines or rules for the selection of suitable evaluation metric(s) to evaluate the classifiers. Other related issues regarding classifier evaluation include: the experts’ preferences (i.e., weights on the criteria) are normally defined using absolute values that lack the consistency check for insuring that the assigned weight are correct, global and local constraints of the domain and evaluation metrics which sometimes impose restrictions on the classifiers performance evaluation process and must need to be satisfied. Moreover, there is lack of a universally acceptable classifier evaluation strategy, which includes almost all the required multiple-criteria including consistency measure to insure the selection of optimum performance consistent classifier. Apart from the issues highlighted in state-of-the-art classifiers performance evaluation methods, the automatic classifiers selection using meta-learning also suffers from a number of challenging issues. These include: the extraction and selection of a suitable set of meta-characteristics of the data to best represent the intrinsic behaviors of the dataset from all aspects and thus help in automatic recommendation of best classifier and enabling multi-views multi-level meta-learning and reasoning for accurately selecting classifiers based on data and classifiers characteristics. This thesis establishes the problem statement and proposes a number of theoretical and systematic empirical methods and meta-learning based methods to provide solutions to the problem of accurate classifier selection and the associated issues, mentioned above. Similarly, for the issues highlighted in real-world application scenarios, novel methods are proposed to improve performance of the traditional rough-set and case-based reasoning classifiers. The problem of best classifier selection and design can be approached either using automatic evaluation, ranking and selection methods or using the expert’s heuristic knowledge about the domain problem and the candidate classifiers. Under the automatic classifier selection approach, two types of novel methodologies are proposed. In the first methodology, a unique accurate multi-criteria decision making (AMD) method is proposed that evaluates the classifiers performance on the basis of multiple performance metrics (constituting a composite criterion) satisfying the domain constraints and ranks the final score to select the top-ranked classifier as the best one. In this method, based on the motivation from experts’ consensus-based nominal group technique (NGT), an experts’ group-based decision making method is proposed that accurately selects suitable performance metrics satisfying the domain constraints. The experts’ preferences on the evaluation metrics are realized and quantified using the experts’ group decision making with relative consistent weighting scheme using analytical hierarchy process (AHP). For ranking performance of the classification algorithms, relative closeness values, with respect to the ideal classifier, are computed for all the classifiers using multi-criteria decision making Technique for Order Performance by Similarity to Ideal Solution (TOPSIS). Moreover, this thesis contributes in the selection of a significant performance consistent classifier by introducing an additional consistency measure in the evaluation criteria and using only statistically significant classifiers in the evaluation process. The statistical significance test is enhanced by encompassing a fitness evaluation function that excludes the algorithms that perform significantly poor on all the considered evaluation criteria. In the second methodology of classifier selection, a novel CBR-based meta-learning and reasoning (CBR-MLR) framework is proposed and implemented that utilizes data and classifiers meta-characteristics during multi-level multi-views case-based reasoning to accurately recommend best decision tree classifier for users’ applications in-hand. In this method, 29 meta-characteristics are extracted from user data and 09 decision tree classifiers are empirically evaluated, using predictive accuracy and consistency, to design a Case-Base. Accurate case retrieval functions are defined and the CBR output is refined with classifiers conflict resolution approach that uses weight sum score and AMD methods. The heuristic-based evaluation and selection method is based on the experts’ knowledge about the candidate classifiers’ performance on a particular application. Under this approach, semantics-preserving accurate rough-set classifier, based on rough-set theory (RST), and precise hybrid-CBR classifiers, are proposed, designed and implemented in real-world application scenarios. In the design of these classifiers, standard data mining process flow is used with necessary modifications in order to fulfill the specific requirements of the domain applications. However, the methodologies are designed in generalized manner, without restricting to the specific domains for which they have been initially designed. For improving capability of the rough-set classifier, a new, semantics-preserving discretization scheme is introduced that keeps the data semantics intact after being transformed into decision rules. Similarly, the design of the standard CBR classifier is improved by efficiently integrating it with rule-based reasoning and defining accurate case similarity and retrieval function.

      • Grammatical Influence of Mandarin Classifier on Cognitive Categorization

        Peng, Lin 청주대학교 대학원 2021 국내박사

        RANK : 2942

        This dissertation investigates the relationship between the Mandarin classifier system and Mandarin speakers' cognitive process in categorizing this world from two aspects: i. Mandarin people's cognitive process will be influenced after enforcement on their classifier domain. ii. In the Mandarin noun structure (Numeral + Classifier + Noun), different counting forms (singular vs. plural) will influence Mandarin speakers to behave differently on selecting the following classifier. This dissertation's basic construct is in line with many previous studies that the reality category (taxonomic and thematic categories) occupies the primary role in people's cognitive categorization. Moreover, this study related the classifier element influence with Mandarin speakers' categorization ability. Furthermore, it explores the novel area that the cognitive influence that the counting number brings for its following classifier. This dissertation used an online questionnaire to collect responses. This experiment used a forced-choice method. Compared to these previous studies, the nonlinguistic test appearance and the monolingual environment in this study's experiment help this dissertation provide a purer experiment environment to gauge this competition match among classifier, reality, and nonrelated categories. A series of exciting finding has been found in this dissertation: i. The Mandarin classifier system indeed has some influence on people's cognitive process in sorting out objects. ii. Despite the strong competition from the reality category, Mandarin speakers tend to prefer more classifier categories after classifier treatment. iii. The singular form of objects helps Mandarin speakers select more classifiers than the plural form. The supportive evidence comes from the overall shape classifier feature, cue availability, and word weight. Generally speaking, this dissertation provides some new insight in relating the Mandarin classifier system and the cognitive process in categorizing this world. 이 논문에서는 중국어 분류사 체계가 어떻게 중국어 화자들의 인지 과정에서 세상을 범주화시키는 지에 대해 두 가지 가설을 설정하고 연구했다. 첫째는 중국어 화자들이 분류사에 의해 인지 과정이 영향을 받을 것이라는 것이고 둘째는 중국어 명사구 구조(숫자+분류사+명사)의 단수와 복수 형태가 중국어 화자들의 분류사 선택 여부에 영향을 줄 것이라는 것이다. 이 논문은 인지적인 범주화 과정에 가장 큰 영향을 미치는 것은 현실 세계에서의 분류적 혹은 의미적 범주라는 기존 연구들과 궤를 같이 한다. 하지만 이 연구에서는 중국어의 분류사가 어떻게 중국어 화자들의 범주화 능력에 영향을 미치는 지에 관한 것이다. 더 나아가, 이 논문에서는 분류사와 함께 쓰이는 숫자가 어떻게 인지 과정에 영향을 주는 지도 연구한다. 실험 방법은 온라인 설문지를 활용하여 여러 개의 그림 중 하나를 선택하는 방식을 채택했다. 기존 연구와 달리, 중국어라는 한 개의 언어만을 활용하고 언어 관련 실험이라는 인상을 주지 않은 실험 방법으로 실험 참가자들에게 더 쉬운 환경을 제공했다. 이 논문에서는 몇 가지 흥미로운 발견을 할 수 있었다. 첫째, 중국어 분류사 체계는 사물을 범주화시키는 데 있어서 중국어 사용자들의 인지 과정에 영향을 끼친다. 둘째, 현실 세계의 분류적 혹은 의미적 범주가 매우 강하기는 하지만, 중국어 화자들은 같은 분류사를 공유하는 사물들을 범주화시킬 수 있었다. 셋째, 중국어 화자들은 복수형보다는 단수형으로 그림이 제시되었을 때 분류사에 근거한 범주화를 더 자주 보였다. 이런 현상의 이유는 같은 분류사를 공유하는 사물들 사이의 모양의 유사성, 중국어 문법에 드러난 언어적 큐의 활용, 그리고 언어 표현들의 중량감에서 찾아볼 수 있다. 이렇게 이 논문에서는 중국어의 분류사 체계가 이 세상을 범주화시키는 인지 과정에 어떻게 영향을 끼치는 지에 대한 이해를 제시했다.

      • Design of fuzzy-bayesian classifier based on multi-input and multi-output fuzzy model : 다중 입출력 퍼지 모델 기반 퍼지-베이지안 분류기 설계 : 999999,이한규

        김도완 연세대학교 대학원 2004 국내석사

        RANK : 2941

        본 학위 논문은 퍼지-베이지안 분류기의 새로운 체계적인 설계 기법을 소개한다. 제안된 설계 기법은 퍼지 분류기와 베이지안 분류기의 상대적인 장점과 단점을 고려하였다. 제안된 퍼지-베이지안 분류기는 다중 입출력 퍼지 모델 기반 분류기의 특수한 형태이다. 다중 입출력 퍼지 규칙의 전건부에는 퍼지 분류기가 적용되는 반면, 후건부에는 베이지안 분류기가 사용된다. 각 규칙의 조합을 통해서 퍼지-베이지안 분류기는 특성 공간을 클래스 개수만큼의 결정 영역으로 분할한다. 다중 입출력 퍼지 모델을 결합 분류기의 구조로 선택한 것의 타당성을 보이가 위해서 본 논문에서는 각 클래스에 대한 경정 영역은 기본적으로 퍼지 분류기와 베이지안 분류기의 공통된 결정 영역을 포함할 수 있음을 해석적으로 증명한다. 모델의 복잡성과 분류 성능 과정에서 제안된 퍼지-베이지안 분류기를 최적화 시키기 위해서 본 학위 논문은 다음과 같이 두가지 문제를 다룬다: 1) 퍼지 집합 분석을 통한 특성 벡터 추출; 2) 잘못 분류된 특성 벡터에 대한 퍼지 집합의 조정. 퍼지 벡터 추출에서는 제안된 분류기를 상대적으로 낮은 차원의 분류기로의 변환을 시도한다. 이것을 실행하기 위해 퍼지 집합 분석 기법과 경험적 특수 변수 제거 알고리듬을 제안하였다. 퍼지 집합 파라미터의 조정에서는 경사치 하향 알고리듬에 의해 잘못 분류되 특성 벡터가 다시 잘 분류할 수 있도록 파라미터 값이 조정된다. 마지막으로 제안된 기법의 실용성를 위하여, 분꽃 데이터와 Wisconsin 유방암 데이터에 대한 컴퓨터 시뮬레이션이 제공된다. This thesis presents a new systematic design approach to a fuzzy-Bayesian classifier. The proposed design approach takes account of relative strengths and weaknesses of th fuzzy classifier and the Bayesian classifier. The proposed fuzzy-Bayesian classifier is a special type of th multi-input and multi-output(MIMO) fuzzy medel-based classifier. In the premise part of the MIMO fuzzy rule, the fuzzy classifier is applied, while the Bayesian classification is employed in the consequent part. By aggregating the fuzzy rules, the fuzzy-Bayesian classifier can divide the feature space into the decision regions as many as the sturcture of the combining classifier, this thesis demonstrates that the decision region of the fuzzy-Bayesian classifier covers the common decision region of the constituent classifiers. For cptimizing the fuzzy-Bayesian classifier in terms of the model complexity and the classdification accuracy, we suggest the dimensionality reduction and the tarining algorithms. The fuzzy-Bayesian classifier is first transformed into the relatively low dimensional classifier, and then its the premise parameters are finely adjusted. Specifically, to reduce the dimensionality, the beuristic algorithm based on the fuzzy set analysis method is proposed. And also, the gradient descent method is used for tuning the premise parameters. Applying the gradient descent methol to the fuzzy-Bayesian classifier is a difficult problem because it is represented as the discriminant functions. To do this, the objective function for the discriminant function is presented. Finally, to show the feasibility fo the proposed algorithm, computer simulations are provided.

      • 규칙기반 자연어처리 기술을 이용한 의료문서 필터링

        윤은실 서울대학교 대학원 2014 국내석사

        RANK : 2940

        임상의는 갑상선 환자의 초음파 판독문을 매일 접하게 되는데, 판독 결과 갑상선암이 의심되는 환자는 정상인 환자에 비해 그 비율이 적다. 하지만 임상의는 모든 판독문을 일일이 보고 정상인지 암환자인지 구분하고 있다. 정상인 환자의 판독문을 보는데 들어가는 임상의의 시간과 수고를 덜어주고자 본 연구를 진행하게 되었다. 본 연구는 초음파 판독문을 정상인 케이스와 한번 더 봐야 하는 판독문의 경우로 분류하는 동시에 정상인 케이스는 확실하게 정상인 케이스만을 분류하는 시스템을 개발하고자 한다. 정상인 케이스에 한번 더 봐야 하는 판독문이 끼어 있는 것을 최대한 방지하기 위함이다. 이를 위해 판독문을 분석하고 자연어처리 기법을 이용해판독문에서 의미있는 키워드를 뽑아낸 후 이를 이용해 패턴을 생성, Rule-based Classifier에 적용하였다. Rule-based Classifier는 JAVA 기반으로 개발하였으며 92.34%의 Accuracy를 보였다. 모든 클래스의 성능에 가중치를 두어 도출해낸 Weighted Avg. of Precision은 0.946, Recall은 0.923, F-measure는 0.931의 성능을 보였다. 특히, 이 연구에서 가장 중요한 목표인 정상인 환자로 분류한 데이터 중 깨끗하게 정상인 환자임을 보는 측도로 Precision을 계산할 수 있는데, 이는 1.0의 성능을 보였다. 추가로 Rule-based Classifier의 성능을 비교 검토하고자 Decision Tree와 Machine Learning Technique을 활용하였는데, Overall Accuracy에서 Rule-based Classifier가 Decision Tree보다 0.74% 낮았다. 하지만 개수로 보면 3개의 데이터를 맞지 않게 분류한 것이다. 또한 본 연구에서 중요하게 보는 정상인 환자의 Precision은 Decision Tree와 Machine Learning Technique에서는 1.0보다 낮은 0.962, 0.945를 기록하였다. Physicians encounter ultrasound reports of thyroid neoplasm everyday. Ultrasound reports are classified into three types. RECUR is a report of a patient whose cancer recurred. INTER is a report used when it is not certain whether cancer recurred or not. NED stands for No Evidence of Disease. The proportion among the three types is not uniform. It is more likely to see NED reports than RECUR or INTER reports. However, physicians have to review all the reports manually. Physicians want to see the detail of the recurrence reports, so filtering reports that do not have the evidence of disease is important and can reduce human workload. These documents are clinical texts, thus classifying RECUR documents as NED documents is unacceptable. We developed a rule-based classifier using JAVA which detects the keywords in the reports and classifies the reports into the three categories using the patterns. The evaluation showed 92.34% accuracy in classifying into the three types. Also, a very crucial result of this paper is the 1.0 of precision in NED class. The 1.0 precision in NED means that those classified as NED consist of documents that were actually only NED documents. In addition, to evaluate the rule-based classifier, we experimented the decision tree and machine learning techniques. The decision tree and machine learning technique experimented using WEKA. For this experiment, we used 80 keywords for the feature sets. The overall accuracy of the decision trees was 0.74% higher than the rule-based classifier, but it misclassified three documents. The precision in NED was 0.962 in the decision tree and 0.945 in the machine learning technique which were all lower than the precision of 1.0 in the rule-based classifier.

      • Four essays on data cleaning and classifier fusion for effective data mining

        신형원 Graduate School, Yonsei University 2003 국내박사

        RANK : 2940

        In this research, new algorithms for data cleaning and classifier fusion are investigated: (1) multiple outliers detection and categorical missing data imputation algorithm for pre-processing; and (2) classifier combination for post-processing. In terms of these issues, four topics presented for effective data mining are as follows: ■Multiple Outlier Detection via Clustering Analysis based on Genetic Algorithm For identifying multiple outliers, the proposed method consists of two phase process: (1) clustering of observations; and (2) repeatedly searching for optimal combination of clusters using genetic algorithm. Experimental study results indicate that the proposed method has better performance than that of the separate usage of either LMS method or clustering method for a multiple outliers, when data size is small and percentage of outlying observation is high, or when data size is small and the distance between normal observation and outlier is short. ■Comparing Accuracy of Imputation Methods for Incomplete Categorical Data In this research, two imputation methods are proposed: neural network fusion and voting fusion that combine the results of individual imputation methods. A Monte-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data are (1) true model for the data, (2) data size, (3) noise size (4) percentage of missing data, and (5) missing pattern. Overall, neural network fusion performed the best while voting fusion is better than the individual imputation methods. Result of an additional real data analysis confirms the simulation result. ■Combining Both Classifier Ensemble and Dynamic Classifier Selection This paper proposes a method for combining multiple tree classifiers based on both classifier ensemble (bagging) and dynamic classifier selection schemes (DCS). The proposed method is composed of the following procedures: (1) building individual tree classifiers based on bootstrap samples; (2) calculating the distance between all possible two trees; (3) clustering the trees based on single linkage clustering; (4) selecting two clusters by local region in terms of accuracy and error diversity; and (5) voting the results of tree classifiers selected in the two clusters. Empirical evaluation using publicly available datasets confirm the superiority of our proposed approach over other classifier combining methods. ■Classification with Multi-Attribute Performance Measures Based on Data Envelopment Analysis In this research, data envelopment analysis (DEA) is used for finding the weights involved in multi-attributes performances of each classifier as well as the weight for individual classifiers. In this way, arbitrary weight assignment can be avoided and efficiency of individual classifiers can be reflected for ensemble. In this research, new algorithms for data cleaning and classifier fusion are investigated: (1) multiple outliers detection and categorical missing data imputation algorithm for pre-processing; and (2) classifier combination for post-processing. In terms of these issues, four topics presented for effective data mining are as follows: Multiple Outlier Detection via Clustering Analysis based on Genetic Algorithm For identifying multiple outliers, the proposed method consists of two phase process: (1) clustering of observations; and (2) repeatedly searching for optimal combination of clusters using genetic algorithm. Experimental study results indicate that the proposed method has better performance than that of the separate usage of either LMS method or clustering method for a multiple outliers, when data size is small and percentage of outlying observation is high, or when data size is small and the distance between normal observation and outlier is short. Comparing Accuracy of Imputation Methods for Incomplete Categorical Data In this research, two imputation methods are proposed: neural network fusion and voting fusion that combine the results of individual imputation methods. A Monte-Carlo simulation is used to compare the performance of these methods. Five factors used to simulate the missing data are (1) true model for the data, (2) data size, (3) noise size (4) percentage of missing data, and (5) missing pattern. Overall, neural network fusion performed the best while voting fusion is better than the individual imputation methods. Result of an additional real data analysis confirms the simulation result. Combining Both Classifier Ensemble and Dynamic Classifier Selection This paper proposes a method for combining multiple tree classifiers based on both classifier ensemble (bagging) and dynamic classifier selection schemes (DCS). The proposed method is composed of the following procedures: (1) building individual tree classifiers based on bootstrap samples; (2) calculating the distance between all possible two trees; (3) clustering the trees based on single linkage clustering; (4) selecting two clusters by local region in terms of accuracy and error diversity; and (5) voting the results of tree classifiers selected in the two clusters. Empirical evaluation using publicly available datasets confirm the superiority of our proposed approach over other classifier combining methods. Classification with Multi-Attribute Performance Measures Based on Data Envelopment Analysis In this research, data envelopment analysis (DEA) is used for finding the weights involved in multi-attributes performances of each classifier as well as the weight for individual classifiers. In this way, arbitrary weight assignment can be avoided and efficiency of individual classifiers can be reflected for ensemble.

      • 한중 한자어 분류사 통시적 대조 연구

        단명결 경희대학교 일반대학원 2015 국내박사

        RANK : 2940

        한·중 한자어 부류사의 통시적 대조 연구 한국어의 분류사는 중국어로는 양사라고 칭한다. 분류사는 다양한 언어에서 각기 다른 명칭으로 불리고 있으며, 전 세계 6000여개의 언어들 가운데 상당히 많은 언어들에서 분류사의 위상을 확인할 수 있다. 한국어 어휘를 한자어와 고유어, 외래어로 구분하듯 분류사 역시 한자어 분류사, 고유어 분류사, 외래어 분류사로 구분할 수 있다. 한자어 분류사는 모두 중국에서 차용되어 왔지만, 한국으로 건너와 각기 다른 시대를 거치고 문화적인 영향을 받으면서 그 사용범주들에 변화를 겪어왔다. 본 논문은 이러한 요인들을 감안하여 한중 양국의 역사문헌에서 찾을 수 있는 각 시대별 분류사의 용례를 비교하고, 한중 분류사의 시기별 용법과 그 사용범주를 분석하여 한국어 분류사의 발전양상과 변화 및 특징을 살펴보고자 한다. 본 논문은 아홉 개의 장으로 구성된다. 1장 서론은 연구목적과 한중 분류사의 선행연구를 분석하고 연구자료와 방법을 소개하였으며, 2장은 한중분류사의 체계에 대한 설명, 주로 한중 분류사의 개념과 명칭에 대한 논의를 다루었다. 본 논문은 양국의 학자들의 기존에 사용했던 하위 분류방법을 사용하지 않고 참고명사의 분류를 따라 한국어 분류사를 우선 실체성 분류사와 사건성 분류사로 구분하였다. 실체성 분류사는 또 인간성 분류사와 동물성 분류사, 식물성 분류사 및 개체성 분류사로 세분화하여 구분하였는데, 개체성 분류사는 실질적 생명이 없는 사물개체를 의미한다. 사건성 분류사는 중국어에서 동량사라고 칭하는 양사이다. 한국어의 동사는 중국어와 달라 이를 동작동사와 상태동사로 구분하고 있는데, 동작동사는 이름에서 알 수 있듯 동작을 구체적으로 표시하는 동사로 '먹다[吃], 마시다[喝], 보다[看]’ 등을 예로 들 수 있고, 상태동사는 즉 중국어의 형용사로 예를 들면 '아름답다[漂亮], 깊다[深], 높다[高]' 등의 예를 들 수 있다. 본 논문은 또한 한국어 동사의 이러한 특징을 바탕으로 '번(番), 차(次), 회(回)' 등의 사건성 분류사를 동작동사 분류사로, '장(丈), 척(尺), 초(秒)' 를 상태동사 분류사로 구분하였으며, 후자는 즉 도량양사와 같은 것으로 간주하여 본 논문의 연구대상에서 제외하였다. 본 논문이 통시적 연구인 관계로 본격적인 연구에 앞서 한국어와 중국어의 발전사에 대한 시대구분이 필요했다. 한국어의 시대구분은 이기문의 『국어사개론』에 나오는 9세기 이전을 고대한국어로, 10~13세기를 중세전기 한국어로, 14~16세기를 중세후기 한국어로, 17~19세기를 근대한국어, 20세기 이후를 현대한국어로 나누는 구분을 따르도록 하였다. 중국어 분류사의 시대구분은 劉世儒의 『魏晉南北朝量詞』를 따르도록 하겠다. 류세유에 의하면 중국어 분류사는 아주 이른 선진 시기부터 나타났으나 위진남북조 시기에 이르러서야 분류사가 다양한 용법과 분업이 실시되었다고 한다. 3장부터 7장까지 분류사의 하위분류 중 인간성 분류사, 동물성 분류사, 식물성 분류사, 개체성 분류사 및 사건성 분류사 중 동작을 표시하는 동작동사 분류사에 대해 구체적인 비교연구를 하였다. 실체성 분류사의 인간성 분류사는 주로 '구(口), 인(人), 명(名), 개(個)/개(箇), 개(介), 위(位), 원(員)'을 중심으로 다루었고, 동물성 분류사는 '두(頭), 필(匹), 수(首), 미(尾)'를 중심으로 다루었다. 식물성 분류사는 '경(莖), 근(根), 본(本), 주(株), 타(朵)'를 중심으로 다루었다. 수량이 가장 많은 개체성 분류사는 사용빈도가 가장 높은 '건(件), 매(枚), 장(張), 부(副), 부(部)'를 중심으로 분석하였다. 사건성 분류사의 동작동사 분류사 역시 사용빈도가 가장 높은 '번(番), 차(次), 회(回)'를 연구대상으로 다루었다. 3장부터 7장까지의 비교분석에 근거하여 8장에서는 한국어 한자어 분류사의 발전과정에 대해서 설명하고, 한국어 분류사의 발달양상과 그 특징을 살펴보았다. 한국어 한자어 분류사는 초기에 중국어에서 차용되어 왔고 일부의 한자어 분류사 용법은 중국어와 동일하나 일부의 한자어 분류사의 용법은 중국어와 큰 차이를 보였고, 심지어는 차용된 한국어 한자어 분류사가 역으로 중국어에 영향을 주는 사례도 발생했다. 이는 중세후기 훈민정음의 창제와 한국어 고유어 분류사의 출현과도 큰 연관을 가진다. 본 논문이 모든 한국어 한자어 분류사를 다루지 못하였지만, 추후 다른 한자어 분류사들 특히 개체성 분류사의 구체적인 하위분류 및 각 분류내용 별로 더욱 심도있는 연구를 이어가고 자 한다. 주제어: 한국어, 중국어, 분류사, 역사연구, 인간성 분류사, 동물성 분류사, 식물성 분류사, 개체성 분류사, 사건성 분류사, 발달과정 Classifier in Korean is what called “quantifier” in Chinese. This common term exists in most nowadays languages, even though with various names. In general, Korean vocabulary is divided into three groups: vocabulary deriving from Chinese, inherent Korean vocabulary, and vocabulary deriving from other foreign languages. Correspondingly, Korean classifier falls into: classifier deriving from Chinese, inherent classifier in Korean, and classifier deriving from other foreign languages. The first group: classifier deriving from Chinese is the main content of this article. Even though originating from Chinese, its usage and domain has changed tremendously under the various cultural influences during hundreds of years. Therefore, this article aims to research developments, changes and features of Korean classifier, by comparing the examples and analyzing the usage and domain in both Korean and Chinese existing historic references. Of nine chapters, chapter 1 presents research objective, reviews the prior research of classifier in Korean and Chinese and introduces research materials and method. Chapter 2 analyzes classifier’s systems in both Korean and Chinese. First, discuss the definition and name of classifier in Korean and Chinese. Then, compare completed research of subtypes of classifier in Korea and China. Finally, organize and categorize classifier deriving from Chinese. Rather than use any existing research method to analyze subtypes of Korean classifier, this article divides this term into two groups: entity classifier and event classifier, by referring to classification of noun. Entity classifier consistsof: human, animal, plant and individual(entity without life), and event classifier is same as verbal quantifier in Chinese. However, Korean verb is quite different from Chinese verb. The former is composed of action verb and status verb. Action verb is describing a concrete motion, such as “eat, drink, look” but status verb equals to Chinese adjective, such as “pretty, deep, high”. Based on the feature of Korean verb, this article divides event classifier into: that related to action verb, such as “番,次,回”, and that related to status verb, such as “丈, 尺, 秒”, which is excluded this time as it is more like measure quantifier. As this article is a historic research, it is crucial to divide lingual developments in Korean and Chinese with accepted criteria. The phrases of Korean include: ancient Korean before 9th century, early middle ages Korean between 10th and 13th century, late middle ages Korean between 14th and 16th century, modern Korean between 17th and 19th centry and contemporary Korean after 20th century (source: 李基文『国语史概论』). In Chinese, some classifiers occurred in the Pre-Qin Period, but abundant classifier with clear functions did not prevail until the Northern and Southern Dynasties (source: 刘世儒『魏晋南北朝量词』). From chapter 3 to 7, the article depicts more detailed comparisons about 4 subtypes ofentity classifier and classifier related to action verb (belonged to event classifier). The research of humanity classifier (the first subtype of entity classifier) centers around “名,个,介,位,员”. The research of animality classifier revolves around “头,匹,首,尾”. The research of plant classifier is mainly about “茎, 根, 本, 株,朵”. About individual classifier that occupies the largest proportion, its research revolves around “件,枚,張,副,部”. When doing research about classifier related to action verb (one subtype of event classifier), the focus is on “番,次,回” which are used most frequently. Based on the comparative analyses in the last five chapters, chapter 8 summarizes the developments of Korean classifier and generalizes the changing process and features of Korean. It is universally acknowledged that Korean classifier deriving from Chinese has Chinese root, and some usage is the same in both languages. Yet, some usage is quite different from those Chinese classifier, and even impacts the latter. This could attribute to the appearance of inherent “训民正音” and Korean classifier. Restricted by the length, this article does not accomplish the comparative research of all Korean classifier deriving from Chinese. The flowing research will focus on establishing appropriate subtypes of individual classifier and continuing all-aspect surveys on depth. 韓語的分類詞,漢語中稱之為量詞,雖然在其他語言中有着不同的名稱,但是在全世 界6000多種語言中有相當數量的語言中都能找到他的位置。詞彙可以分為漢字詞,固有 詞和外來詞。分類詞也同樣被分為漢字分類詞,固有分類詞和外來詞分類詞。這些漢字 分類詞雖然都是從中國借用的,但是經過不同的歷史時代,並且受到各時期文化的影 響,使其用法範疇發生變化。考慮到這些因素,本論文將通過對韓中兩國歷史資料中個 時代分類詞用例的對比,分析韓中分類詞個時期的用法與使用範疇,來研究韓語分類詞 的發展過程、變化及特點。全文共分為九章。第一章緒論主要論述研究目的,分析韓中分類詞的先行研究,並且 介紹研究材料以及研究方法。 第二章主要對韓中分類詞的體系進行了分别論述。首先就韓中分類詞的概念及名稱進 行了討論,然後對韓中各個學者對分類詞的下位分類進行對比。最後就本論文研究對象 --漢字分類詞的目錄做了整理,並將這些目錄歸類。本論文沒有按照已有的各個學者分 類方法對韓語分類詞進行下位分類,而是通過參考名詞分類,把韓語分類詞先分為實體 性分類詞及事件性分類詞。而實體性分類詞又具體分為人類分類詞,動物分類詞,植物 分類詞,及個體性分類詞。這裡所謂的個體性分類詞實際上是指沒有生命的事物個體。 所謂事件分類詞也就是我們漢語中所說的動量詞。但是韓語中的動詞與漢語不同,它被 分為動作動詞與狀態動詞,動作動詞顧名思義即是具體表示動作的動詞,例如“吃,喝, 看”等等, 而狀態動詞即指我們漢語的形容詞,例如”漂亮,深,高“等等。根據韓語動 詞的這一特點,本論文將事件性分類詞分為動作動詞分類詞,例如“番,次,回”,與狀 態動詞分類詞,例如“丈,尺 秒”。後者則相當於度量量詞,不作為本論文的討論對象。由於本論文屬於歷史性研究,所以在研究之前先將韓語與漢語的發展史進行了時代劃 分。韓語的時代劃分主要根據李基文先生《國語史概論》中提及的內容把韓國語歷史分為9 世紀以前的古代韓語,10世紀到13世紀中世紀前期韓語,14世紀到16世紀中世紀後期韓 語,17世紀到19世紀近代韓語和20世紀以後現代韓語。漢語雖然也有自己的時代劃分, 特別是分類詞的發展,按照劉世儒先生的《魏晉南北朝量詞》一書中的內容,我們了解到 韓語分類詞雖然有的產生於很早的先秦時期,但是一直到魏晉南北朝時期分類詞才大量 出現並且分工越來越明確。所以本論文將以此時代劃分為標準進行研究。從第三章到第七章將對分類詞的下位分類中的人類分類詞,動物分類詞,植物分類 詞,個體性分類詞及事件性分類詞中表動作的動作動詞分類詞進行具體的對比研究。實 體性分類詞的人類分類詞主要以“口,人,名,個/箇,介,位,員”為中心,動物分類詞 以“頭,匹,首,尾”為中心, 植物分類詞以“莖,根,本,株,朵”為中心,對於數量最 多的個體分類詞則選擇使用頻度較高的“件,枚,張,副,部”為中心進行研究分析。事 件性分類詞的動作動詞分類詞同樣選擇了使用頻度最高的“番,次,回”作為研究對象。按照第三章到第七章的對比分析,第八章將對韓語漢字分類詞的發展過程進行總結, 得出韓語發展的變化過程及特點。韓語漢字分類詞最初雖然從漢語借用過來,有的漢字分類詞的用法和漢語相同,但也 有的漢字分類詞的用法與漢語差異很大,有的甚至影響到在漢語的用法。這與中世紀後 期訓民正音以及韓語固有分類詞的出現有著莫大的關係。本論文雖然沒有對所有的韓語漢字分類詞進行比較研究。但以後將對其他漢字分類詞 特別是個體性分類詞進行具體下位分類,並且根據分類進行各方面的深入研究。

      • A Multiplexer-efficient Haar Cascade Classifier Accelerator : 멀티플렉서 효율적인 Haar Cascade Classifier 가속기

        이상현 경북대학교 대학원 2022 국내석사

        RANK : 2940

        Recently, face-based non-contact identification systems have been studied actively to prevent the spread of COVID-19. Especially, face-based non-contact identification systems are widely used because they can easily identify an identity by simply looking at the camera. However, the face-based identification systems have a problem with increasing the amount of computation for the identification process when many background regions are detected in the face detection process. To solve this problem, many studies have been conducted to accurately detect only the face region in the image. Among the algorithms for finding faces, a Haar cascade classifier algorithm can perform face detection quickly and accurately. Therefore, the Haar cascade classifier algorithm is extensively utilized in embedded devices. Moreover, the Haar cascade classifier algorithm has a simple operation process and can be simultaneously calculated in parallel. For this reason, many studies for implementing the Haar cascade classifier hardware were conducted. However, the Haar cascade classifier hardware uses significant hardware resources. Most of the resource usage of the Haar cascade classifier hardware is the multiplexer that extracts the pixels required for the face detection process. To solve this problem, we propose two methods to reduce multiplexers used for pixel extraction, and a hardware architecture with two proposed methods. In the proposed Haar cascade classifier hardware, slice register usage was reduced by 18%, and slice LUT usage was reduced by 28.1% compared to conventional hardware. 얼굴 영상 기반 비접촉 신원확인 시스템은 코로나-19 확산 방지를 위해 많이 사용되고 있다. 편의성을 필요로 하는 환경에서 주로 사용되는 얼굴 영상 기반 비접촉 신원확인 시스템은 얼굴 검출 과정에서 배경 영역을 많이 오검출할 경우 신원확인 시간이 길어지는 문제가 있다. 이러한 문제를 해결하기 위해 영상에서 오검출 개수를 줄이고 얼굴 검출율을 높이기 위한 연구가 활발하게 진행되고 있다. 얼굴 검출 알고리즘 중 머신러닝 기반 Haar cascade classifiers는 얼굴 검출 연산이 단순하고 병렬로 동시에 연산될 수 있어 빠르게 얼굴을 검출할 수 있으며, 다른 얼굴 검출 알고리즘에 비해 정확하게 얼굴을 검출할 수 있다. 이러한 이점으로 인해 Haar cascade classifiers는 임베디드 비전 시스템에 많이 사용되고 있으며, Haar cascade classifiers를 하드웨어로 구현하기 위한 연구가 활발히 진행되고 있다. 그러나, Haar cascade classifiers를 하드웨어로 구현하는 것은 상당한 하드웨어 자원 사용량이 사용되는 문제가 있다. Haar cascade classifier 하드웨어는 명암의 차이를 이용하여 얼굴의 특징을 찾기 때문에 영상에서 특정 픽셀을 추출해야 하며, 이러한 과정에서 많은 멀티플렉서를 사용하는 것은 필수적이다. 따라서, Haar cascade classifier 하드웨어에 사용되는 자원 사용량 중 대부분은 픽셀을 추출하기 위한 멀티플렉서이다. 이러한 문제를 해결하기 위해, 본 논문에서는 픽셀 추출을 위해 사용되는 멀티플렉서 사용량을 줄일 수 있는 두 가지 방법과 이를 적용한 하드웨어 구조를 제안한다. 제안하는 Haar cascade classifier 하드웨어는 기존 하드웨어보다 slice register 사용량이 18% 감소하였으며, slice LUT 사용량이 28.1% 감소하였다.

      • 혼합분류기 기반 영상내 움직이는 객체의 혼잡도 인식에 관한 연구

        안성제 서울과학기술대학교 NID융합기술대학원 2011 국내석사

        RANK : 2939

        혼합분류기를 이용한 패턴인식은 약한 분류기를 결합하여 강한 분류기를 구성하는 형태이다. 기존의 연구에 따르면 이 방법은 설계가 쉽고 비교적 적은 계산량으로 좋은 분류 결과를 얻을 수 있어서 최근에 매우 다양한 분야에 쓰이고 있다. AdaBoost 기법에서는 분류기 설계를 위한 약한 특징들의 결합은 순차적으로 이루어지며, 학습 데이터에서 개별적으로 할당되어 있는 가중치들에 의해서 추가해야할 약한 분류기들이 정해진다. 이후에 가중치는 갱신 과정을 통해서 증가 혹은 감소하게 되는데 이러한 약한 분리기의 추가와 가중치 갱신의 반복 과정으로 학습 데이터에 최적화된 강한 분류기가 생성된다. 이때 약한 분류기는 성능면에서 매우 약한 분류 성능을 갖고 있더라도 강한 분류기 측면에서의 분류기 성능을 향상시키는데 큰 영향력을 갖는다. 이러한 특징 때문에 기존의 학습기법들에 비해 보다 우수한 분류 성능을 나타낸다. 본 논문에서는 고정된 카메라를 통해 입력된 영상을 이용하여 특징을 추출하고 추출된 특징들을 이용한 약한 분류기의 결합으로 강한 분류기를 만들어 낸다. 이렇게 만들어진 강한 분류기는 상호 보완적인 약한 분류기로 이루어지기 때문에 환경적인 요소를 포함하고 있다. 그렇기 때문에 오류로 작용하는 환경적 요소를 극복할 수 있다. 제안하는 시스템 구성은 차영상 기법을 이용해서 전경부분을 분리하고 임계치를 이용한 이진화로 불필요한 노이즈를 제거하는 단계를 거치게 된다. 이렇게 얻어진 영상과 모폴로지 침식연산 수행으로 얻어진 혼잡도 가중치 영상을 이용한 특징을 추출하게 된다. 추출된 특징을 조합하고 혼잡도를 판단하기 위한 모델의 훈련 및 인식을 위한 혼합분류기 알고리즘으로 부스팅 방법을 사용한다. 혼합 분류기는 약한 분류기의 조합으로 하나의 강한 분류기를 만들어 내는 분류기로서 그림자나 반사 등이 일어나는 환경에서도 잠재적인 특징들을 잘 활용할 수 있다. 제안하는 시스템의 성능실험은 “AVSS 2007“의 도로환경의 차량 영상과 철도환경내의 승강장 영상을 사용하였다. 조명변화가 심한 야외환경과 승강장과 같은 복잡한 환경에서도 시스템의 우수한 성능을 보여주었다. Pattern recognition using ensemble classifiers is composed of strong classifier which consists of many weak classifiers. Recently this method is very useful in many kinds of field. Because the method has low calculation, high accuracy and easy to organize. In AdaBoost method to build classifier, weak classifier is combined by stages. And weak classifier would be chosen by weight. Then weight would be increased and decreased through renewal processing. These steps make strong optimization classifier. Even weak classifier has low accuracy, weak classifier is very effective to improve strong classifier accuracy. So this method has better efficiency than other methods. In this paper, we used feature extraction to organize strong classifier using static camera sequence. The strong classifier is made by weak classifier which includes environment. So the strong classifier overcomes environment effect. Proposed method uses subtraction image for extraction foreground and binary image using threshold value for exclusion noise. And the method employs morphology processing with weight to extract feature. Then boosting method would be used to train crowdedness model and recognition crowdedness using features which is extracted at last step. Weak classifiers' combination makes strong classifier which is ensemble classifier. The classifier could apply potential feature on environment including shadow and reflection. The proposed system tests with "AVSS 2007" that has road sequence and platform sequence for test accuracy. The result shows good accuracy and efficiency on complex environment.

      • SVM 분류기를 이용한 문서 범주화 연구

        임혜영 연세대학교 대학원 2001 국내석사

        RANK : 2938

        문서 범주화는 문서의 내용을 바탕으로 미리 정의된 범주를 문서에 부여함으로써 문서를 자동 분류하는 기법이다. 특히 문서 범주화에 이용되는 분류기 중에서 1995년에 Vladimir Vapnik에 의해 이원 패턴인식 문제를 해결하기 위해 제안된 SVM(Support Vector Machines) 분류기는 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 ModApte 분할판을 실험문서집단으로 하고 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 이용하여 SVM분류기의 성능을 평가하고, 선형 SVM과 비선형 SVM의 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류 방법에 의해 다원 분류기로 확장하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다. 본 연구를 통해 밝혀진 사실은 다음과 같다. 첫째, 자질값에 따른 성능 비교 실험에서는 문헌길이 정규화 공식의 경우 역문헌빈도를 적용하였을 때 성능이 향상되었지만, 문헌길이 정규화 공식을 적용하지 않았을 때에는 TF(문서내 단어빈도)만을 사용한 것이 더 좋은 성능을 보였다. 다양한 단어빈도 가중치 중에서 루트 TF를 사용하였을 때 가장 좋은 분류 성능을 보였으며, Okapi TF와 로그 TF도 우수한 성능을 나타냈다. 그러나 각 용어가중치에 따른 성능의 차이는 그다지 크지 않으며, 이진값이나 단순 TF를 자질값으로 이용하더라도 SVM 분류기에서는 충분히 좋은 성능을 보이는 것을 알 수 있다. 둘째, SVM에서는 학습과정이 이루어지기 전에 사용자가 마진폭과 분류 오류사이의 타협점을 찾아주는 오류 패널티 변수 C 값과 비선형 SVM에 적용되는 커널함수의 파라미터를 직접 결정해야 한다. 본 연구에서는 문서 범주화에 적합한 SVM의 오류 패널티 변수 C 값과 비선형 SVM에 적용되는 커널함수의 파라미터를 결정하기 위해 사전실험을 수행하였다. 사전실험에서 우수한 성능을 보였던 C 값과 커널함수의 파라미터 값을 이용하여 SVM 이원 분류기의 성능 비교 실험을 수행하였다. 실험결과를 보면 선형 SVM과 비선형 SVM의 정확도는 거의 차이가 없으며, F_1 값에서 약간의 차이를 보이고 있기 때문에, 선형 SVM이 학습과정 전에 미리 커널함수의 파라미터 값을 결정해야 하는 비선형 SVM에 비해 문서 범주화에 간단하고 효율적인 방법으로 평가된다. 셋째, SVM 이원 분류기를 다원 분류기로 확장하여 실험을 수행한 결과 승자독식 방법은 F_(1) 값이 95.86%으로서 92.20%의 쌍단위 분류 방법보다 우수한 분류성능을 나타냈다. 이것은 SVM 이원 분류기의 분류 성능보다도 다소 향상된 결과이다. 그러나 분류 성능과 학습과정의 복잡도를 모두 고려해봤을 때 SVM 이원 분류기가 문서 범주화에 더 적합한 것으로 평가된다. 마지막으로 초기 문서 범주화 연구부터 지금까지 꾸준히 사용되고 있는 나이브 베이즈(Naive Bayes) 분류기를 이용하여 문서 범주화 실험을 수행한 후 SVM 분류기와의 성능을 비교 분석해본 결과, 나이브 베이즈 분류기는 마이크로 평균 F_(1) 값이 59.64%인 반면, SVM 분류기는 94.03%의 성능을 보임으로써 SVM 분류기가 나이브 베이즈 분류기보다 우수한 학습방법에 기반하고 있음을 증명하였다. Text categorization, defined as the assignment of natural language texts to one or more predefined categories based on their content, is an important component in many information management and organization tasks. SVMs(Support Vector Machines) have been proven to outperform several other learning algorithms for text categorization. SVMs are a relatively new statistical learning approach introduced by Vladimir Vapnik in 1995 for solving two-class pattern recognition problems. This paper evaluates the categorization ability of an SVM classifier using the ModApte split of the Reuters-21578 dataset, with three objectives: to test a few feature weighting schemes that will be used in the categorization tasks; to compare the categorization performances of linear and non-linear SVMs; and to expand the binary SVM classifier into a multi-class SVM classifier and evaluate their relative performances. The findings of the study are as follows. First, the experiment with feature weighting schemes shows that normalizing the document length improves the performance of the inverse document frequency, but not that of the term frequency. Among 6 term frequency weights, root TF marginally outperforms the other TF weights. Binary TF and simple TF are also proven to work well in SVMs. Second, SVMs have only two major parameters to be defined by a user. They include the C value which defines a trade-off point between the margin width and the classification error and the kernel function used in the non-linear SVM. A prior experiment is performed to determine the parameter values suitable for text categorization. Next, the linear SVM is compared with the non-linear SVM, using the feature values and parameter values that showed the best performance in the prior experiment. The difference between the performances of the linear and non-linear SVMs is slight in this experiment. It is found that the linear SVM is a simpler and more efficient model for text categorization because the non-linear SVM requires complex parameter tuning. Third, in the experiment expanding the binary SVM classifier into a multi-class SVM classifier by winner-takes-all and pairwise classification methods, the micro-averaged F_(1) score 95.86% for the winner-takes-all is higher than the pairwise classification (F_(1) score 92.20%). In particular, the performance of the multi-class SVM classifier is slightly better than that of the binary SVM classifier. This experiment indicates that the binary SVM classifier can be used as a representative model for text categorization considering classification complexity and accuracy. Fourth, the performance of a Naive Bayesian classifier is evaluated and compared with that of the SVM classifier. This experiment shows that the SVM classifier performs significantly better than the Naive Bayesian classifier.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼