      • 基于LDA模型下的朝鲜王朝-明朝外交记录研究 : —以《朝鲜王朝实录》和《明实录》为中心

        장형월 한양대학교 국제학대학원 2024 국내박사

        RANK : 247807

        摘要《朝鲜王朝实录》和《明实录》都是实录类型的史料。《明实录》中有1950条朝鲜相关记录,《朝鲜王朝实录》中有22695条明朝相关记录。本论文实际利用了《朝鲜王朝实录》1 7355条史料、《明实录》2123条史料、《满清实录》931条史料,实际利用中筛选了重复条目,并添加了其他未涉及外交的部分条目进行辅助解释。内容上以朝贡外交为主线,两国之间政治、经济、文化、思想、军事以及民间的往来为支线,记载详细丰富,故而两部实录是研究明朝-朝鲜外交的重要资料。 但目前学界关于两部实录的全文本比较研究成果还较少,主要集中在朝贡外交和诗赋外交方面,总体缺乏全面比较的研究成果。而全面比较面临的最大问题是两部实录的体量较大,由于史料繁多,此前学者多从关键词入手进行检索,但关键词的选择往往受研究者的观点影响,因而可能会导致一些相关的史料,由于关键词选取偏差而被忽略。LDA模型恰好具有分析庞大文本的特点。本论文将使用LDA话题模型对两部实录中的外交记录进行全文本对照分析。在具体操作上,首先将明朝和朝鲜的外交往来条目按时间分为四个阶段,再利用LDA模型将两部实录四个阶段的史料分别进行关键词筛选,之后生成话题模型。从关键词和话题模型当中,可以发现两部实录记载方式、立场和角度的异同,再利用话语分析方法进行异同的分析。从全文本的比较分析当中发现,两部实录的外交记录大体呈现出了四个特点,首先是互补性,主要体现在《明实录》当中一些缺失部分可以由《朝鲜王朝实录》进行补充,比较典型的例子是有关“建文帝”的外交记录互补。其次是一致性,从词汇来看,发现两个国家外交中记录较多,且贯穿始终的话题就是朝贡相关话题。从话题中看,两部实录话题一致性最高的时期是1403-1591年。这一期间对于同一件事情,基本都能在两部实录当中找到相关记载。只是记载的角度和立场会有一些差异。关于对立矛盾性,实际上对立和矛盾的条目并不只是出现在某一个时期,每一个时期都会存在对立或矛盾的事件,只是1592-1598年间,两部实录记载对立和矛盾的情绪较突出。从四个阶段的主要外交往来话题当中,还发现了明朝-朝鲜官方往来背后的一些政治、经济利益上的需求,以及朝鲜对明朝文化认同、发展和实践。除了内容上的分析以外,本论文依托关键词的比较,列出了《朝鲜王朝实录》中史臣 261 记录和电子化过程中的差误,供相关研究参考。 关键词:《朝鲜王朝实录》、《明实录》、外交记录、比较研究、LDA模型 국문요지《조선왕조실록》과 《명실록》은 둘 다 실록 유형의 사료이다. 《명실록》에는조선 관련 기록이 1950건,《조선왕조실록》에는 명조 관련 기록이 2만2695건이있다. 이 논문은 실제로 《조선왕조실록》 1만7,355조, 《명실록》2,123조, 《만청(滿清)실록》931조의 사료를 활용하였으며, 실제 활용에서 중복되는 항목을선별하고, 외교와 관련되지 않은 부분의 항목을 추가하여 보조적으로 해석하였다. 주요내용은조공(朝貢)외교를 중심으로, 양국 사이의 정치, 경제, 문화, 사상, 군사및민간왕래등을 상세하고 풍부하게 기록하고 있어 양국의 교류 현황을 연구하는데중요한기여를 하고 있다.그러나 두 실록 전문에 관한 학계의 비교연구 성과는아직까지깊게진행되지 못했고, 연구 내용도 조공(朝貢)외교와 시부(詩賦)외교에집중돼있어, 전면적인 비교연구는 큰 성과가 없는 실정이다. 여기에는 몇 가지 원인이있는데, 먼저 전면적인 비교연구가 직면한 최대 문제는 두 실록의 양이 너무 많아작업이쉽지않다는 점이다. 최근에는 대부분 키워드로 검색하기 때문에 비교군을찾기는쉬워졌으나, 키워드의 선택은 연구자의 성향과 관점에 영향을 크게 받기때문에편향성문제를 안고 있다.LDA 모델은 바로 이런 방대한 텍스트를 분석하면서도위에서언급한문제를 상당히 극복할 수 있는 장점이 있다. 따라서 본 논문은 두 실록중외교기록에 대해 LDA 화제모델을 사용해 텍스트를 대조분석한다. 구체적으로는명조와조선의외교항목을 시기에 따라 4개 단계로 나누고, LDA 모델로 각 키워드를선별한후화제모델을 만든다. 키워드와 화제모형에서는 두 실록의 기록방식과양국의입장차이를 발견할 수 있으며, 텍스트 분석방법을 재이용하여 대조군 사이의유사점과차이점을 분석한다. 네 시기의 두 실록의 외교기록을 보면 크게 네 가지 특징이나타나는데, 첫째는 상호보완성이며, 주로 《명실록》의 일부 누락된 부분을 보완하는것으로나타나는데, 전형적인 예는 "건문제(建文帝)"에 관한 외교기록의 상호보완성, 둘째는일치성, 어휘를 보면 두 나라 외교에서 일관성이 있는 화두가 조공(朝貢)에관한 화두이며, 조공(朝貢)에 관한 화두가 두 실록에서 차지하는 비중이비교적크다는것을 알 수 있습니다.임진전쟁(壬辰戰爭) 때만 해도 주요 외교 왕래는아니었지만전쟁에도 불구하고 양국 간의 조공(朝貢)왕래는 계속됐습니다.주제별로보면두실록의 주제 일치도가 가장 높았던 시기는 1403-1591년입니다.이 기간동안동일한문제에 대해 기본적으로 두 개의 실제 기록에서 관련 기록을 찾을 수있습니다.다만기재의 각도와 입장에 약간의 차이가 있을 수 있습니다.대립모순성과관련하여실제로대립과 갈등의 조목은 어느 한 시기에만 나타나는 것이 아니라, 시기마다대립이나갈등의 사건이 존재하며, 다만 1592~1598년 사이에 두 실록은 대립과갈등의정서가두드러지게 기록되어 있습니다.전체적인 화두를 보면 조공(朝貢)외교와시부외교외에도 요동(遼東)지역에 대한 묘사와 같은 전 시기의 다른 화두가존재하며, 요동(遼東)지역 관련 기록에는 종종 조공(朝貢)사건과 함께 요동(遼東)지역여진, 올량하(兀良哈)사건 등 다양한 분류가 포함됩니다.또한 두 나라 사이에예제에대한기록도 네 시기에 걸쳐서 나타나기도 했지만, 전반적으로 가장 중요한것은조공(朝貢)외교였습니다.이를 통해 양국 외교의 기본 입장과 태도는 주변국에대해서공동의입장을 취하면서 양국의 외교 이익을 확보하기 위해 협력했음을 확인할수있다. 양국의 빈번한 정치, 경제, 문화 등 많은 부문에서 동질감을 강화하는작용을했다. 이밖에도 《조선왕조실록》과 여러 사신들의 기록을 키워드로 비교 분석하면서한가지작은 성과라면 전자화 과정에서 나타난 일부 오류를 찾아냈다는 점이다. 이후관련연구에 참고가 되기를 기대한다. 핵심어: 《조선왕조실록》, 《명실록》, 외교기록, 비교연구, LDA 모형

      • (A) study on future core technology for defense weapon system automatic concept extraction using LDA and inverse term popularity rank

        유승훈 Graduate School, Yonsei University 2023 국내박사

        RANK : 247807

        This study aims to automatically extract future core technology keywords for defense weapon system using LDA topic modeling and Inverse Term Popularity Rank, and quantitative analysis and performance evaluation of interconnection relationships. Due to the nature of closedness and security in the defense field, the sharing, analysis, and field recycling of technical information are limited, and there are not many previous studies on experimental quantitative trend analysis such as text mining. Many previous studies are mainly using qualitative methods such as Delphi techniques to concentrate experts' opinions, which is feared to be focused on specific weapons systems and core technologies. Due to security, the complexity of the data collection procedure, the increase in the time and economic cost of mobilizing experts, and the distortion caused by the excessive influence of a small number of experts are also limitations. As a way to supplement them, various key technologies that are currently under R&D or have plans were collected through various methods. First, based on the Defense Acquisition Program Act and the Defense Technology Innovation Promotion Act, the Defense Technology Innovation Basic Plan, the Defense Technology Investigation Report, the Defense Technology Innovation Implementation Plan, and the Defense Technology Plan. Second, the Defense Science and Technology Information Magazine (last 5 years and 8 months, a total of 60 issues) published by the Defense Science and Technology Quality Institute was used as data. Morphological analysis was performed by pre-processing the data collected through torque aging. By implementing Automatic Concept Extraction using LDA topic modeling, meaningful Key Phrases for the core technology of the defense weapon system were extracted. And performance evaluation was conducted with LDA modeling and B-Cubed Precision & Recall Metrics as a result of direct investigation and organization of future defense core technologies of the expert group (Doctor 2 and Master 3) for more than 20 years in the defense field. For improving F-Score, the Inverse Term Popularity Rank was applied to give weight by Google search amount. Based on the results of this study, it is possible to raise the need to derive quantitative trends for future core technology for defense weapon system by using Automatic Concept Extraction. Moreover, it is possible to overcome the time and economic limitations of security and mobilization of experts, which are special characteristics of the defense field, while redefining the classification system of future core technology for defense weapon system. Along with the theoretical implications of the long-term defense weapon system development, contributing in national defense competitiveness enhancement within international community is intended. 본 연구는 LDA 토픽모델링과 Inverse Term Popularity Rank을 활용하여 국방 무기체계 핵심기술 키워드를 자동화 추출하고 상호간 연결 관계의 정량적 분석 및 성능평가를 하고자 한다. 국방분야의 폐쇄성, 보안성이라는 특성상 기술정보의 공유, 분석, 현업 재활용이 제한되어 텍스트마이닝 등 실험적인 정량적 동향 분석에 대한 선행연구들을 많이 찾을 수 없는 상황이다. 다수의 선행연구들이 델파이 기법 등 정성적인 방법으로 전문가들의 의견을 집약하는 방식이 주로 활용되고 있어 특정 무기체계 및 핵심기술에 치중될 우려가 있다. 또한, 보안성으로 인하여 데이터 수집 절차의 복잡성과 전문가 인력 동원의 시간 및 경제적 비용 증가, 소수 전문가의 과도한 영향력 발휘에 의한 왜곡 등도 한계점으로 들 수 있다. 이들을 보완하기 위한 방법으로 현재 연구개발 중이거나 계획이 있는 여러 핵심기술들을 다양한 방법을 통해 수집했다. 첫째, 방위사업법과 국방과학기술혁신 촉진법에 근거하여 방위사업청과 출연기관 등에서 발간한 무기체계 핵심기술에 대해 검토한 문서로서 국방과학기술혁신 기본계획, 국방과학기술조사서(총론 및 각 무기체계 분야별), 국방과학기술혁신 시행계획, 국방기술기획서 및 각각의 부록 자료이다. 둘째, 국방과학기술품질원에서 발간하는 국방과학기술정보지(최근 5년 8개월, 총 60개 호)를 데이터로 활용하였다. 토크나이징(Tokenizing)을 통해 수집한 데이터를 전처리하여 형태소 분석을 실시하였다. 그리고 LDA 토픽모델링을 이용하여 Automatic Concept Extraction을 구현하여 국방 무기체계 핵심기술에 대한 유의미한 KeyPhrase들을 추출했다. 그리고 국방분야 20년 이상 전문가 그룹(박사2, 석사 3)의 미래 국방 핵심기술에 대해 직접 조사·정리한 결과와 LDA 모델링과 B-Cubed Precision & Recall Metrics로 성능평가를 수행하였다. 추가로 F-Score 향상을 위해 Inverse Term Popularity Rank를 적용하여 구글 검색량에 의한 가중치(weight)를 부여하였다. 본 연구의 결과를 바탕으로 국방 무기체계 핵심기술 Automatic Concept Extraction을 활용하여 핵심기술에 대한 정량적 동향을 도출해낼 필요성 제기할 수 있다. 또한 국방분야의 특수성인 보안성과 전문가 인력 동원의 시간 및 경제성의 제한사항을 극복함과 동시에 다가올 미래 새로운 무기체계 핵심기술의 분류체계를 재정립할 수 있다. 아울러 국방 무기체계 핵심기술의 정책적 시사점과 연구의 한계점을 제시한다. 장기 무기체계 발전방향의 이론적 함의와 함께 국제사회의 국방 경쟁력을 제고하는데 기여하고자 한다.

      • 확률 모델 LDA에 대한 추론 기법 비교 분석 연구

        성정진 한국항공대학교 대학원 2014 국내석사

        RANK : 247807

        LDA is a multi-layered Bayesian model (Hierarchical Bayesian models) applied to the field of machine learning as a good example of the topic model is currently the most widely used. Because LDA is a model possible to applied to the discrete data such as images and music, LDA can be useful in Computer Science and engineering, the Humanities and Social Studies Department. But LDA cannot deduce an approximation of the original model, so you need to access to the Variational inference and Gibbs sampling. In this study, the same data is applied to a Variational inference and Gibbs sampling for inference of each LDA model. After experiments, We will compare the performance of the two algorithm and analyze the the two algorithms. In addition, changes in the number of topics Variational inference and determine changes in the performance of Gibbs sampling, varying the number of topics in LDA model inference algorithms appropriate party to reveal the cognitive tests. We will reveal how change the performance of Variational inference and Gibbs sampling according to the number of topics. we will reveal what is the proper inference of LDA Model according to changes of number of topic. LDA는 다층 베이지안 모델(Hierarchical Bayesian models)을 기계 학습 분야에 적용한 좋은 예로써 현재 가장 많이 쓰이는 토픽 모델이다. LDA는 이미지나 음악 등 이산 데이터에 다양하게 적용할 수 있기 때문에 컴퓨터공학과 이공계열은 물론, 인문사회계열 학문에서도 유용하게 쓰일 수 있는 모델이다. 그러나 LDA 모델은 이론적으로 정확한 추론이 불가능하므로 원래 모델의 근사 형태로 접근해야 하는데, 그 방법으로 Variational inference와 Gibbs sampling이 있다. 본 연구에서는 동일 데이터에 Variational inference와 Gibbs sampling을 적용해 각각의 LDA 모델을 추론한 후, 실험을 통하여 두 알고리즘의 성능을 비교 분석하고자 한다. 또한, 토픽의 개수 변화에 따라 Variational inference와 Gibbs sampling의 성능이 어떻게 변화하는지, 토픽의 개수 변화에 따른 LDA 모델 추론에 적합한 알고리즘이 무엇인지 실험을 통해 밝히고자 한다.

      • 얼굴 인식을 위한 PCA와 LDA 융합 알고리즘 구현 및 성능 비교 분석

        구은경 가톨릭대학교 대학원 2004 국내석사

        RANK : 247805

        얼굴 인식에서 가장 보편적으로 사용되고 있는 주성분 분석(PCA : Principal Component Analysis)은 정면 얼굴과 같은 특징 패턴에 대해서 비교적 높은 성능을 보인다. 인식률을 떨어뜨리지 않으면서 데이터양을 줄일 수 있는 효과가 있어 클래스를 잘 축약하여 표현하기에 유용하다. 그러나 얼굴의 전체 영상을 사용하기 때문에 시점의 변화나 영상 전체 변화에 대해서는 검출성능을 보장할 수 없다. 얼굴 영상의 변화가 개체(identity)의 변화로 인한 것인지 아니면 조명이나 표정의 변화에 의한 것인지를 가늠하기 어렵기 때문이다. 이를 보완하기 위해 성분이 다른 클래스 간의 분리가 수월하도록 선형판별분석(LDA : Linear Discriminant Analysis)을 사용한다. 선형판별분석은 영상 내에서 개체(identity) 변화와 그 밖의 다른 요인에 의한 변화를 구분할 수 있도록 하는 방법으로 실제 1997년 FERET 테스트에서 우수한 성능을 보였다. 그러나 LDA 역시 비선형 데이터 집합이나 같은 평균을 갖는 클래스는 분리할 수 없다는 문제점을 가지고 있다. 본 논문에서는 Mean과 Appending 방법을 사용하여 PCA와 LDA를 결합시키는 방법을 제안하고, 결합된 PCA-LDA 융합 알고리즘과 기존의 PCA, LDA 기반 얼굴 인식 알고리즘의 성능을 비교 분석한다. 본 논문에서 사용하는 PCA-LDA 융합 알고리즘은 다음과 같다. 먼저, PCA와 LDA 각각의 표현 방식에 따라 얼굴을 표현한다. 그리고 데이터베이스 내에 있는 모든 얼굴들로부터 거리 벡터 d^(PCA)와 d^(LDA)를 계산한다. 주어진 결합 규칙에 따라 두 거리 벡터를 결합한 후, KNN(K-Nearest Neighbours) 접근법을 이용하여 최종 결정을 한다. 실험 결과, PCA-LDA 융합 알고리즘은 크기와 조명 변화에서 PCA나 LDA 기반 알고리즘보다 좀 더 나은 성능을 보였다. Principal Component Analysis(PCA) which is generally used in face recognition, provides high quality about the feature pattern such as a front face. It is useful to express some classes using reduction, since it is effective to maintain the rate of recognition and to reduce the amount of data at the same time. However, because of using the whole face image , it can not guarantee the detection rate about the change of the viewpoint and the whole image. It is too difficult to judge the changing face image whether it comes from the change of identity, the change of light or various facial expression. Thus, to compensate for the defects, Linear Discriminant Analysis(LDA) is used to enhance the separation of different classes. LDA classifies the change if there is change in identity or another primary factor in the images. It showed good performance in the testing of FERET in 1997; however, it still can not separate the nonlinear data set or the classes which have the same average. In this thesis, we suggests how to combine PCA and LDA in using some simple strategies such as mean or appending, and also compares and analyzes the performance of the PCA-LDA fusion algorithm which is combined and the face recognition based on PCA and LDA. The brief description of the PCA-LDA fusion algorithm is as follows : First of all, the face is represented by the PCA and the LDA approaches. And then we calculate the distance of vectors d^(PCA), d^(LDA) from all faces in the database. Last, the two vectors are combined according to a given combination rule and the final decision is made by KNN, K-Nearest Neighbours. In the result, the fusion algorithm of PCA-LDA can be shown to have the better performance in pose and size than the algorithm based on PCA and LDA.

      • 사전 클러스터링을 이용한 Direct-LDA의 최적화

        구범용 명지대학교 2006 국내석사

        RANK : 247805

        얼굴 인식과 같은 고차원 패턴인식에서, 학습 패턴의 샘플 수가 패턴의 차원에 비해 적을 경우 소규모 샘플 수(small sample size) 문제가 발생한다. 최근 이 문제를 해결하기 위하여 LDA, PCA+LDA, Direct-LDA를 비롯한 다양한 LDA-확장이론들이 개발되었다. 본 논문에서는 Direct-LDA로 차원을 축소하기 전, 학습패턴을 사전 클러스터링하여 서브 클래스 수를 증가시키는 방법으로 식별성능을 향상시키는 방법을 제안한다. LDA에서 축소된 특징 공간의 차원은 학습 패턴의 클래스 수로 제한되기 때문에 클러스터링을 통해 생성된 서브 클래스를 수를 증가 시키는 방법으로 LDA-확장법의 식별성능을 향상 시킬 수 있다. 즉, 학습패턴 집합의 특성 공간(eigen space)은 레인지 공간(range space)과 널 공간(null space)으로 구성되며, 레인지 공간의 차원은 클래스 수가 증가함에 따라 증가하게 된다. 따라서 차원 축소를 위한 변환 행렬을 구성할 때, 클래스의 수를 늘려 널 공간의 차원을 최소화하게 되면 이 공간에 기인한 식별정보의 손실을 최소화 할 수 있다. X-OR 형태의 인공데이터와 AT&T, Yale 두 벤취마크 얼굴 영상 데이터베이스를 대상으로 실험한 결과는 제안 방법에 의해 식별 성능이 향상될 수 있음을 보여준다. 특히 변화의 정도가 큰 Yale 얼굴 영상 데이터베이스에 대하여, 제안 방법의 식별성능은 기존 방법에 비해 4.85% 증가하여 94.55%가 되었다. In high-dimensional pattern recognition, such as face classification, the small number of training samples leads to the Small Sample Size (SSS) problem when the number of pattern samples is smaller than the number of dimensionality. Recently, various LDA-extensions including LDA, PCA+LDA and Direct- LDA have been developed, to solve the SSS problem. In this thesis, we proposes a method that improves the classification efficiency by increasing the number of sub-classes through pre-clustering a training set prior to the execution of Direct-LDA. Because, In LDA, since the number of classes of the training set puts a limit to the dimensionality to be reduced, it is increased to the number of sub-classes that is obtained through clustering so that the classification performance of LDA-extensions can be improved. In other words, the eigen space of training set consists of the range space and the null space, and the dimensionality of the range space increases as the number of classes increases. Therefore, when constructing the transformation matrix, through minimizing the null space, the loss of discriminative information resulted from this space can be minimized. Experimental results for the artificial data of X-OR samples as well as the two bench mark face database of AT&T and Yale demonstrate that the classification efficiency of the proposed method could be improved. Expecially, for face database of Yale, the classification performance of the proposed method is 94.55% that has increased by 4.85% more than the previous method.



        RANK : 247804

        지난 수십 년 동안 얼굴 인식에 관한 많은 연구가 수행되었다. 그 중에서 PCA/LDA 는 LDA 의 부분 공간(subspace) 방법으로써 정면 얼굴 인식에 있어 높은 인식률을 보여주었다. 그러나 PCA/LDA는 조명 및 포즈 등 얼굴의 변화에 민감하며 PCA 가 데이터 셋에 따라 기저 벡터가 변화하고 계산량이 많은 단점이 있다. 본 논문에서는 PCA/LDA 를 개선하기 위해서 DCT/LDA(Discrete Cosine Transform/Linear Discriminant Analysis)를 이용한 얼굴 인식 방법을 제안한다. DCT/LDA 는 PCA/LDA를 대체하기 위한 방법으로써 LDA를 수행하기 위해서 PCA 특징값 대신 계산량이 적고 기저 벡터가 일정한 DCT 계수를 사용한다. DCT/LDA 를 사용하는 경우 PCA/LDA 보다 특징값을 빠르게 추출하면서 향상된 인식률을 얻을 수 있다. 또한, 조명 및 포즈 등 얼굴의 변화에 대해서 전체 얼굴 영상에 대한 특징값과 눈, 코 등의 얼굴 구성 요소들의 특징값을 함께 사용하는 얼굴 구성 요소에 기반한 DCT/LDA를 통하여 DCT/LDA의 인식률을 향상시킨다. FSWBV(Feature Selection method using Within and Between class Variance)를 이용하여 LDA 의 판별에 유용한 DCT 계수를 추출하였으며, 에지 얼굴 영상에서도 DCT 특징값을 추출하여 얼굴 윤곽의 대한 정보를 이용한다. DB에 등록된 사람을 대표할 수 있는 특징값을 생성하여 후보 얼굴 검출에 이용함으로써 검색 속도 및 인식률을 향상시킨다. 실험은 조명 및 표정, 포즈의 변화가 있는 MPEG-7 데이터 셋과 KBS 데이터 셋에서 수행하였으며 DCT/LDA 및 얼굴 구성 요소에 기반한 DCT/LDA 를 PCA/LDA 및 MPEG-7 Advanced Face Recognition 서술자와 비교하였다. 그 결과, DCT/LDA는 PCA/LDA보다 약 3-5% 이상 높은 얼굴 인식률을 보여 주었다. 얼굴 구성 요소에 기반한 DCT/LDA 도 MPEG-7 Advanced Face Recognition 서술자보다 MPEG-7 데이터 셋과 KBS 데이터 셋에서 각각 2.5% 및 13.25%의 향상된 얼굴 인식률을 보여주었다. 또한, 얼굴 구성 요소에 기반한 DCT/LDA 를 실시간 방송 영상 분석시스템에 적용하였다. 얼굴 인식을 이용하여 등장 인물의 출연 구간 분석 및 등장 인물 기반의 장면 분석 등을 자동으로 수행하였으며 오인식된 결과를 효과적으로 수정할 수 있는 기능을 제공하는 등 사용자에게 편리성을 제공하였다. Over the last decades, numerous face recognition methods have been proposed to overcome the problem limited by the current technology associated with face variations. Among them, the PCA/LDA method has hown to be one of the best face recognition methods. However, PCA/LDA is not sufficient to show the performance under face variations such as illumination, facial expression, and pose variations. In addition, PCA/LDA tends to suffer from the dataset dependency as well as the high computational complexity in computing PCA. In this thesis, we propose a new face recognition method, a combination of Discrete Cosine Transform and Linear Discriminant Analysis (DCT/LDA). DCT/LDA is one of the subspace methods of LDA, which significantly reduces the dimension of a signal using DCT. Compared to PCA, one of the advantages of DCT includes that its basis functions are independent on a dataset while the basis functions are close to those of PCA, one of the optimal transform. In addition, the DCT/LDA method can extract features more quickly and can show a higher face recognition rate than the PCA/LDA method. To improve the performance of DCT/LDA under face variations, we propose the following four methods: component-based DCT/LDA, Feature Selection method using Within-class and Between-class Variance (FSWBV), utilization of face outline information, and the representative feature. Component-based DCT/LDA utilizes both features of the holistic face and fscial components such as eyes and nose. FSWBV selects appropriate DCT coefficients for LDA discrimination. DCT coefficients from an edge image are also used to provide information of the face outline. The features which represent each person are generated to improve face recognition speed and accuracy. The combination of these methods can improve the performance of face recognition under face variations. Experiments were carried out with a MPEG-7 dataset and a dataset from videos provided by Korean Broadcasting System (KBS) and both datasets have illumination, facial expression, and pose variations. The DCT/LDA method showed about 3-5% higher face recognition rate than PCA/LDA. The component-based DCT/LDA method with the MPEG-7 dataset and the KBS dataset showed 2.5% and 13.25% higher face recognition rate, respectively, in comparison with the method using MPEG-7 Advanced Face Recognition descriptor. The component-based DCT/LDA method has been applied to develop a broadcasting video analysis system that allows editing broadcasting videos with efficiency.

      • 초점집단 면담 녹취록을 활용한 LDA와 BTM의 비교

        양혜진 중앙대학교 대학원 2021 국내석사

        RANK : 247804

        본 연구의 목적은 짧은 문서를 분석하기에 용이한 바이텀 토픽 모델(Biterm Topic Model; BTM)과 기존 토픽 모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation; LDA)을 비교하여 BTM을 소개하고자 함에 있다. 분석 자료로는 한국인의 여행을 주제로 한 초점집단 면담의 녹취록을 활용하였다. 분석에 앞서 맞춤법 검수와 표준화 전환 작업을 실시하였으며, 형태소 분석기를 사용하여 데이터 전처리를 진행하였다. 그 후 전처리가 끝난 동일한 자료에 대하여 LDA와 BTM을 각각 실시하였다. LDA와 BTM의 비교를 위하여 하이퍼파라미터 등 모든 조건으로 동일하게 설정하였다. 토픽 수는 5부터 15까지 반복 분석을 진행 한 후, 그 결과 최종 토픽 수로 10개를 선정하였다. 연구 결과, LDA와 BTM의 해석 가능한 토픽의 수는 각각 4개와 6개로 큰 차이가 없었다. 반면 토픽에 주제를 부여할 때에는 BTM의 토픽이 LDA 보다 명확하였으며, LDA의 경우 토픽에 명명한 주제와 의미상으로 관련이 없어 보이는 단어들도 다수 포함되었다. 본 연구는 한글 전처리 과정에서 연구자의 주관을 완전히 배제하지 못하였다는 점, 동음이의어 처리가 불가능한 점, 자료의 크기가 작았다는 점을 한계점으로 가진다. 하지만 LDA와 BTM을 사용하여 심리학 장면에서 활용 가능한 실제 텍스트를 분석하고 두 결과를 비교함으로써 SNS와 같이 길이가 짧은 텍스트 데이터를 분석할 때 BTM이 활용될 수 있다는 것을 제시한 점에서 의의가 있다. This study aims to introduce the Biterm Topic Model (BTM) suitable for short text analysis by comparing it with one of the traditional topic model methods, Latent Dirichlet Allocation (LDA). For this purpose, the transcript of the trip-themed Focus Group Interview was used for the analysis. Prior to the investigation, data preprocessing with a morphological analyzer was carried out, such as spell check and lemmatization. Then, LDA and BTM were respectively performed under the same condition, including hyperparameters. The number of topics was repeated from 5 to 15, and consequently, 10 were finally selected as the number of topics. As a result, the number of interpretable topics in LDA and BTM was 4 and 6, respectively, not much different. In contrast, when subjects were assigned to topics, topics in BTM are more explicit than those in LDA, while topics in LDA include several words that seemed meaningfully irrelevant to the name of topics. This study has the following limitations: it is nearly impossible to process homonyms and completely rule out the researcher’s subjectivity in preprocessing Hangul, and the size of the text data is relatively small. Yet, this study has implications that it not only analyzes the actual text available in psychological scenes with both LDA and BTM but also shows that BTM can be potentially used to analyze the short text data, such as SNS.

      • 부분공간 기반 특징추출기의 조명 변인에 대한 얼굴인식 성능 분석

        부덕희 연세대학교 대학원 2003 국내석사

        RANK : 247802

        오늘날 개인의 정보 보호 및 신분 확인을 위하여 고유한 생체 특징을 분석하고 인식하는 생체 인식 분야의 여러 대상 중에서 사람의 얼굴 인식은 특히 "인간에게 가장 친숙한 기술"로서 발전을 이루고 있다. 그러나 얼굴 검출과 특징 추출의 과정을 거쳐 인식까지 매 과정마다 조명, 자세 그리고 표정 변화 등의 제약 점들로 인해 시스템 구현이 매우 어렵다. 인식기가 성능을 최대화하기 위해 중간 단계로 중요한 역할을 하는 특징 추출에 매우 의존적인 것은 당연한 일이다. 가장 일반적으로 쓰이는 부분 공간을 이용하는 두 가지의 특징 추출 기법 중 하나인 PCA는 이미지 표현을 가장 잘 나타내는 공간을 찾는 반면, LDA는 인식의 영향을 주는 최적의 판별 공간을 찾는 장점이 있음에도 불구하고, 실제 얼굴 인식 시스템에서는 PCA가 더 좋은 성능을 보이게 된다. 얼굴에 대해 각 대상을 표현하는 이미지 데이터의 부족으로 발생하는 LDA의 근본적인 문제를 효과적으로 해결하며 LDA의 이론적 장점을 살리기 위한 방법으로 D-LDA와 kernel D-LDA가 있다. D-LDA는 쓸모없는 정보를 가진 클래스 간 분산 행렬의 영공간을 버리는 동시에 가장 분류 정보가 많은 클래스 내 분산 행렬의 영공간 이용으로 탁월할 성능 향상을 보이며, kernel D-LDA는 복잡한 패턴을 이루는 얼굴 문제를 선형적으로 해결하는 D-LDA의 한계를 보완하기 위해 비선형 특징 공간을 이용한다. 따라서 본 논문에서는 얼굴 인식 결과에 큰 영향을 주는 요소인 조명 변화에 초점을 맞춰 D-LDA가 다른 기법들에 비해 덜 민감하게 수행할 수 있는 성질을 지녔음을 밝히고자 한다. 측명광과 역광등의 조명 변화와 농도의 변화를 고려하여 조명 변화를 갖는 테스트를 갖는 ORL 데이터베이스, Yale 데이터베이스, 그리고 포항공대 데이터베이스를 여러 특징 추출 알고리즘에 적용함으로써 클래스, 학습 데이터 그리고 테스트 데이터 수가 각기 다른 세 종류의 데이터 베이스에서 모두 D-LDA가 적은 학습 데이터에서도 조명 변인에 가장 덜 민감하게 반응하는 좋은 인식 성능을 갖는 성질을 지녔음을 보여준다. Face recognition of biometrics fields that analyzes and recognizes unique features is achieving development as technique "which is the most familiar to" man for a personal information security and user identification in recent years. However, the face recognition system is very hard to be implemented due to the difficulty where the change in illumination pose have every process passing through the processes of the face detection, feature extraction, and recognition. It is natural work that there is dependence between the face detection and feature extraction so that the recognition systems maximize performance, therfore, the feature extraction process that is the middle process of a recognition system is becoming the important study subject as an essential step. The PCA of general feature extraction techniques looks for the space that represents an image the best , whereas, the LDA looks for the most suitable discriminant space for face recognition affects. In spite of this merit of LDA, it is shown that PCA performs better in practice face recognition system. D-LDA and kernel D-LDA are the alternatives to solve this basic problem of LDA generating shortage of image data to express an each class effectively, preserving a theoretical merit of LDA. D-LDA has an excellent performance enhancement for this between null space of within-class scatter matrix which had a lot of discriminant information at the same time to throw away null space of between-class scatter matrix which had useless information. Kernel D-LDA uses nonlinear feature space for compensating for the limit of D-LDA which solves the face problem in linear space in order to classify such complicated patterns. Therefore, considering an illumination change causing the variety of face appearance, virtual image data is generated and added to the D-LDA which was selected as the most suitable feature extractor. A less sensitive recognition system in illumination is represented in this paper. This way that consider nature of several illumination directions generate the virtual training image data that considered an illumination effect of the directions and the change of illumination density. As result of experiences, D-LDA has a less sensitive property in an illumination through ORL, Yale Univirsity and Pohang Univirsity face database.

      • LDA와 Doc2Vec을 활용한 ESG 트렌드 연구

        김민영 연세대학교 정보대학원 2023 국내석사

        RANK : 247791

        Following the global impact of the COVID-19 pandemic, consumers and investors began paying attention to corporate social responsibility and value. With awareness of the climate crisis heightened by the COVID-19 pandemic, countries around the world are declaring “carbon neutrality” one after another, which reduces carbon emissions to zero (net-zero) by increasing absorption as much as carbon emissions. Recently, ESG management at home and abroad is an essential element and is actively being promoted in corporate management activities including the government. Corporate investors have begun to form a consensus on sustainable investment that pursues social value, and as part of this movement, they began to investigate and quantify their corporate ESG activities and use them to make investment decisions. Interest in ESG management is exploding, but research in business administration remains as an investment-related financial evaluation index, and trend research that reflects various academic and practical perspectives is needed. The purpose of this study is to analyze the ESG trend for 4 years from 2019 to 2022 according to the trend of increasing interest and need for ESG. ESG-related news articles and sustainability reports were analyzed through various machine learning algorithms such as frequency analysis, TF-IDF, Wordcloud, network analysis, LDA, and Doc2Vec. As a result of frequency analysis and TF-IDF analysis, the top keywords from the perspective of ‘investment’ and ‘finance’ in 2019 are changing to keywords from the perspective of ‘management’ and ‘business’. After COVID-19, issues related to ‘ESG corporate activities’ and the ‘environment’ have been mentioned frequently. As a result of the LDA analysis, it can be seen that the expansion of ESG investment has led to improved awareness and ultimately desirable changes in society. Furthermore based on the analysis, it can be seen that since 2019, the social role of pension funds with high publicity has been strengthened and the introduction of a higher level of responsible investment has been expanded. Since then, the pandemic has occurred, and ESG-related investments have further increased, especially in the public and general sectors, such as climate risks. After 2022, social campaigns through spread, and small and medium-sized businesses also carried out ESG-related strategies and ESG activities. As a result, it was confirmed that ESG-related investments provided the justification for improving public awareness and increasing long-term profits throughout society. According to the Doc2Vec analysis results between sustainability reports, similarity results were derived with no difference by industry or company's business model. Although companies are increasingly measuring ESG performance and disclosing ESG information, it has been difficult to distinguish how it affects profitability and corporate value. In general, corporate social responsibility activities are carried out with a focus on ‘maximization of social welfare’ as well as ‘maximization of shareholder wealth’, which is a narrow corporate goal. (Eunjung Yeo, 2020) It was confirmed that the method based on ESG investment like this eventually increases the utility value profit of society as a whole. As a suggestion of this study, first, as social utility value has expanded due to ESG-related investments so far, investors such as pension funds should take the lead in implementing corporate value investing in the mid-to long-term. As can be seen in the results of this study, ESG The influence of investment has led to changes in society as a whole, and long-term investment is needed to achieve this goal. Second, it is necessary to establish ESG evaluation criteria from various perspectives. After 2021, the campaign activities of executives and employees were activated, and a pan-national ESG awareness sharing took place. By adding a variety of qualitative evaluation factors, such as ESG campaign activities, social investment, and raising ethical awareness among executives and employees, greater utility value will be achieved. This study is significant in that it analyzes trends in ESG-related news through various machine learning models of text mining and derives insights. Through this study, companies in the future will be able to utilize keywords for internal qualitative evaluations such as 'sustainability reports' that reflect trends. 코로나19 팬데믹 이후 전 세계적인 영향에 따라 소비자와 투자자들이 기업의 사회적인 책임과 가치에 대해 주목하기 시작했다. 코로나19 팬데믹으로 고조된 기후위기 의식으로 세계 각국이 탄소 배출량만큼 흡수량도 늘려 탄소 배출량을 0(net-zero)으로 만드는‘탄소중립’을 속속 선언하고 있다. 최근 국내·외 ESG 경영은 필수 요소로 정부를 비롯한 기업 경영활동에 활발하게 추진되고 있다. 기업 투자자들이 사회적 가치를 추구하는 지속가능한 투자에 공감대가 생기기 시작했으며, 이러한 움직임의 일환으로 기업의 ESG 활동을 조사하고 정량화하여 투자 판단에 활용하기 시작 했다. ESG 경영에 대한 관심이 폭발적으로 증가하고 있으나 경영학에서 연구는 투자 관련 재무적인 평가지표로 머물러 다양한 학술적, 실무적 시각을 반영한 트렌드 연구가 필요하다. 본 연구는 ESG에 대한 관심과 필요성이 증가하는 추세에 따라 2019년부터 2022년까지 4년간의 ESG 트렌드 분석을 하는 데 연구목적이 있다. ESG 관련 뉴스기사, 지속가능경영보고서를 빈도분석, TF-IDF, Wordcloud, 네트워크분석, LDA, Doc2Vec 등 다양한 머신 러닝 알고리즘을 통해 분석하였다. 빈도분석과 TF-IDF의 분석 결과 2019년의‘투자’,‘금융’관점의 상위 키워드에서, ‘경영’,‘사업’관점의 키워드로 변화되고 있다. 코로나19 이후‘ESG 기업 활동’과 ‘환경’의 대한 이슈가 많이 언급됬다. LDA 분석 결과 ESG 투자가 확대됨의 따라 사회 전반의 인식 개선과 궁극적으로 바람직한 변화를 이끌어 왔음을 알 수 있다. 분석 결과 2019년도 이후 공공성이 높은 연기금들에 대해 사회적 역할을 강화하고 보다 높은 수준의 책임투자 도입이 확대 시행되었음을 알 수 있다. 그 이후 팬데믹이 발생 되었고, 특히 기후 리스크 등 공공 및 일반 분야에서 ESG관련 투자가 더욱 증가하였다. 2022년 이후는 이를 통한 사회적인 캠페인이 확산 되었으며, 중소기업 또한 ESG 관련 전략과 활동을 진행했다. 결과적으로 이는 ESG 관련 투자가 사회 전반적으로 국민적 인식 개선과 장기적인 수익 증대의 당위성을 제공하는 결과를 확인할 수 있었다. 지속경영보고서 간 Doc2Vec 분석결과에 따르면 산업 별, 비즈니스 모델 별 차이가 없는 유사도 결과가 도출되었다. 기업에서 ESG 성과를 측정하고 ESG 정보 공개하는 사례가 늘고 있지만, 수익성과 기업 가치에 어떤 영향을 미치는지 변별하기에는 어려움이 있었다. 일반적으로 기업의 사회적 책임 활동은 좁은 의미의 기업 목표인 ‘주주 부의 극대화’에 그치지 않고 나아가 ‘사회 전체 효용(Social welfare)의 극대화’에 도 초점을 두고 수행된다. (여은정, 2020) 이와 같이 ESG 투자를 근간으로 한 방식이 결국은 사회 전반의 효용 가치 이익을 높이고 있음을 확인했다. 본 연구의 제언으로는 첫째, 현재까지 ESG 관련 투자로 인하여 사회적인 효용 가치가 확대됨에 따라 연기금과 같은 투자사들의 중장기적으로 기업의 가치 투자의 실행에 앞장서야 할 것이다. 본 연구분석 결과에서도 확인할 수 있듯이 ESG 투자의 영향력이 사회 전반의 변화를 이끌어내었고, 이를 목표로 장기적인 관점에서의 투자가 필요하다. 둘째, 다양한 관점에서의 ESG 평가 기준을 확립할 필요가 있다. 2021년 이후 임직원들의 캠페인 활동이 활성화되며 범국민적 ESG 인식 공유가 일어났다. ESG의 캠페인 활동, 사회적 투자, 임직원들의 윤리의식 제고도 등 다양성 있는 정성적 평가 요소를 가미함에 따라 더 큰 효용 가치를 이뤄낼 것이다. 본 연구는 ESG 관련한 뉴스의 트렌드를 다양한 텍스트마이닝의 머신러닝 모델을 통하여 분석하고, 통찰을 도출하였다는 것에 의의가 있다. 본 연구를 통해 향후 기업에서는 키워드를 활용하여 트렌드를 반영한 ‘지속가능보고서’등과 내부 정성적 평가에 활용할 수 있을 것이다.

      • 토픽 모형 LDA와 BTM을 사용한 SNS 단문 자료의 주제 분석

        정사라 성균관대학교 일반대학원 2023 국내석사

        RANK : 247790

        사람과 사람 간의 긴밀한 관계를 구축할 수 있는 SNS는 현재 사회에서 주요 소통 도구로 여겨지면서, SNS에서 생성되는 텍스트 자료의 크기도 급증하고 있다. 이러한 대량 데이터에서 주요 토픽을 분석하기 위해 대표적으로 토픽 모형 중 하나인 LDA가 존재하나, LDA는 문서 내의 단어 동시 발생 패턴을 고려하기 때문에 단문 분석에 있어 잠재 토픽을 잘 추정하지 못하는 문제가 있다. 따라서 본 논문에서는 단문 데이터에 적합하다고 알려진 토픽 모형 BTM를 LDA와 함께 고려하여 유튜브와 트위터 텍스트에 대한 토픽 분석을 시행하였다. 토픽 모형 LDA와 BTM을 비롯한 확률적 생성모형의 주된 한계 중 하나로 매 반복마다 다른 결과를 반환할 수 있는 불안정성이 있다. 본 논문에서는 이를 위해 연구자의 주관적인 해석에 좌우될 수 있는 기존 토픽 수 선정 방식이 아닌, 안정성 분석 알고리즘을 통한 방식을 활용하여 최적 토픽 수를 결정하였다. 따라서 객관적인 지표를 통해 토픽 수 후보군을 확보하고 모형 적합에서 추출된 토픽의 안정성을 높일 수 있었다. SNS, which can create close relationships between individuals, is widely regarded as an important communication tool in society, and the amount of text content generated by SNS is also increasing rapidly. To analyze main topics in such massive amounts of data, LDA, one of the representative topic models, is used. However, because LDA depends on word co-occurrence patterns within each document, there is a problem where it does not estimate latent topics adequately in short-text analysis. So the topic model BTM is considered to be suitable for short text data, along with LDA, topic analysis on YouTube and Twitter text was conducted in this study. The instability to return different results at each iteration is one of the main limitations of probabilistic generative models, including the two topic models LDA and BTM. In attempt to solve this, the optimum number of topics was determined using a method using a stability analysis algorithm, as opposed to a traditional approach of determining the number of topics that may depend on the researcher's subjective interpretation. This approach enabled it to choose a candidate group for the number of topics using a objective measure and to improve the stability of topics.

