http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
온라인 댓글의 주제 분석을 위한 토픽 모델링 : 이슈 포착과 분류에 활용 가능한 LDA와 BTM의 비교와 검증
이신행 한국언론학회 2023 한국언론학보 Vol.67 No.4
Using computers to rapidly and efficiently build a model to organize massive volumes of textual data, topic modeling is an unsupervised machine learning technique that can be used to classify texts into related themes or to analyze the nature and distribution of topics. However, topic modeling's usage in media research has recently come under fire for failing to take into account reliable and valid measures of theoretically defined concepts. This means that topic modeling needs methodological validation and reliability in order to be employed in media research as a tool for investigating and summarizing massive volumes of textual material. Additionally, it is helpful to be able to group online comments into "issues" and list their important points in order to quickly identify social issues and monitor discourse patterns in real-time on digital platforms. For this reason, attempts to diagnose the methodological validity of topic modeling for analyzing the topics of comments are of great significance. Therefore, this study validates topic modeling for analyzing online comments by verifying its performance as follows. First, we discussed why topic analysis of comments is necessary and what the implications are through the conceptualization of "issues" in the context of online comments. Then, with an emphasis on the Latent Dirichlet Allocation (LDA) model, we reviewed the principle of topic modeling to estimate the topic of text and the assumptions of statistical models that affect topic estimation. Additionally, we contrasted the merits and drawbacks of LDA and the Biterm Topic Model (BTM) to suggest topic modeling as a means of identifying the subject of comments and categorizing them as "issues." Based on the above theoretical discussion, we applied topic modeling to analyze 9,000 online news comments on articles covering nine social issues and validate whether the topics are useful to classify comments according to the "issues" of the news. The results are as follows. First, compared to BTM, LDA is highly dependent on the hyperparameter, , with lower values leading to better model performance. Second, both BTM and LDA were able to estimate the optimal number of topics (K ), but BTM showed less variation in performance with value selection than LDA, and performance degradation was worse when the value was lower than the optimal K than when it was higher. Third, both BTM and LDA performed better when adding bigrams along with unigrams to the vocabulary, but the difference was more pronounced for LDA. Based on these validation results, we assessed the validity of topic modeling for analysis of comments and discussed its implications. 토픽 모델링은 컴퓨터를 이용해 빠르고 쉽게 방대한 양의 정보를 구성하거나 파악하는 모델을 추정하는 비지도 기계학습 방법으로 문서를 비슷한 토픽별로 묶어내거나 토픽의 내용과 분포를 파악하고자 할 때 활용된다. 그런데 토픽 모델링을 미디어 연구에 활용함에 있어 이론적으로 정의된 개념을 타당하고 신뢰할 수 있는 측정하는 방법으로써의 고민이 부족했다는 지적이 최근 제기되고 있다. 대단위 텍스트 자료를 탐색하고 요약하는 도구인 토픽 모델링을 미디어 연구에 활용하기 위해서 방법적 타당성 검증과 신뢰성 확보가 필요하다는 것이다. 더욱이, 온라인 플랫폼을 통해 거대한 규모로 빠르게 발생하고 있는 댓글을 ‘이슈’에 따라 분류하고 그 주요 주제를 요약하는 방법은 사회적 쟁점을 즉각적으로 파악하고 담론 양상을 통시적으로 추적하는데 유용하다. 이러한 이유에서 댓글의 주제를 분석하기 위한 토픽 모델링의 방법적 타당성을 진단하는 시도는 그 의의가 크다고 할 수 있다. 이에 본 연구는 온라인 댓글의 주제 분석을 위한 토픽 모델링 방법을 제시하고 그 성능과 타당성을 다음과 같이 검증했다. 우선, 온라인 댓글의 맥락에서 다뤄지는 ‘이슈’에 대한 개념화를 통해 댓글의 주제 분석이 왜 필요하고 어떠한 함의가 있는 것인지에 대해 논의했다. 그리고 토픽 모델링이 텍스트의 주제를 추정하는 원리와 주제 추정에 영향을 미치는 통계 모델로써의 가정들에 대해 Latent Dirichlet Allocation(LDA) 모델을 중심으로 살펴봤다. 또한 댓글의 주제를 포착하고 ‘이슈’별로 분류하기 위한 토픽 모델링을 제안하고자 LDA와 Biterm Topic Model(BTM)의 성능과 한계를 비교했다. 이상의 이론적 논의를 토대로 9개의 사회적 이슈를 다루고 있는 기사에 달린 9,000건의 온라인 뉴스 댓글을 토픽 모델링으로 분석해 주제를 추정하고 이에 따라 댓글이 뉴스의 ‘이슈’에 따라 분류되는지를 모델별로 비교 검증했다. 그 결과는 다음과 같다. 첫째, BTM에 비해 LDA는 초모수 에 많은 영향을 받았는데 값이 낮아질수록 모델의 성능이 좋아졌다. 둘째, BTM과 LDA 모두 최적의 주제의 개수(K)를 추정할 수 있었으나, BTM이 K값 선정에 따른 성능 변화가 LDA보다 적었고 K값이 최적의 값보다 클 때보다 낮을 때 성능 저하가 심해졌다. 셋째, BTM과 LDA 모두 분석 단어 목록에 단일 형태소와 함께 바이그램(bigram)을 추가할 때 성능이 좋아졌으나 그 차이는 LDA에서 더욱 뚜렸했다. 이러한 검증 결과를 토대로 댓글의 주제 분석을 위한 토픽 모델링의 활용 가능성을 진단하고 그 함의를 논의했다.
연진욱(Jinwook Yeon),부현경(Hyunkyung Boo),김남규(Namgyu Kim) 한국지능정보시스템학회 2022 지능정보연구 Vol.28 No.1
Recently, researches on unstructured data analysis have been actively conducted with the development of information and communication technology. In particular, topic modeling is a representative technique for discovering core topics from massive text data. In the early stages of topic modeling, most studies focused only on topic discovery. As the topic modeling field matured, studies on the change of the topic according to the change of time began to be carried out. Accordingly, interest in dynamic topic modeling that handle changes in keywords constituting the topic is also increasing. Dynamic topic modeling identifies major topics from the data of the initial period and manages the change and flow of topics in a way that utilizes topic information of the previous period to derive further topics in subsequent periods. However, it is very difficult to understand and interpret the results of dynamic topic modeling. The results of traditional dynamic topic modeling simply reveal changes in keywords and their rankings. However, this information is insufficient to represent how the meaning of the topic has changed. Therefore, in this study, we propose a method to visualize topics by period by reflecting the meaning of keywords in each topic. In addition, we propose a method that can intuitively interpret changes in topics and relationships between or among topics. The detailed method of visualizing topics by period is as follows. In the first step, dynamic topic modeling is implemented to derive the top keywords of each period and their weight from text data. In the second step, we derive vectors of top keywords of each topic from the pre-trained word embedding model. Then, we perform dimension reduction for the extracted vectors. Then, we formulate a semantic vector of each topic by calculating weight sum of keywords in each vector using topic weight of each keyword. In the third step, we visualize the semantic vector of each topic using matplotlib, and analyze the relationship between or among the topics based on the visualized result. The change of topic can be interpreted in the following manners. From the result of dynamic topic modeling, we identify rising top 5 keywords and descending top 5 keywords for each period to show the change of the topic. Existing many topic visualization studies usually visualize keywords of each topic, but our approach proposed in this study differs from previous studies in that it attempts to visualize each topic itself. To evaluate the practical applicability of the proposed methodology, we performed an experiment on 1,847 abstracts of artificial intelligence-related papers. The experiment was performed by dividing abstracts of artificial intelligence-related papers into three periods (2016-2017, 2018-2019, 2020-2021). We selected seven topics based on the consistency score, and utilized the pre-trained word embedding model of Word2vec trained with ‘Wikipedia’, an Internet encyclopedia. Based on the proposed methodology, we generated a semantic vector for each topic. Through this, by reflecting the meaning of keywords, we visualized and interpreted the themes by period. Through these experiments, we confirmed that the rising and descending of the topic weight of a keyword can be usefully used to interpret the semantic change of the corresponding topic and to grasp the relationship among topics. In this study, to overcome the limitations of dynamic topic modeling results, we used word embedding and dimension reduction techniques to visualize topics by era. The results of this study are meaningful in that they broadened the scope of topic understanding through the visualization of dynamic topic modeling results. In addition, the academic contribution can be acknowledged in that it laid the foundation for follow-up studies using various word embeddings and dimensionality reduction techniques to improve the performance of the proposed methodology.
토픽모델링을 활용한 상담과정에서 상담자와 내담자 간 언어변화
김하선(Ha-Seon Kim),조남옥(Nam-Ok Cho),이윤주(Yoon-Joo Lee) 학습자중심교과교육학회 2023 학습자중심교과교육연구 Vol.23 No.20
목적 본 연구의 목적은 상담과정에서 이루어진 상담자와 내담자 간의 상담 내용을 토픽모델링을 활용하여 주요 주제를 추출하며 시간의 흐름에 따른 언어변화를 탐색하는 데 있다. 방법 한 상담사가 주 1회 50분 동안 총 5회에 걸쳐 내담자 A와 내담자 B에게 개별상담을 진행한 내용과 추수상담 1회를 포함한 상담 축어록을 전사한 후, 정제과정을 거친 뒤 빈도분석과 토픽모델링을 실시하였다. 결과 빈도 분석 결과, 내담자 A의 상담에서 주요 핵심어는 ‘생각’, ‘사람’, ‘마음’ 등이 나타났으며, 내담자 B의 상담에서는 ‘엄마’, ‘아이’, ‘이야기’ 등이 주로 등장하였다. LDA토픽모델링 결과, 내담자 A의 주요 토픽은 ‘생각과 기분’, ‘자신의 생활’ 등으로, 상담자의 토픽은 ‘남편과 마음’, ‘사람의 마음’ 등 5개씩 추출되었다. 내담자 B의 주요 토픽은 ‘교수 생각’, ‘칭찬 이야기’ 등으로, 상담자의 토픽은 ‘걱정된 이야기’, ‘엄마 공부’ 등 8개씩 추출되었다. 또한, DTM토픽모델링 결과, 내담자 A와 B 모두 상담 초기와 종결 회기에서의 토픽 출현이 높았으며, 상담과정 중에는 낮았다. 반면, 상담자는 상담 초기부터 종결 회기까지 토픽의 출현이 높았으며, 추수상담에서는 내담자와 상담자 모두 토픽 출현이 낮게 나타났다. 결론 본 연구를 통해, 상담과정 중 핵심 주제어와 토픽을 추출하여 내담자의 관심사와 주제를 파악하고 토픽 변화를 분석함으로써, 상담자와 내담자 간 상호작용에서 특정 주제와 언어가 어떻게 변화되는지 탐색하는 데 도움이 되었다. 이러한 연구 결과는 상담자가 내담자의 주요 관심사에 초점을 맞춘 개인상담을 진행하고 있는지 확인하여 상담과정의 질을 개선하는 데 중요한 정보를 제공함을 시사한다. 뿐만 아니라, 개인상담의 내용을 분석하는 데 토픽모델링이라는 인공지능 분석기법을 활용하여, 상담과정에서 상담자와 내담자 간 언어변화를 제시하는 데 의의를 두고 있다. Objectives The aim of this study is to utilize counseling content between counselors and clients during the coun-seling process using topic modeling, extract key themes, and investigate language changes over time. Methods A single counselor conducted individual counseling sessions with Client A and Client B, each lasting 50 minutes, once a week for a total of 5 sessions. The transcripts of these counseling sessions, including a follow-up session, underwent refinement before undergoing frequency analysis and topic modeling. Results In the frequency analysis, key keywords in Client A's counseling sessions included ‘thoughts,’ ‘people,’ and ‘emotions,’ while in Client B's counseling sessions, ‘mother,’ ‘child,’ and ‘stories’ predominated. LDA topic modeling revealed that Client A's major topics were ‘thoughts and emotions’ and ‘personal life,’ while topics such as ‘husband and emotions’ and ‘people's emotions’ were extracted for the counselor, each occurring 5 times. For Client B, primary topics included ‘professor's thoughts’ and ‘complimentary stories,’ while for the counselor, top-ics like ‘worrisome stories’ and ‘mother's studies’ were extracted, each occurring 8 times. Additionally, DTM topic modeling results showed that both Client A and B had higher topic appearances at the beginning and end stages of counseling, with lower appearances during the counseling process. In contrast, the counselor had a high topic appearance from the beginning to the end, while in the follow-up session, both the client and the counselor showed lower topic appearances. Conclusions Through this study, extracting core keywords and topics during the counseling process allowed for the identification of client interests and themes, as well as the analysis of topic changes over time. This in-formation can assist counselors in focusing on the client's primary concerns, thus improving the quality of the counseling process. Furthermore, the use of artificial intelligence analysis techniques such as topic modeling in analyzing the content of individual counseling sessions is significant in presenting language changes between counselors and clients during the counseling process.
LDA, Top2Vec, BERTopic 모형의 토픽모델링 비교 연구 - 국외 문헌정보학 분야를 중심으로 -
이용구,김선욱 한국문헌정보학회 2024 한국문헌정보학회지 Vol.58 No.1
The purpose of this study is to extract topics from experimental data using the topic modeling methods(LDA, Top2Vec, and BERTopic) and compare the characteristics and differences between these models. The experimental data consist of 55,442 papers published in 85 academic journals in the field of library and information science, which are indexed in the Web of Science(WoS). The experimental process was as follows: The first topic modeling results were obtained using the default parameters for each model, and the second topic modeling results were obtained by setting the same optimal number of topics for each model. In the first stage of topic modeling, LDA, Top2Vec, and BERTopic models generated significantly different numbers of topics(100, 350, and 550, respectively). Top2Vec and BERTopic models seemed to divide the topics approximately three to five times more finely than the LDA model. There were substantial differences among the models in terms of the average and standard deviation of documents per topic. The LDA model assigned many documents to a relatively small number of topics, while the BERTopic model showed the opposite trend. In the second stage of topic modeling, generating the same 25 topics for all models, the Top2Vec model tended to assign more documents on average per topic and showed small deviations between topics, resulting in even distribution of the 25 topics. When comparing the creation of similar topics between models, LDA and Top2Vec models generated 18 similar topics(72%) out of 25. This high percentage suggests that the Top2Vec model is more similar to the LDA model. For a more comprehensive comparison analysis, expert evaluation is necessary to determine whether the documents assigned to each topic in the topic modeling results are thematically accurate.
Word2Vec를 이용한 토픽모델링의 확장 및 분석사례
윤상훈 ( Yoon Sang Hun ),김근형 ( Kim Keun Hyung ) 한국정보시스템학회 2021 情報시스템硏究 Vol.30 No.1
Purpose The traditional topic modeling technique makes it difficult to distinguish the semantic of topics because the key words assigned to each topic would be also assigned to other topics. This problem could become severe when the number of online reviews are small. In this paper, the extended model of topic modeling technique that can be used for analyzing a small amount of online reviews is proposed. Design/methodology/approach The extended model of being proposed in this paper is a form that combines the traditional topic modeling technique and the Word2Vec technique. The extended model only allocates main words to the extracted topics, but also generates discriminatory words between topics. In particular, Word2vec technique is applied in the process of extracting related words semantically for each discriminatory word. In the extended model, main words and discriminatory words with similar words semantically are used in the process of semantic classification and naming of extracted topics, so that the semantic classification and naming of topics can be more clearly performed. For case study, online reviews related with Udo in Tripadvisor web site were analyzed by applying the traditional topic modeling and the proposed extension model. In the process of semantic classification and naming of the extracted topics, the traditional topic modeling technique and the extended model were compared. Findings Since the extended model is a concept that utilizes additional information in the existing topic modeling information, it can be confirmed that it is more effective than the existing topic modeling in semantic division between topics and the process of assigning topic names.
맹민정,이경숙 한국체육철학회 2023 움직임의철학 : 한국체육철학회지 Vol.31 No.4
이 연구는 ‘토픽모델링을 이용한 체육철학 고찰’이란 주제로, 『움직임의 철학:한국체육철학회지』에 게재된 연구물의 ‘논제’와 ‘초록’을 분석하였다. 이를 위해 1992년부터 2021년까지 발간(30년)된 1304편을 크롤링하여 1601개의 단어를 추출하고, 텍스트마이닝 기법에서 TF, TF-IDF를 이용해 중요한 비중을 차지하는 주제어를 산출하였다. 그리고 CS계산을 통해 적합한 토픽 수(K)를 선정하여 LDA 토픽모델링을 분석하였다. 더불어 웹 기반 토픽모델링의 시각화 도구인 LDAvis로 주제어를 IDM과 Top-12 Most Relevant Terms로 가시화하여 핵심 주제어를 확인하였다. 그 결과 토픽 수를 4집단으로 추출되었으며, 각 집단에서 주제가 의미하는 대표 토픽 명을 Topic1 스포츠의 진(眞), Topic2 스포츠인의 체화된 몸, Topic3 스포츠의 선(善), Topic4 스포츠의 미(美)로 명명하여 결과를 도출하였다. 결국 토픽모델링을 이용하여 객관적으로 체육철학을 고찰함으로써 주제어의 변화를 파악하고 내부성찰을 할 수 있었다. 따라서 향후 연구에서는 국내에 이어 국제 체육철학 저널(JPS)에 게재된 연구를 진행해 볼 필요가 있으며, 이는 국내와 국제 연구물의 차이점과 공통점을 명확하게 드러내기 위해 필요할 것으로 사료된다. This research, titled "A Study of Sport Philosophy Using Topic Modeling," examined articles and abstracts of research published in The Philosophy of Movement: Journal of the Korean Society for the Philosophy of Physical Education. To accomplish this, 1304 articles published between 1992 and 2021 (spanning 30 years) were crawled to extract 1601 words. Text mining techniques, specifically Term Frequency (TF) and Term Frequency-Inverse Document Frequency (TF-IDF), were employed to calculate important topic words. Subsequently, the suitable number of topics (K) was determined through CS calculation to conduct Latent Dirichlet Allocation (LDA) topic modeling analysis. Additionally, LDAvis, a web-based visualization tool for topic modeling, was utilized to present the topics as Inter-Document Movement (IDM) and the Top-12 Most Relevant Terms, to identify key words. Consequently, four distinct topic groups were formed, and the topic names representing the meaning of the topic words in each group were named Topic1 Truth of sports, Topic2 Embodied body of sportsmen, Topic3 Goodness of sports, and Topic4 Beauty of sports. Ultimately, through the examination of the philosophy of physical education using topic modeling, we achieved a transformation in the discourse. Consequently, it is necessary to conduct a study published in the International Journal of Philosophy of Sport (JPS) alongside a domestic one for future research. This approach will effectively unveil the distinctions and similarities between domestic and international research clearly and comprehensively.
토픽모델링과 네트워크 분석을 활용한 〈亂中日記〉 텍스트 연구
정성훈(Jung, Sung-hoon) 국어국문학회 2021 국어국문학 Vol.- No.197
텍스트 마이닝은 자연언어처리(NLP)와 형태소분석 기술에 기반하여 비정형화된 다량의 텍스트에서 유의미한 단어를 추출하고, 텍스트와 단어의 빈도를 고려하여 문맥(context) 수준의 의미를 찾아내는 방법이다. 이러한 텍스트 마이닝 방법 중에서 최근 각광받고 있는 방법 중의 하나가 토픽모델링(topic modeling)이다. 이에 본 연구에서는 먼저 토픽모델링의 알고리즘에 대한 소개를 하고, 한문 고전문헌의 일기텍스트 중에서 대표적인 〈난중일기〉를 대상으로 토픽모델링을 적용하였다. 연도별 ‧ 계절별로 〈난중일기〉에 나타나는 주제(topic)와 그 특징을 파악하고, 이를 네트워크 구조로 전환하여 중심성과 경향성을 파악해 보았다. 그 결과, 〈난중일기〉에는 10개의 숨겨진 주제들이 있었고, 대부분은 〈난중일기〉의 내용들과 밀접한 관련이 있는 내용들이었다. 특히 토픽모델링으로 추출된 10개의 주제 중에서 주제 2, 3, 4, 6 등 4개의 주제는 해석가능성이 아주 높았다. 또한 네트워크 분석 결과, 주제 3이 〈난중일기〉의 텍스트의 핵심을 이루는데, 통상적인 공무 활동의 일, 병사를 관리 ‧ 감독하는 일, 군수품 준비, 여가생활(음주, 바둑, 활쏘기 시합) 등의 내용이 중심으로 밝혀졌다. 본 연구는 한문 고전문헌의 하나인 〈난중일기〉를 텍스트 마이닝의 하나인 토픽모델링으로 분석해 보고자 한 점에서 의의가 있다고 할 수 있겠다. 나아가 이러한 토픽모델링 분석은 디지털화된 대량의 한문 고전문헌을 분석하는 데 유용한 방법이 될 수 있을 것이다. Text mining is a method of extracting meaningful words from a large amount of atypical texts based on natural language processing(NLP) and morpheme analysis. We can find latent word meanings in the context by analyzing the frequency of meaningful words. One of these text mining methods that has recently been in the spotlight is topic modeling. First of all, in this study, we will introduce the algorithm of topic modeling and try applying topic modeling to 〈nanjungilgi〉, which is a representative diary text in the classical Sino-Korean text. The purpose of this study is to examine the topics and the characteristics in 〈nanjungilgi〉, and to convert them into a network structure to understand its centrality and tendency. As a result, we can find 10 latent topics in 〈nanjungilgi〉, most of which were closely related to the contents of 〈nanjungilgi〉. In particular, among the 10 topics extracted from topic modeling analysis, 4 topics, such as topic 2, 3, 4, and 6, had very high interpretability. In addition, as a result of network analysis, topic 3 forms the core of the context of 〈nanjungilgi〉, which includes the work of normal public service, management and supervision of soldiers, preparation of munitions, leisure life(drinking, go game, archery matches, etc.). This study is meaningful in that it intends to analyze 〈nanjungilgi〉, which is one of the classical Sino-Korean text, using topic modeling. Furthermore, topic modeling analysis like this can be a useful method to analyze a large amount of digitized classical Sino-Korean text.
이수상 한국도서관·정보학회 2016 한국도서관정보학회지 Vol.47 No.4
The purpose of this study is to explore application of topic modeling for topic analysis of book report. Topic modeling can be understood as one method of topic analysis. This analysis was conducted with texts in 23 book reports using LDA function of the “topicmodels” package provided by R. According to the result of topic modeling, 16 topics were extracted. The topic network was constructed by the relation between the topics and keywords, and the book report network was constructed by the relation between book report cases and topics. Next, Centrality analysis was conducted targeting the topic network and book report network. The result of this study is following these. First, 16 topics are shown as network which has one component. In other words, 16 topics are interrelated. Second, book report was divided into 2 groups, book reports with high centrality and book reports with low centrality. The former group has similarities with others, the latter group has differences with others in aspect of the topics of book reports. The result of topic modeling is useful to identify book reports’ topics combining with network analysis. 이 연구는 독후감 텍스트의 주제분석에 토픽모델링의 활용방안을 탐색하는 것을 목적으로 하고 있다. 텍스트의 주제분석 방안으로서 토픽모델링 분석방법을 이해하고, R에서 제공하는 “topicmodels” 패키지의 LDA 함수를 사용하여 23건의 사례 독후감 텍스트들을 대상으로 실제의 분석작업을 수행하였다. 토픽모델링 분석결과 16개의 토픽들을 추출하였고, 토픽과 구성 단어들의 관계에서 토픽 네트워크, 사례 독후감과 토픽들의 관계에서 독후감 네트워크를 구성하였다. 이후 토픽 네트워크와 독후감 네트워크를 대상으로 중심성 분석을 수행하였으며, 분석결과는 다음과 같다. 첫째, 16개의 토픽들이 1개의 컴포넌트를 가지는 네트워크로 나타났다. 이것은 16개 토픽들이 상호 연관되어 있다는 것을 의미한다. 둘째, 독후감 네트워크에서는 연결정도 중심성이 높은 독후감들과 낮은 독후감들로 구분이 되었다. 전자의 독후감들은 다른 독후감들과 주제적으로 유사성을 가지며, 후자의 독후감들은 다른 독후감들과 주제적으로 상이성을 가지는 것으로 해석하였다. 토픽모델링의 결과를 네트워크 분석과 결합함으로써 독후감의 주제파악에 유용한 결과들을 얻게 되었다.
European Sport Management Quarterly의 연구 주제 분석: Latent Dirichlet Allocation을 사용한 Topic Modeling
최미화,권형일,백주해,편도영 국민체육진흥공단 한국스포츠정책과학원 2019 체육과학연구 Vol.30 No.4
[Purpose] The purpose of this study was to analyze the research topics of the articles which were published through European Sport Management Quarterly(ESMQ) from 2009 to 2018. The prior topic analysis studies of the ESMQ classified topics based on the key words using NASPE-NASSM SMPS categories. Therefore they couldn't fully reflect the content of the articles. [Methods] The topic modeling of the current study was conducted with the Latent Dirichlet Allocation(LDA) which generates topics based on the word usage in the article. A total of 265 articles were converted from 'pdf' format to 'txt' ANSI format for topic modeling analysis. The whole topic modeling process was done using R program and the model was set to generate 10 topics from the article. [Results] The 3 sport management experts were hired to label the name of the topics and the name of the topics are as follow : (1) Impact of mega sport event, (2) Cause-related marketing, (3) Factors affecting the results of the competition, (4) Managing sport organization, (5) European sport leagues, (6) Strategic management, (7) Sport economics, (8) Sport in communities, (9) Sport consumers, (10) Elite sports. It is not quite possible to compare the results of the current topic modeling results with the previous ones because of the methodological differences. However, even though the standards are different, Sport marketing topic showed the largest growth among the 10 topics extracted. [Conclusions] This study used the LDA probabilistic algorithm to analyze research topics, which made the analyses more objective and wholistic. However, the insights of the researchers were still needed to interpret and labeling the topics. [목적] 본 연구는 2009년부터 2018년까지 European Sport Management Quarterly(ESMQ)에서 발간된 논문들의 주제를 분석하는데 목적이 있다. ESMQ에 대한 주제분석이 전무했던 것은 아니지만 실제 어떠한 연구가 이루어지고 있는지에 대한 분석이라기보다는 NASPE-NASSM SMPS를 바탕으로 설정한 주제에 각 논문들을 할당하는 방식으로 주제분석이 이루어졌다. [방법] 본 연구에서는 단어들이 어떤 단어들과 함께 사용되고 있는가를 바탕으로 주제를 추출하는 Latent Dirichlet Allocation(LDA)기반의 토픽모델링(topic modeling)을 이용하여 분석하였다. 이를 위해 PDF파일로 확보한 265개의 논문을 ANSI 형식의 Text File로 변환 시켰으며 분석은 R 프로그램의 스크립트를 이용하였고 topic 수는 10개로 설정하였다. [결과] 10개로 분류된 논문들을 Gamma 수치가 높은 순으로 재정렬하여 각각의 주제를 명명하는데 기준을 삼았는데 각각의 주제는 (1) Impact of mega sport event, (2) Cause-related marketing, (3) Factors affecting the results of the competition, (4) Managing sport organization, (5) European sport leagues, (6) Strategic management, (7) Sport economics, (8) Sport in communities, (9) Sport consumers, (10) Elite sports로 명명되었다. 선행연구의 분류기준과 본 연구의 분류기준이 다르기 때문에 두 개의 연구를 직접적으로 비교하는 것은 불가능하다. 하지만 분류기준이 다름에도 불구하고 Sport marketing 주제 영역은 여타의 주제들에 비해 가장 큰 양적 성장이 있던 연구주제인 것으로 나타났다. [결론] 객관적이고 명확한 주제분석을 위하여 LDA 확률모델 알고리즘의 토픽모델링 기법이 적용되었으나 연구자의 통찰력은 여전히 필요하였다. 이에 향후 연구에서는 다양한 토픽 수로 분석하여 비교하거나 데이터의 전처리 여부에 따른 주제 추출 결과 비교를 통해 주제분석의 객관성 확보에 근거가 되기를 기대한다.
LDA 토픽모델링 기반 프랑스어교육 연구 동향 및 토픽 분석
김정숙 학습자중심교과교육학회 2022 학습자중심교과교육연구 Vol.22 No.13
Objectives The purpose of this study is to examine the current status and problems of researches on French language education, and also to present the future direction of French language education and researches by analyzing the trend and topics of researches on French language education using the topic modeling. Methods Through the LDA-based topic modeling which is the most representative topic modeling that automatically extracts and classifies latent topics as a text mining technique used for the analysis of a large quantity of texts, this study analyzed the network between four topic contents and topics focusing on the keywords of 265 theses on French language education published from January 2002 to February 2021. Results The results of this study were drawn as follows. First, due to the decreased French language education in secondary school and university, the researches on French language education record the low level despite some differences in each year. Second, in the results of examining the appearance frequency of keywords, it was shown in the order of ‘French language education’, ‘Curriculum’, ‘French language’, ‘communication skills’, and ‘French language as a foreign language’. This shows the active performance of researches focusing on the curriculum that becomes the standard of Korean secondary French language education, and communication skills as its important goal, and very limited topics handled in researches on French language education. Third, total four topics were extracted through the topic modeling, and the weight of each topic was shown in the order of ‘college French language education’, ‘secondary French language education’, ‘communicative approach’, and ‘action-oriented approach’. This study also verified that the researches on French language education were concentrated on a specific area or limited to the level or contents of theories or policies. Thus, it would be necessary to perform researches on various teaching/learning methodologies for improving students’ interest or expanding the teaching/learning contents that could be concretely applied to school field. Fourth, in the analysis of network between topics, focusing on French language, the foreign language, curriculum, learning, textbook, communication skills, learner, culture, French language education, education, and France were connected to each other while the French language education, France, culture, and education were forming another network. Conclusions This study verified the necessity of researches on various teaching/learning methods for diversifying and expanding the research field related to French language education, and also motivating and improving interest of learners. 목적 본 연구의 목적은 토픽모델링을 활용한 프랑스어교육 연구 동향 및 토픽 분석을 통해 프랑스어교육 연구 현황 및 문제점을 살펴보고 향후 프랑스어교육 및 연구의 방향을 제시하는 것이다. 방법 대량의 텍스트 분석에 사용되는 텍스트마이닝 기법의 하나로 잠재적 주제인 토픽들을 자동으로 추출하여 분류하는 토픽모델링 중 가장 대표적인 LDA 기반 토픽모델링으로 2002년 1월부터 2021년 2월까지 발표된 프랑스어교육 관련 논문 265편의 주제어를 중심으로 네 개의 토픽 내용 및 토픽 간의 네트워크를 분석하였다. 결과 다음과 같은 연구 결과를 도출하였다. 첫째, 프랑스어교육 연구는 전반적인 중등 및 대학에서의 프랑스어교육의 위축으로 해마다 정도의 차이는 있으나 저조한 수준에 그치고 있다. 둘째, 주제어의 출현 빈도 순위를 살펴본 결과 ‘프랑스어교육’, ‘교육과정’, ‘프랑스어’, ‘의사소통능력’, ‘외국어로서의 프랑스어’ 등의 순으로 나타났다. 이는 우리나라 중등 프랑스어 교육의 준거가 되는 교육과정과그 중요 목표인 의사소통 능력을 중심으로 한 연구가 활발하게 수행되었다는 것과 프랑스어교육 연구에서 다루는 주제가 매우 제한적임을 보여준다. 셋째, 토픽모델링을 통해 네 개의 토픽이 추출되었는데 토픽별 비중은 ‘대학 프랑스어 교육’, ‘중등 프랑스어 교육’, ‘의사소통 접근법’, ‘행위중심접근법’ 순이었다. 또한 프랑스어교육 연구가 특정 영역에 편중되거나 이론이나 정책적인 차원의 수준이나 내용에 머무르고 있음을 확인할 수 있다. 따라서 학교 현장에서 구체적으로 적용할 수 있는 교수⋅학습 내용 영역의 확대나학생들의 흥미 제고를 위한 다양한 교수⋅학습 방법론에 대한 연구가 필요한 것으로 드러났다. 넷째, 토픽들 사이의 네트워크 분석에서는 프랑스어를 중심으로 외국어, 교육과정, 학습, 교재, 의사소통능력, 학습자, 문화, 프랑스어교육, 교육, 프랑스가 연결되며 프랑스어교육, 프랑스, 문화, 교육은 또 다른 네트워크를 형성하는 것으로 나타났다. 결론 프랑스어교육 관련 연구 영역의 다변화 및 확장, 학습자의 동기 부여 및 흥미 제고를 위한 다양한 교수⋅학습 방법의 연구에대한 필요성을 확인하였다.