RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        참고문헌의 유무가 LDA를 사용한 토픽 모델링 결과에 미치는 영향

        백주해 ( Juhae Baeck ),권형일 ( Hyungil Kwon ),최미화 ( Mihwa Choi ),( Yi-hsiu Lin ) 한국체육학회 2019 한국체육학회지 Vol.58 No.6

        본 연구는 논문을 사용한 토픽 모델링에서 연구자가 고려해야 할 요소 중 하나인 참고문헌 제거 여부에 대한 필요성을 탐색하고자 하였다. 참고문헌 내용만을 텍스트에서 정확하게 제거하는 명령어나 기술이 제공되고 있지 않아, 참고문헌을 제외한 텍스트로 토픽 모델링을 수행하고자 하였을 때에는 연구자가 모든 텍스트에서 일일이 참고문헌을 제거하는 과정을 거쳐야만 한다. 이렇게 많은 노동력과 시간이 소요되는 참고문헌 제거 과정이 연구자에게 부담으로 작용할 수 있으므로, 참고문헌의 존재가 토픽 모델링 결과에 어떠한 영향을 미치는지를 알아보고 토픽 모델링에 더욱 적합한 텍스트 형태를 제시하고자 하였다. 스포츠산업경영 분야의 국제 저널 SMQ, ESMQ와 JSM에서 최근 10년간 출간된 논문을 대상으로 토픽 모델링을 수행하고, 참고문헌이 포함된 텍스트와 참고문헌이 제거된 텍스트의 토픽 모델링 결과를 비교하였다. 스포츠산업경영 및 마케팅에 대한 전반적인 지식을 가지고 세 가지 저널의 특성에 대해 충분히 이해하고 있는 전문가 5인의 평가로 결과 비교가 이루어졌다. 비교 결과, 참고문헌을 포함한 전문을 사용하였을 때 더욱 해석이 용이한 토픽 모델링 결과가 도출되는 것으로 나타났다. 텍스트에 참고문헌이 포함되었을 때에 토픽을 산출하는 데 할당되는 논문 간의 연관성이 높았으며, 연관성이 높은 논문들로부터 산출된 토픽의 해석가능성 또한 높아지는 것으로 판단할 수 있다. 이처럼 참고문헌의 존재가 토픽 모델링 결과에 부정적인 영향을 미치지 않는다는 본 연구결과에 따르면, 논문을 사용한 토픽 모델링에서 참고문헌을 제거하는 추가적인 절차를 거치지 않아도 됨을 뜻한다. 이에 따라, 논문을 사용한 토픽 모델링을 수행하고자 하는 추후 연구에서는 참고문헌의 존재가 미칠 수 있는 토픽 모델링 결과에 대한 부정적인 영향력에 대한 고민을 덜 수 있을 것으로 판단된다. This study tried to investigate the necessity of the reference removal procedure during the text pre-processing in topic modeling by comparing the topic modeling results using the text with reference and the text without reference. The use of full-text article for the topic modeling may cause extra work on removing the subsidiary part that is not directly related to the content of the article, because it is not able to selectively extract the certain part of the text that researcher wants to include in the analysis has not yet been developed. Therefore, manual work by the researcher is required to remove the subsidiary information and it takes a great amount of labor and time to perform the text pre-processing rather than the actual topic modeling analysis process. Thus, this study compared the topic modeling result of the text containing reference and of the text without reference. The research articles has been published from three major sports management and marketing journals from 2009 to 2018 were collected. JSM, ESMQ, and SMQ have been selected based on their reputation and status in the academic field. Five sport management/marketing experts were hired to evaluate the quality of the topic modeling result. The result indicated that the text containing reference produced a better topic modeling result than the text without reference. The relevance between the articles which were used to generate certain topic was higher when the text containing reference. It can be concluded that the quality of the topics is also high when the relevance of the articles is high. Based on this result, reference removal procedure is not necessary for the topic modeling using research articles. It can reduce a considerable amount of time and labor that the researcher needs to spend on pre-processing.

      • KCI등재

        토픽모델링을 활용한 상담과정에서 상담자와 내담자 간 언어변화

        김하선(Ha-Seon Kim),조남옥(Nam-Ok Cho),이윤주(Yoon-Joo Lee) 학습자중심교과교육학회 2023 학습자중심교과교육연구 Vol.23 No.20

        목적 본 연구의 목적은 상담과정에서 이루어진 상담자와 내담자 간의 상담 내용을 토픽모델링을 활용하여 주요 주제를 추출하며 시간의 흐름에 따른 언어변화를 탐색하는 데 있다. 방법 한 상담사가 주 1회 50분 동안 총 5회에 걸쳐 내담자 A와 내담자 B에게 개별상담을 진행한 내용과 추수상담 1회를 포함한 상담 축어록을 전사한 후, 정제과정을 거친 뒤 빈도분석과 토픽모델링을 실시하였다. 결과 빈도 분석 결과, 내담자 A의 상담에서 주요 핵심어는 ‘생각’, ‘사람’, ‘마음’ 등이 나타났으며, 내담자 B의 상담에서는 ‘엄마’, ‘아이’, ‘이야기’ 등이 주로 등장하였다. LDA토픽모델링 결과, 내담자 A의 주요 토픽은 ‘생각과 기분’, ‘자신의 생활’ 등으로, 상담자의 토픽은 ‘남편과 마음’, ‘사람의 마음’ 등 5개씩 추출되었다. 내담자 B의 주요 토픽은 ‘교수 생각’, ‘칭찬 이야기’ 등으로, 상담자의 토픽은 ‘걱정된 이야기’, ‘엄마 공부’ 등 8개씩 추출되었다. 또한, DTM토픽모델링 결과, 내담자 A와 B 모두 상담 초기와 종결 회기에서의 토픽 출현이 높았으며, 상담과정 중에는 낮았다. 반면, 상담자는 상담 초기부터 종결 회기까지 토픽의 출현이 높았으며, 추수상담에서는 내담자와 상담자 모두 토픽 출현이 낮게 나타났다. 결론 본 연구를 통해, 상담과정 중 핵심 주제어와 토픽을 추출하여 내담자의 관심사와 주제를 파악하고 토픽 변화를 분석함으로써, 상담자와 내담자 간 상호작용에서 특정 주제와 언어가 어떻게 변화되는지 탐색하는 데 도움이 되었다. 이러한 연구 결과는 상담자가 내담자의 주요 관심사에 초점을 맞춘 개인상담을 진행하고 있는지 확인하여 상담과정의 질을 개선하는 데 중요한 정보를 제공함을 시사한다. 뿐만 아니라, 개인상담의 내용을 분석하는 데 토픽모델링이라는 인공지능 분석기법을 활용하여, 상담과정에서 상담자와 내담자 간 언어변화를 제시하는 데 의의를 두고 있다. Objectives The aim of this study is to utilize counseling content between counselors and clients during the coun-seling process using topic modeling, extract key themes, and investigate language changes over time. Methods A single counselor conducted individual counseling sessions with Client A and Client B, each lasting 50 minutes, once a week for a total of 5 sessions. The transcripts of these counseling sessions, including a follow-up session, underwent refinement before undergoing frequency analysis and topic modeling. Results In the frequency analysis, key keywords in Client A's counseling sessions included ‘thoughts,’ ‘people,’ and ‘emotions,’ while in Client B's counseling sessions, ‘mother,’ ‘child,’ and ‘stories’ predominated. LDA topic modeling revealed that Client A's major topics were ‘thoughts and emotions’ and ‘personal life,’ while topics such as ‘husband and emotions’ and ‘people's emotions’ were extracted for the counselor, each occurring 5 times. For Client B, primary topics included ‘professor's thoughts’ and ‘complimentary stories,’ while for the counselor, top-ics like ‘worrisome stories’ and ‘mother's studies’ were extracted, each occurring 8 times. Additionally, DTM topic modeling results showed that both Client A and B had higher topic appearances at the beginning and end stages of counseling, with lower appearances during the counseling process. In contrast, the counselor had a high topic appearance from the beginning to the end, while in the follow-up session, both the client and the counselor showed lower topic appearances. Conclusions Through this study, extracting core keywords and topics during the counseling process allowed for the identification of client interests and themes, as well as the analysis of topic changes over time. This in-formation can assist counselors in focusing on the client's primary concerns, thus improving the quality of the counseling process. Furthermore, the use of artificial intelligence analysis techniques such as topic modeling in analyzing the content of individual counseling sessions is significant in presenting language changes between counselors and clients during the counseling process.

      • KCI우수등재

        온라인 댓글의 주제 분석을 위한 토픽 모델링 : 이슈 포착과 분류에 활용 가능한 LDA와 BTM의 비교와 검증

        이신행 한국언론학회 2023 한국언론학보 Vol.67 No.4

        Using computers to rapidly and efficiently build a model to organize massive volumes of textual data, topic modeling is an unsupervised machine learning technique that can be used to classify texts into related themes or to analyze the nature and distribution of topics. However, topic modeling's usage in media research has recently come under fire for failing to take into account reliable and valid measures of theoretically defined concepts. This means that topic modeling needs methodological validation and reliability in order to be employed in media research as a tool for investigating and summarizing massive volumes of textual material. Additionally, it is helpful to be able to group online comments into "issues" and list their important points in order to quickly identify social issues and monitor discourse patterns in real-time on digital platforms. For this reason, attempts to diagnose the methodological validity of topic modeling for analyzing the topics of comments are of great significance. Therefore, this study validates topic modeling for analyzing online comments by verifying its performance as follows. First, we discussed why topic analysis of comments is necessary and what the implications are through the conceptualization of "issues" in the context of online comments. Then, with an emphasis on the Latent Dirichlet Allocation (LDA) model, we reviewed the principle of topic modeling to estimate the topic of text and the assumptions of statistical models that affect topic estimation. Additionally, we contrasted the merits and drawbacks of LDA and the Biterm Topic Model (BTM) to suggest topic modeling as a means of identifying the subject of comments and categorizing them as "issues." Based on the above theoretical discussion, we applied topic modeling to analyze 9,000 online news comments on articles covering nine social issues and validate whether the topics are useful to classify comments according to the "issues" of the news. The results are as follows. First, compared to BTM, LDA is highly dependent on the hyperparameter, , with lower values leading to better model performance. Second, both BTM and LDA were able to estimate the optimal number of topics (K ), but BTM showed less variation in performance with value selection than LDA, and performance degradation was worse when the value was lower than the optimal K than when it was higher. Third, both BTM and LDA performed better when adding bigrams along with unigrams to the vocabulary, but the difference was more pronounced for LDA. Based on these validation results, we assessed the validity of topic modeling for analysis of comments and discussed its implications. 토픽 모델링은 컴퓨터를 이용해 빠르고 쉽게 방대한 양의 정보를 구성하거나 파악하는 모델을 추정하는 비지도 기계학습 방법으로 문서를 비슷한 토픽별로 묶어내거나 토픽의 내용과 분포를 파악하고자 할 때 활용된다. 그런데 토픽 모델링을 미디어 연구에 활용함에 있어 이론적으로 정의된 개념을 타당하고 신뢰할 수 있는 측정하는 방법으로써의 고민이 부족했다는 지적이 최근 제기되고 있다. 대단위 텍스트 자료를 탐색하고 요약하는 도구인 토픽 모델링을 미디어 연구에 활용하기 위해서 방법적 타당성 검증과 신뢰성 확보가 필요하다는 것이다. 더욱이, 온라인 플랫폼을 통해 거대한 규모로 빠르게 발생하고 있는 댓글을 ‘이슈’에 따라 분류하고 그 주요 주제를 요약하는 방법은 사회적 쟁점을 즉각적으로 파악하고 담론 양상을 통시적으로 추적하는데 유용하다. 이러한 이유에서 댓글의 주제를 분석하기 위한 토픽 모델링의 방법적 타당성을 진단하는 시도는 그 의의가 크다고 할 수 있다. 이에 본 연구는 온라인 댓글의 주제 분석을 위한 토픽 모델링 방법을 제시하고 그 성능과 타당성을 다음과 같이 검증했다. 우선, 온라인 댓글의 맥락에서 다뤄지는 ‘이슈’에 대한 개념화를 통해 댓글의 주제 분석이 왜 필요하고 어떠한 함의가 있는 것인지에 대해 논의했다. 그리고 토픽 모델링이 텍스트의 주제를 추정하는 원리와 주제 추정에 영향을 미치는 통계 모델로써의 가정들에 대해 Latent Dirichlet Allocation(LDA) 모델을 중심으로 살펴봤다. 또한 댓글의 주제를 포착하고 ‘이슈’별로 분류하기 위한 토픽 모델링을 제안하고자 LDA와 Biterm Topic Model(BTM)의 성능과 한계를 비교했다. 이상의 이론적 논의를 토대로 9개의 사회적 이슈를 다루고 있는 기사에 달린 9,000건의 온라인 뉴스 댓글을 토픽 모델링으로 분석해 주제를 추정하고 이에 따라 댓글이 뉴스의 ‘이슈’에 따라 분류되는지를 모델별로 비교 검증했다. 그 결과는 다음과 같다. 첫째, BTM에 비해 LDA는 초모수 에 많은 영향을 받았는데 값이 낮아질수록 모델의 성능이 좋아졌다. 둘째, BTM과 LDA 모두 최적의 주제의 개수(K)를 추정할 수 있었으나, BTM이 K값 선정에 따른 성능 변화가 LDA보다 적었고 K값이 최적의 값보다 클 때보다 낮을 때 성능 저하가 심해졌다. 셋째, BTM과 LDA 모두 분석 단어 목록에 단일 형태소와 함께 바이그램(bigram)을 추가할 때 성능이 좋아졌으나 그 차이는 LDA에서 더욱 뚜렸했다. 이러한 검증 결과를 토대로 댓글의 주제 분석을 위한 토픽 모델링의 활용 가능성을 진단하고 그 함의를 논의했다.

      • KCI등재

        비정형 텍스트 자료에서 잠재정보 추출을 위한 토픽모델링 소개: 치매관련 신체활동 뉴스 기사의 이슈 분석

        윤효준,박재현,윤지운 국민체육진흥공단 한국스포츠정책과학원 2019 체육과학연구 Vol.30 No.3

        [Purpose] The purpose of this study is to introduce the basic concepts and procedures for topic modeling and to explain topic modeling to news articles about dementia-related physical activities. And it is also to discuss the possibility of using topic Modeling in the field of physical education. [Methods] In this study, the LDA algorithm of topic modeling is explained and the analysis procedure is summarized step by step by text preprocessing, text formatting, and topic number determination. The application cases were selected from 274 news articles about dementia-related physical activities reported in 13 major daily newspapers from 2000 to 2018. [Results] When the number of topics is 3, the Coherence Score figure is the highest. Topic 1 is about welfare services for dementia patients, Topic 2 is about prevention of dementia, and Topic 3 is about dementia research. The ratio by each subject is Topic 2 (46.0%), Topic 3 (33.2%) and Topic 1 (20.8%) in order of high ratio. [Conclusion] Topic modeling is an effective methodology to extract potential information excluding subjectivity of researchers. It is expected to be used when searching for information in massive texts in the field of physical education. [목적] 이 연구는 토픽모델링에 대한 기본개념 및 절차에 대해 소개하고 치매관련 신체활동에 대한 뉴스기사에 토픽모델링을 적용사례로 설명하는 것이 목적이다. 아울러 체육학 분야에서 토픽모델링의 활용가능성을 논의하고자 하였다. [방법] 이 연구에서는 토픽모델링의 LDA 알고리즘을 설명하고 분석절차를 텍스트전처리, 텍스트정형화, 토픽수결정으로 단계별로 요약하였다. 적용사례는 치매관련 신체활동에 대한 뉴스기사로 2000년부터 2018년까지 13개 주요일간지에 보도된 274건의 뉴스본문을 대상으로 선정하였다. [결과] 토픽의 수는 3개 일 때 Coherence Score값이 가장 높게 나타났다. 토픽1은 치매환자를 위한 복지서비스 주제, 토픽2는 치매예방 주제, 토픽3은 치매연구 주제이다. 주제별 비율은 토픽2(46.0%), 토픽3(33.2%), 토픽1(20.8%)순으로 높게 나타났다. [결론] 토픽모델링은 연구자의 주관성을 배제하여 잠재적 정보를 추출해낼 수 있는 효과적인 방법론으로 체육학분야에서도 방대한 텍스트자료에서 정보를 탐색하고자 할 때 활용되길 기대한다.

      • KCI등재

        국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 -

        박준형,오효정 한국도서관·정보학회 2017 한국도서관정보학회지 Vol.48 No.4

        The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstly we collected 1,027 articles related to archives management from 1997 to 2016 in two journals related with archives management and four journals related with library and information science in Korea and performed several preprocessing steps. And then we conducted LDA and HDP topic modelings. For a more in-depth comparison analysis, we utilized LDAvis as a topic modeling visualization tool. At the results, LDA topic modeling was influenced by frequently keywords in all topics, whereas, HDP topic modeling showed specific keywords to easily identify the characteristics of each topic. 본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.

      • KCI등재

        토픽모델링 연구동향 분석 : 공학과 사회과학 분야 KCI 등재지를 중심으로

        최성철(Sung Cheol Choi),박한우(Han Woo Park) 한국자료분석학회 2020 Journal of the Korean Data Analysis Society Vol.22 No.2

        해외에서 토픽모델링 관련 연구가 이루어짐에 따라, 국내에서도 토픽모델링에 대한 관심이 증가하고 있다. 따라서 국내 토픽모델링 연구에 대한 트렌드와 계열간 연구주제 차이를 파악하고 한국어에 대한 토픽모델링 기법 적용 가능성을 확인하고자 하였다. 한국학술지인용색인(KCI) 홈페이지에서 제공되는 데이터를 수집한 후 저자와 기관을 중심으로 네트워크 분석을 수행하였다. 세부적인 연구주제와 동향을 파악하기 위하여, 연구진이 수집한 논문들을 읽고 내용분석을 진행하였으며 동시에 LDA와 DTM 기반 토픽모델링 분석을 수행하였다. 결과의 시사점은 다음과 같다. 첫째, 토픽모델링 관련 연구는 2015년부터 급증하는 것으로 나타났으며 공학 계열보다 사회과학 논문 수가 더 많았다. 둘째, 공저자 네트워크 분석결과는 공학과 사회과학 계열 모두 소그룹 형태로 다수 구성되어 학술연구 네트워크의 초기형태를 보였다. 마지막으로 토픽모델링을 통해 나타난 세부 주제의 구성이 계열별 차이를 보였다. 공학 계열은 타 시스템과의 적용가능성과 신규 알고리즘 개발에 중점을 둔 주제로 구성된 반면, 사회과학 계열은 주제 및 여론 발굴, 그리고 여론 동향분석과 관련된 것으로 구성되었다. 본 연구 결과는 KCI 등재지의 논문 서지정보를 이용하여 새로운 연구방법인 토픽모델링의 트렌드를 파악하고, 공학과 사회과학 그룹간 세부 주제의 차이를 검토하였다는 점에서 학술적 의의를 지닌다. Current study collected a total of 166 publications indexed in the KCI (Korea citation index) that used a topic modeling analysis since 2000. Through co-authorship data, social network analysis for researchers and institutions was performed for social sciences versus engineering discipline. A LDA (latent Dirichlet allocation) analysis was also performed to identify detailed research topics and trends. The findings are as follows. First, studies related to topic modeling in Korea showed that the number of papers in the social sciences was increasing rapidly from 2015 and confirmed that the number of papers in the social sciences was higher than those in engineering. Second, the co-authorship networks consisted of a number of small groups, both in engineering and social science. This is an early form of academic research networks. Finally, engineering papers focused on applicability with other systems and development of new algorithms. The social science sector, on the other hand, showed a difference, consisting of an analysis of issues, public opinion, and trends.

      • KCI등재

        토픽 모델링을 활용한 아웃도어웨어 패딩 리뷰의 융복합적 내용 분석

        한기향(Han, Ki Hyang) 한국전시산업융합연구원 2024 한국과학예술융합학회 Vol.42 No.2

        소비자 리뷰는 온라인 쇼핑몰에서 의류를 구매한 소비자가 직접 자신의 경험이나 의견을 적은 것으로, 소비자들은 상품 구매 시 먼저 의류 상품을 구매한 소비자의 경험에 많은 의존을 하고 있다. 본 연구의 목적은 코로나-19 이후 변화된 소비자의 라이프스타일과 고프코어룩 트렌드로 인해 새로운 전성기를 맞이한 아웃도어웨어의 지속적인 성장을 위한 기초 자료를 제공하는데 있다. 연구를 위한 데이터는 국내 최대 온라인 패션 플랫폼인 ‘무신사’를 대상으로 2023년 12월 5일을 기준으로 3개월 동안 판매된 남성용 아웃도어웨어 패딩의 리뷰 1,046개를 Python을 이용하여 수집하였다. 수집된 데이터는 TEXTOM을 이용하여 형태소 분석, 감성 분석, LDA 토픽 모델링을 진행하였으며, 연구 결과는 다음과 같다. 첫째, 빈도분석결과 ‘좋다’가 615개로 가장 많이 도출되었으며, 다음으로 ‘입다(535개), 예쁘다(306개), 구매하다(273개), 같다(266개)’ 등의 순으로 나타났으며, TF-IDF는 ‘입다(489.10)’의 순위가 가장 높았으며, 다음으로 ‘좋다(471.41), 예쁘다(412.00), 같다(406.39), 구매하다(398.49)’의 순으로 나타났다. 둘째, 감성 분석을 시행한 결과, 전체 1,046개의 리뷰 중 긍정 감성이 860개(82.22%)로 가장 높게 나타났으며, 부정 감성이 186개인 17.78%로 나타났다. 셋째, LDA 토픽 모델링 결과, 총 5개의 토픽이 도출되었다. 토픽 1은 남성 아웃도어웨어 패딩을 구매한 소비자의 만족 요인으로 구성되어 있으며, 이 외에 토픽에 포함된 주요 리뷰로 선물이 있다. 토픽 1의 주제는 “소비자 만족 요인-사이즈, 가격, 배송”으로 명명하였다. 토픽 2의 주제는 “소비자 불만족 요인-사이즈, 재질, 핏(fit),”로 사이즈, 재질, 핏(fit)에 관한 소비자 불만족 요인으로 구성되어 있다. 토픽 3의 주제는 “소비자 만족 요인-색상, 디자인, 품질”로 소비자 만족 요인 중 색상, 디자인, 품질에 만족한 소비자 리뷰로 이루어져 있다. 토픽의 주제가 “리버서블”인 4번째 토픽은 리버서블 패딩에 대한 긍 · 부정의 리뷰로 이루어졌다. 5번째 토픽은 “기능성 및 활용성”을 주제로 다수의 긍정 리뷰와 약간의 부정 리뷰를 포함하고 있다. 본 연구는 온라인 패션 플랫폼에서 아웃도어웨어 패딩을 구매한 소비자가 직접 남긴 리뷰를 수집하고 분석한 연구로 최근 텍스트 마이닝 분석 방법 중 주목받고 있는 LDA 토픽 모델링을 이용하여 현재 판매되고 있는 상품에 대한 소비자의 의견을 분석하였다는 데 그 의의가 있다. Consumer reviews are written by consumers who purchase clothing from online shopping malls, and consumers rely heavily on the experience of consumers who purchase clothing products first when purchasing products. The purpose of this study is to provide basic data for the sustainable growth of outdoor wear, which has entered a new heyday due to the changed consumer lifestyle and Gorp-Core look trend after COVID-19. The data for the study was collected using Python for 1,046 reviews of mens outdoor-wear padding sold for three months as of December 5, 2023, targeting MUSINSA, the largest online fashion platform in Korea. Frequency analysis, TF-IDF, sentimental analysis, and LDA topic modeling were conducted using TEXTOM for the collected data, and the results of the study are as follows. First, the frequency analysis results were in the order of good, wear, pretty, buy, same, and TF-IDF in the order of wear, good, pretty, same, buy. Second, as a result of conducting an sentimental analysis, 860 (82.22%) out of 1,046 reviews were positive, and 186 (17.78%) were negative emotions. Third, as a result of LDA topic modeling, a total of 5 topics were derived. Topic 1 is composed of consumer satisfaction factors, and in addition, gifts are the main reviews included in the topic. The subject of Topic 1 was named Consumer Satisfaction Factor-Size, Price, and Delivery. The subject of Topic 2 is Consumer dissatisfaction factor-Size, Material, Fit, which consists of consumer dissatisfaction factors related to size, material, and fit. The subject of Topic 3 is Consumer Satisfaction Factor-Color, Design, Quality, consisting of consumer reviews that are satisfied with color, design, and quality among consumer satisfaction factors. The 4th topic, whose topic is Reversible, consisted of positive and negative reviews on reversible padding. The 5th topic included a number of positive and some negative reviews with the theme of Functionality and Utilization. This study is a study that collects and analyzes reviews left by consumers who purchase outdoor-wear padding on an online fashion platform, and is significant in that it analyzes consumer opinions on the products currently on sale by using the LDA topic modeling, which is attracting attention among text mining analysis methods.

      • KCI등재

        토픽모델링을 활용한 음식관광 온라인 동영상 콘텐츠 주제 분류: 유튜브 채널을 중심으로

        이범준,신서영 한국호텔외식관광경영학회 2022 호텔경영학연구 Vol.31 No.3

        코로나 19로 인하여 모든 산업 분야가 전방위적인 타격을 입고 계량화하기 어려운 사회⋅경제적 비용을 치루고 있는 상황에서 특히 관광산업은 포스트코로나 시대에 대비해 관광의 개념 및 범위에 대한 새로운 정립과 정책 방향의 전환이 필요한 시점이다. 이에 본 연구에서는 대표적인 온라인동영상서비스인 유튜브 내 음식관광 동영상을 대상으로 동영상 콘텐츠의 중심 키워드들을 파악하고 토픽모델링을 통해 토픽 별 주제를 도출함으로써 음식관광 동영상 이용자 관점의 음식관광 관심사를 유형화하고자 하였다. 이를 위해 “관광” 카테고리 내 상위 100위 유튜브 채널 중 국내에서 운영되고 있는 “음식관광” 채널 7개를 선정하 여 2021년 12월 13일부터 2021년 12월 16일까지 Python의 BeautifulSoup과 selenium 라이브러리를 기반으 로 구축한 전용 크롤러를 통해 해당 채널 내 전체 동영상 중 댓글이 없는 영상을 제외하고 총 5,468 개의 음식관광 동영상 관련 텍스트 데이터를 확보하였다. 첫 번째로 석 기간 동안 유튜브 내 음식관광 동영상 콘텐츠 단어 빈도 분석과 단어빈도-역문서 빈도 분석으로 도출된 주요 키워드는 ‘위치’, ‘시장’, ‘가격’, ‘음 식’, ‘치즈’ 순으로 대부분 그간 다수의 선행연구에서 밝혀진 소비자의 주요 레스토랑 선택속성들과 일치하 였다. 두 번째로 둘째, 토픽모델링 결과 유튜브 음식관광 상위 인기 채널 내 동영상 콘텐츠는 크게 ‘음식관광 선택장소’와 ‘음식관광 관심메뉴’ 주제로 분류되었다. ‘음식관광 선택장소’ 주제의 세부 토픽은 ‘서울’, ‘베 트남’, ‘전라도’로 유튜브 음식관광 동영상 콘텐츠에서 주로 소개된 국내외 음식관광지와 관련된 키워드들이 도출되었다. 한편 ‘음식관광 관심메뉴’ 주제의 세부 토픽은 ‘길거리 음식’, ‘디저트’, ‘생과일 음료’, ‘면 요리’, ‘닭 요리’, ‘술안주‘이었다. 마지막으로 토픽모델링 시각화를 통해 토픽 간의 연관성을 살펴본 결과 토픽 ‘길거리 음식’, ‘면 요리’, ‘닭 요리’가 특정 영역에 모여 있어 이들 토픽 간의 연관성이 높음을 알 수 있었다. 본 연구는 동영상 콘텐츠 자료를 분석함으로써 텍스트 기반의 관광 분야 토픽모델링 연구의 범위를 확장하 였다는데 의의가 있으며 동영상에서 다뤄지는 음식관광 핵심주제들을 탐색적으로 발견하고 주제간 연결성 을 파악함으로써 동영상 이용자 시각과 관심을 객관적으로 이해하는데 기여할 수 있다. This study aimed to categorize the subject of food tourism video content using topic modeling in YouTube, the largest online video sharing platform. For this purpose, a total of 5,458 food tourism videos related text data were collected from YouTube using python3 CSS Selector from December 13, 2021 to December 16, 2021. Top 30 keywords, such as “location”, “market”, “price”, “food” and “Seoul” were extracted through the frequency analysis and TF-IDF(Term Frequency - Inverse Document Frequency) analysis. Through Topic Modeling analysis, the themes of food tourism video content in YouTube were largely classified into “food tourism destination” and “food tourism menu”. The keywords were further subdivided into nine topics within the corresponding categories, such as “food tourist destination”, “Vietnam food tour”, “Jeolla-do food tour”, “street food”, “dessert”, “fresh fruit juice”, “noodles”, “chickens” and “snacks”. Through topic modeling visualization analysis, it was found that “street food”, “noodles”, and “chickens” are clustered in a specific area, the relevance between these topics is high, and “Vietnam food tour”, “fresh fruit juice”, “snacks”, and “Jeolla- do food tour” have relatively low relevance between the topics. Based on these results, the key topics of food tourism videos and the connections between topics were identified. Moreover, this study expanded the scope of existing topic modeling studies in the tourism field by analyzing video content data.

      • KCI우수등재

        토픽모델링과 네트워크 분석을 활용한 〈亂中日記〉 텍스트 연구

        정성훈(Jung, Sung-hoon) 국어국문학회 2021 국어국문학 Vol.- No.197

        텍스트 마이닝은 자연언어처리(NLP)와 형태소분석 기술에 기반하여 비정형화된 다량의 텍스트에서 유의미한 단어를 추출하고, 텍스트와 단어의 빈도를 고려하여 문맥(context) 수준의 의미를 찾아내는 방법이다. 이러한 텍스트 마이닝 방법 중에서 최근 각광받고 있는 방법 중의 하나가 토픽모델링(topic modeling)이다. 이에 본 연구에서는 먼저 토픽모델링의 알고리즘에 대한 소개를 하고, 한문 고전문헌의 일기텍스트 중에서 대표적인 〈난중일기〉를 대상으로 토픽모델링을 적용하였다. 연도별 ‧ 계절별로 〈난중일기〉에 나타나는 주제(topic)와 그 특징을 파악하고, 이를 네트워크 구조로 전환하여 중심성과 경향성을 파악해 보았다. 그 결과, 〈난중일기〉에는 10개의 숨겨진 주제들이 있었고, 대부분은 〈난중일기〉의 내용들과 밀접한 관련이 있는 내용들이었다. 특히 토픽모델링으로 추출된 10개의 주제 중에서 주제 2, 3, 4, 6 등 4개의 주제는 해석가능성이 아주 높았다. 또한 네트워크 분석 결과, 주제 3이 〈난중일기〉의 텍스트의 핵심을 이루는데, 통상적인 공무 활동의 일, 병사를 관리 ‧ 감독하는 일, 군수품 준비, 여가생활(음주, 바둑, 활쏘기 시합) 등의 내용이 중심으로 밝혀졌다. 본 연구는 한문 고전문헌의 하나인 〈난중일기〉를 텍스트 마이닝의 하나인 토픽모델링으로 분석해 보고자 한 점에서 의의가 있다고 할 수 있겠다. 나아가 이러한 토픽모델링 분석은 디지털화된 대량의 한문 고전문헌을 분석하는 데 유용한 방법이 될 수 있을 것이다. Text mining is a method of extracting meaningful words from a large amount of atypical texts based on natural language processing(NLP) and morpheme analysis. We can find latent word meanings in the context by analyzing the frequency of meaningful words. One of these text mining methods that has recently been in the spotlight is topic modeling. First of all, in this study, we will introduce the algorithm of topic modeling and try applying topic modeling to 〈nanjungilgi〉, which is a representative diary text in the classical Sino-Korean text. The purpose of this study is to examine the topics and the characteristics in 〈nanjungilgi〉, and to convert them into a network structure to understand its centrality and tendency. As a result, we can find 10 latent topics in 〈nanjungilgi〉, most of which were closely related to the contents of 〈nanjungilgi〉. In particular, among the 10 topics extracted from topic modeling analysis, 4 topics, such as topic 2, 3, 4, and 6, had very high interpretability. In addition, as a result of network analysis, topic 3 forms the core of the context of 〈nanjungilgi〉, which includes the work of normal public service, management and supervision of soldiers, preparation of munitions, leisure life(drinking, go game, archery matches, etc.). This study is meaningful in that it intends to analyze 〈nanjungilgi〉, which is one of the classical Sino-Korean text, using topic modeling. Furthermore, topic modeling analysis like this can be a useful method to analyze a large amount of digitized classical Sino-Korean text.

      • KCI등재후보

        지역신문기사 자료와 토픽모델링을 이용한 해변 관련 계절별 현안분석

        유무상,정수연,김건후,손철 한국지역학회 2018 지역연구 Vol.34 No.4

        The purpose of this study is to analyze the seasonal issues using the local newspaper articles with the keyword beach from 2004 to 2017. Topic modeling and Time series regression analysis based on open source programs were performed for analysis. Topic modeling results showed 35 topics in spring, 47 topics in summer, 36 topics in autumn and 35 topics in winter. The common themes were ‘beaches’, ‘festivals and events’, ‘accident and environmental issues’, ‘tourism’, ‘development and sale’, ‘administration and policy’ and ‘weather’. Time series regression analysis showed in the spring, 5 Hot-Topics and 2 Cold-Topic were found out of the 35 topics. In the summer, 6 Hot-Topics and 3 Cold-Topic were found out of the 47 topics. In the autumn, 4 Hot-Topics and 3 Cold-Topic were found out of the 36 topics. In the winter, 3 Hot-Topics and 3 Cold-Topic were found out of the 35 topics. And for each season, topics that do not fall into the Hot-Topic and Cold-Topic are classified as Neutral-Topic. In this study if seasonal uses are different such as beaches are deemed that seasonal topic modeling for analysis of regional issues will yield more useful results and enable detailed diagnosis. 본 연구의 목적은 2004년부터 2017년까지의 해변과 해수욕장을 키워드로 하는 지역신문기사를 이용하 여 계절별 현안을 분석하는 것이다. 분석을 위해 오픈소스 프로그램을 기반으로 한 토픽모델링과 시계열회귀분석 을 수행하였다. 토픽모델링 분석 결과 계절별 토픽은 봄 35개, 여름 47개, 가을 36개, 겨울 35개가 도출되었다. 모 든 계절에서 공통적으로 도출된 주제는 해수욕장, 축제·행사, 사건사고 및 환경문제, 관광지, 개발·분양, 행정· 정책, 날씨로 나타났다. 시계열회귀분석 결과 봄에는 35개의 토픽 중 5개의 상승 토픽과 2개의 하락 토픽이 도출 되었다. 여름에는 47개의 토픽 중 6개의 상승 토픽과 3개의 하락 토픽이 도출되었다. 가을에는 36개의 토픽 중 4 개의 상승 토픽과 3개의 하락 토픽이 도출되었다. 겨울에는 35개의 토픽 중 3개의 상승 토픽과 3개의 하락 토픽이 도출되었다. 그리고 각 계절별로 상승 토픽과 하락 토픽에 해당하지 않는 토픽은 중립 토픽으로 구분하였다. 본 연구를 통해 해변과 같이 계절별로 용도가 다른 경우에 지역현안에 대한 분석을 위해 계절별 토픽모델링을 진행 한다면 더욱 유용한 결과를 도출하고 이에 따른 세부적인 진단이 가능하다고 판단된다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼