RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        텍스트 마이닝을 이용한 “조 바이든(Joe Biden)”을 다루는 미국 언론 보도 연구

        이연동(Yeondong Lee),박현주(Hyeonju Park),조영석(Youngseuk Cho) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.2

        본 연구의 목적은 미국 대통령 선거에서 당선된 “조 바이든(Joseph Robinette Biden)”이 현지 언론에서 어떻게 보도되고 있는지를 살펴보는 것에 있다. 분석할 데이터는 친 민주당(진보)성향인 “워싱턴 포스트(Washington Post, WP)”와 다른 곳은 미국 신문사 중에서 비교적 친 공화당(보수적)성향인 “월스트리트 저널(Wall Street Journal, WSJ)”의 언론사의 사이트에서 “Biden”을 검색하여 나오는 기사에서 제목만을 수집하였다. 기사본문은 언론사 정기구독을 해야 열람이 가능하기에 불가피하게 이번 연구에서 제외하였다. 수집한 데이터는 크게 2가지 방법으로 분석하였다. 첫 번째 방법은 잠재적 디리클레 할당(Latent Dirichlet Allocation, LDA)에 기반한 주제 모형(topic model)로 언론사 별로 최적의 주제 개수를 찾아 이를 구성하는 단어를 해석하여 언론에서 어떤 주제를 위주로 “조 바이든”에 대해 다루는지 살펴보았다. 두 번째 방법은 비교 양적 분석(quantitative analysis comparison)으로 정서 점수(polarity score), 가장 긍정적-부정적 문장 찾기(most positive-negative sentence), 다양성(diversity), 분산성(dispersion)기법 등 총 4가지 분석 기법을 사용하였다. 종합적으로 결론을 내리자면 WP는 LDA로 만족할 만한 주제를 추출 하였으나, WSJ는 데이터의 크기가 비교적 작은 탓인지 결과가 명확하지 않아 해석이 어려웠다. 또한 친 민주적인 성향인 WP가 WSJ에 비해 “조 바이든”에 대해 우호적으로 보도하였으며, 이는 정서 점수 분석으로 확인 할 수 있었다. The purpose of this study is to examine how “Joseph Robinette Biden”, who elected for President of the United States. We collected the data to be analyzed from the pro-Democratic(progressive) propensity of the “Washington Post(WP)” and relatively pro-Republican(conservative) propensity the press of the “Wall Street Journal(WSJ)”. We searched for “Biden” on the site and collected only the title from the articles. Unfortunately, the body of the article was inevitably excluded from this study, as it was only possible to read the article by subscribing to the each press. We analyzed the collected data in two ways. The first way was a Topic Model based on Latent Dirichlet Allocation(LDA) which finds the optimal number of topics for each press and interprets the words that constitute them. So we looked to see if it was dealt with. The second way Quantitative Analysis Comparison using a total of 4 techniques, including Polarity Score, finding the most positive-negative sentences, Diversity, and Dispersion analysis. We can concluded comprehensively that in WP case was extracted satisfactory topics with LDA, but WSJ case couldn t be interpreted , the results were not clear. We can guess that this is due to the small size of data or fail to estimate the number of topics. In addition, the pro-democratic press WP reported favorably on Joe Biden compared to WSJ. This result could be assumed the main cause of polarity score analysis result.

      • KCI등재

        텍스트 마이닝을 이용한 KBO 구단별 언론보도 행태 연구 : 2020시즌 KBO구단 NC, 롯데를 중심으로

        이연동(Yeondong Lee),조영석(Youngseuk Cho) 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.1

        본 연구의 목적은 우리나라 스포츠 언론이 KBO 참가 구단에 대해 어떻게 보도하고 있는지를 살펴보는 것에 있다. 이를 위해 텍스트 마이닝 기법을 활용하여 KBO 참가 구단 10개를 보도하는 기사를 비교 분석을 진행할 예정이었으나 보다 명확한 비교를 위해 10개 구단 중 구단 역사, 인기, 성적 등에서 가장 이질적이면서 대표적인 라이벌 관계인 ‘NC 다이노스’와 ‘롯데 자이언츠’를 다루는 언론 기사만을 분석하기로 하였다. 연구에 사용할 데이터는 네이버 스포츠에서 서비스한 기사만을 수집하였다. 이는 인터넷 언론의 특성상 같은 기사를 여러 언론사가 복제하는 이른바 ‘복제 기사’를 최대한 배제하기 위한 것이다. 또한 수집한 기사를 전처리(preprocessing)하여. KBO와 관련 없는 기사를 최대한 배제하였으며, 혹시나 있을 중복 기사 또한 제거하여 데이터에 기인하는 노이즈(noise)를 최대한 제거하였다. 수집한 데이터는 크게 3가지 방법으로 분석하였다. 첫번째 방법은 시기별 가사량 추이 추적이다. 기사량을 월별로 파악하여 특히 높은 시기의 기사를 워드 클라우드(word cloud)로 해당 기간의 주제를 확인 할 것이다. 두 번째 방법은 감성 분석(sentiment analysis)으로 월별 감정 추이(trend), 두 구단의 긍정, 부정기사 비율차이를 검정하였다. 세 번째 방법은 네트워크 분석(network analysis)으로 단어 동시 출현 빈도 분석(co-occurrence analysis), 연이은 단어 쌍 분석(n-gram analysis)을 실시하여 단어 간 관계를 분석하였다. 종합적으로 결론을 내리자면 ‘NC’의 언론보도 행태는 주로 ‘성적’에 맞추어져 있는 경향이 강했다. 월별, 일별 기사량이 가장 많은 시기가 ‘한국시리즈‘가 열린 11월에 집중되어 있었으며, 단어 간의 관계를 파악하는 ‘단어 동시 출현 빈도 분석(co-occurrence analysis)’과 ‘연이은 단어 쌍 분석(n-gram analysis)’에서 이런 경향이 매우 두드러졌다. ‘롯데’의 언론보도 행태는 ‘선수‘와 ‘타 구단‘의 비중이 높았다. 일별 기사량이 가장 많은 상위 3개 날짜 모두 선수, 타 구단과 관련 있었으며, 이는 ‘단어 동시 출현 빈도 분석(co-occurrence analysis)’ 이러한 경향이 강하게 드러났다. The purpose of this study is to examine how Korean sports media are reporting KBO participating clubs. For the Study, we planned to conduct a comparative analysis of articles using text mining. ‘NC Dinos’ and ‘Lotte Giants’ were decided to analyze articles. Only articles provided by Naver Sports were collected for data to be used in the study. The collected data was analyzed in three main ways. The first way is to track the trend of article volume by period. Articles from a period when the monthly and daily article volume is particularly high will be checked by word cloud. The second way is sentiment analysis, examine including monthly sentiment trends and 2-sample test for equality of proportions in positive and negative. The third way is network analysis, and a total of three relational analyzes are performed: co-occurrence analysis, coefficient analysis, and n-gram analysis. In conclusion, the press reporting trend of ‘NC’ has a strong tendency to focus on ‘ranking’. The period with the highest amount of monthly and daily articles was concentrated in November, when ‘Korea Series’ was held. This trend was very prominent in ‘co-occurrence analysis’, ‘co-occurrence analysis’, ‘coefficient analysis’, and ‘n-gram analysis,’ which identifies the relationship between words. Press reporting trend of ‘Lotte’ had a high proportion of ‘players’ and ‘other clubs’. All of the top 3 dates with the highest daily article volume were related to players and other clubs, and this trend was stronger than ‘NC’ in ‘co-occurrence analysis’ and ‘co-occurrence analysis’.

      • KCI등재

        텍스트 마이닝을 활용한 감정 비율 단어 그래프

        김장민(Jangmin Kim),이연동(Yeondong Lee),조영석(Youngseuk Cho) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.5

        SNS, 논문, 설문조사 주관식 문항 답변과 같은 자연어로 이루어진 비정형 데이터는 텍스트 마이닝을 이용하여 분석 결과를 비교하거나 시각화하는 경우가 일반적이다. 년, 분기, 월, 요일과 같은 시간을 나타내는 임의의 구간을 설정하여 텍스트 데이터를 분석할 경우 전체 구간 중 어떤 구간에 데이터가 가장 많고 적은지, 전체 구간 중 구간별로 많이 사용된 감정 단어가 무엇인지, 특정 구간에 있는 텍스트 데이터가 상대적으로 얼마큼 많이 긍정보다 부정적으로 작성되었는지 판단해야 할 경우가 있다. 본 연구에서는 2019년부터 2022년까지 “지방대”와 관련된 뉴스 기사를 수집하기 위해 네이버에서 “지방대”라고 검색한 뒤 네이버 뉴스라고 표시된 기사만을 수집하여 위의 세 가지 정보를 한 번에 전달할 수 있는 감정 비율 단어 그래프를 제안한다. 감정 비율단어 그래프는 텍스트 데이터를 년, 분기, 월, 요일과 같은 시간을 나타내는 임의의 구간 기준으로 나눈 뒤 감성 사전에 있는 감정 점수를 텍스트 데이터에 부여하여 만들어진 그래프이다. 감정 비율 단어 그래프를 시각화할 때 파이계수도 같이 활용하여 단어를 표시한다면 특정 구간에서 감정 단어와 관련성이 가장 큰 단어가 무엇인지에 대한 정보를 추가로 전달할 수 있다. Unstructured data consisting of natural language such as SNS, papers, and questionnaire subjective question answers are generally compared or visualized using text mining. When analyzing text data by setting a random interval representing a time such as year, quarter, month, and day, it may be necessary to determine which interval has the most data, which sentiment words are used a lot for each interval, and how much text data in a particular interval is written negatively than positive. As a way to solve this problem, this study proposes an sentiment ratio word graph that can deliver the above three information at once. An sentiment ratio word graph is a graph created by dividing text data by a random interval standard representing time such as year, quarter, month, and day of the week and then assigning the sentiment score in the sentiment dictionary to the text data. When visualizing an sentiment ratio word graph, if you also use the pie coefficient to display words, you can further convey information about which words are most relevant to the sentiment word in a particular interval.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼