RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
          펼치기
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 환경 빅데이터 분석 및 서비스 개발 Ⅳ

        강성원,진대용,홍한움,고길곤,임예지,강선아,김도연 한국환경정책평가연구원 2020 사업보고서 Vol.2020 No.-

        Ⅰ. 서론: 연구의 필요성 및 목적 ❏ 정책수요 파악, 정책 시의성 평가, 정책 유효성 평가에 사용할 수 있는 ‘환경정책 모니터링 시스템(가칭)’ 구축 ㅇ 환경정책 모니터링 시스템: 기계학습의 장점인 예측의 정교함 및 실시간 데이터 수집-분석-결과 갱신 가능성을 환경정책 연구에 접목 ㅇ 환경오염 통합예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터베이스 3개 분석도구로 구성 - 환경오염 통합예측: 다양한 환경오염물질 오염도 예측 주기적 반복 - 실시간 환경 텍스트 분석: 환경 텍스트 정보추출 및 감성분석 주기적 반복 - 질문중심 데이터베이스: 주요 환경이슈 목록 - 이슈 관련 데이터 분석을 연계하여 주기적으로 결과 실시간 업데이트 ㅇ 정책수요 파악: 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악 ㅇ 정책 시의성 평가: 민간 텍스트 분석 결과와 환경정책 생산자 텍스트 분석 결과를 비교하여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부를 진단 ㅇ 정책 유효성 평가: 환경오염 예측 알고리즘의 정책 시행 전 예측치와 시행 후 실측치, 정책시행 전후 질문중심 데이터맵 분석 결과, 정책시행 전후 민간 텍스트 감성분류 결과 비교 ❏ 2020년 연구목표: ‘환경정책 모니터링 시스템’ 의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구내용을 확장 ㅇ 1기 (2017~2019년) 연구의 성과를 계승하면서 기계학습 방법론의 약점인 모형의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구 확장 - 1기 ‘기계학습 방법론’ 적용 연구 → 2기 ‘대용량 데이터’를 이용한 환경정책 연구 - 방법론: 1기 ‘기계학습’ → 2기 기계학습 + 전통적 통계학 기법(Frequentist/Bayesian) ㆍ모형의 단순화: 개별 변인이 분석 결과에 미치는 영향력 분석 기능 강화 ㆍ중장기 예측이 가능한 연구, 인과분석이 가능한 연구 추구 ❏ 연구내용: 환경정책 모니터링 시스템 구성요소 연구 4건, 개별연구 2건 수행 ㅇ 환경정책 모니터링 구성요소: 기존 구성요소의 방법론 및 분석 대상 확대 - 환경오염 예측 (2건): ‘미세먼지 고농도 현상 발생확률 추정’/‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’ - 환경 텍스트 분석: ‘환경 텍스트 감성 분석기 구축 및 활용’ - 질문 중심 데이터베이스: ‘기후변화 이슈 분석 및 질문중심의 데이터맵 도출’ ㅇ 개별연구: 수용체 연구 1건, 신재생에너지 연구 1건 추진 - 수용체 연구: ‘대기오염이 COPD 환자 사망에 미치는 영향’ - 신재생 에너지 연구: ‘태양광 발전 발전량 예측 알고리즘 구축’ Ⅱ. 미세먼지 고농도 현상 발생확률 추정 ❏ 서울지역 25개 측정소 초미세먼지 오염도가 ‘매우 나쁨’(76 이상)이 될 경우를 예측하는 Qunatile Regression 기반 통계모형 개발 ㅇ Qunatile Regression 모형을 Extreme value가 많은 자료에 적합하게 조정 - Extreme Conditional Qunatile Regression Model + Variable Selection (LASSO) ❏ 서울시 대기질 및 기상 정보를 이용하여 2015~2020년 봄 4시간 평균(1일 6개 시간대) PM<sub>2.5</sub> 오염도 예측 ㅇ 설명변수: 동시간대 및 1시간 이전 CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> 오염도, 강수량, 온도, 습도, 풍향, 풍속/1시간 이전 PM<sub>2.5</sub> 오염도 ㅇ 2015/01/01~2018/03/04 자료로 추정한 모형으로 2018/03/04~2020/05/29 예측 ❏ 측정소에 따라 Sensitivity 88.9%~100.0%을 달성하면서 False Positive는 6.0% ~17.1%로 억제 ㅇ Sensitivity = 매우 나쁨 예측/실제 매우 나쁨, False Positive = 매우 나쁨 예측/실제 나쁨 이하 측정 ㅇ 강동구(88.9%)를 제외한 24개 측정소에서 Sensitivity 90% 이상 ❏ RandomForest, Supporting Vector Machine, GRU 대비 11.3%p Sensitivity 향상 ㅇ 강서구 예측의 Sensitivity RandomForest(65%) < SVM(73.3%) < GRU(81.0%) < 본 연구 구축 모형(92.3%) ❏ 동시간대 CO 오염도, O<sub>3</sub> 오염도, PM<sub>10</sub> 오염도, 풍향, 1기 전 초미세먼지 오염도가 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 증가하는 경향 발견 ❏ 동시간대 강우량 및 풍속, 1기 전 강수량 및 풍속이 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 하락하는 경향 발견 Ⅲ. Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측 ❏ PM2.5 농도에 영향을 미치는 기상 및 공간정보 데이터를 반영하는 Graph-GRU 알고리즘 개발 ㅇ 과거 정보(temporal data)와 공간정보(spatial data)를 함께 활용할 수 있는 3차원 학습데이터세트 구축 - 예측대상: 남한지역 측정소 포함 0.125° × 0.125° Grid (12.5km × 12.5km)의 3-Hour PM<sub>2.5</sub> 오염도 평균값 - 입력자료: 대기오염 오염도, 기상, 고도 ㆍtraining set: 2015/01/01~2015/12/31 ㆍvalidation set: 2016/01/01~2016/12/31 ㆍtest set: 2017/01/01~2017/12/31 ㅇ 알고리즘: Graph - GRU 알고리즘 활용 - Node attribute: 기상 및 지리정보, 대기오염 - Edge attribute: 측정소 간 미세먼지 오염물질 배출량의 영향 ㆍ거리, 풍속, 풍향을 반영한 ‘영향’ 평가 함수 적용 - Adjacency Matrix: 거리: 300km, 고도: 1200m 미만 threshold 값 설정 ❏ 3시간~72시간 이후 표준제곱근오차 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup>로 억제 ㅇ 과거 정보 표준제곱근오차 축소 효과는 0.12μg/m<sup>3</sup>, 공간정보 표준제곱근오차 축소 효과는 0.16μg/m<sup>3</sup> Ⅳ. 환경 텍스트 감성분류기 구축 및 활용 ❏ 환경 SNS 데이터 수집 - 감성분석 - 결과 발신을 주기적으로 반복하는 ‘환경 텍스트 감성분류기’ 구축 ㅇ 2018~2019년 개발 기후변화 감성분류기를 환경 전 분야로 확장-준지도 학습을 이용하여 수집한 학습 데이터 14만 건을 추가하여 감성분류 정확도 제고 ㅇ 감성분류 결과의 추이를 시각화 하여 확인할 수 있는 web 기반 user interface 제공 ❏ 준지도 학습을 이용하여 학습 데이터를 기존 5만 건에서 18만 건으로 확대하여 감성 분류 정확도 제고 ㅇ 학습데이터 추가: 환경 SNS 텍스트 650만 건을 수집하고 기존 기후변화 감성분류기에 적용하여 긍정/부정 확률이 매우 높은 자료 14만 건을 추출 ㅇ 성능 향상: 기존 data 분류 정확도 1%p(78.7% → 79.7%) 향상 ❏ 환경정책 분야별 감성분류 Precision 66%~92%, Recall 73%~81% 달성 ㅇ Precision = 실제 부정/부정 판정, Recall(Sensitivity) = 부정 판정/실제 부정 ㅇ 폐기물 분야는 Precision, Recall이 모두 낮아서 지도학습을 통한 정확도 제고 필요 ❏ 기간, 검색어를 특정하여 구분한 SNS 데이터의 감성분류 결과를 실시간으로 확인할 수 있는 web 기반 user interface를 구축 ㅇ ‘부정’ 감성의 SNS 데이터로부터 키워드 빈도 및 네트워크를 추출하여 ‘부정’ 감정의 원인을 파악할 수 있는 기능을 부여 Ⅴ. 기후변화 이슈 분석 및 질문중심의 데이터맵 도출 ❏ 위계별로 정리한 기후변화 이슈와 각 이슈 관련 데이터 분석을 연계하고 데이터 분석 결과를 실시간으로 업데이트 하는 데이터맵 구축 ㅇ 텍스트 분석에서 이슈를 도출하는 이슈 선정 모듈과 데이터를 연계하는 데이터 분석 모듈을 구축 ❏ 이슈 선정 모듈: 기후변화 관련 텍스트 수집 → 주제 추출 → 질문 식별 → 질문 구조화 수행 ㅇ 텍스트: 2012~2019년 연구보고서/고위공직자 연설문/보도자료/국회회의록 /국회기후변화포럼/Dbpia논문 국문 초록/네이버 신문(12개 일간지) ㅇ 주제추출: 상관토픽모형(CTM)을 사용한 10개 주제식별 및 주제 간 관계 도출 ㅇ 질문식별: 텍스트 랭크(TextRank)로 추출한 중요 문장을 정제하여 개별 질문 도출 ㅇ 질문 구조화: 개별 질문을 주제에 할당하고 주제 간 관계를 반영하여 질문을 구조화 - 주제 간 관계: 상관토픽 모델링 상관계수, 동적 시간 와핑(dynamic time warping) 시계열 패턴 유사도, 전문가 설문조사 반영 - 5개 범주로 재분류: 기후변화 공동대응/기후변화 적응/온실가스 감축/에너지와 환경/도시환경과 시민 ❏ 데이터 분석 모듈: 명제화 된 이슈에 대한 정보를 제공할 수 있는 data source와 분석모형 연계 ㅇ 관련 자료의 실시간 update가 가능하도록 자료 원천과 직접 연계하는 방식을 사용 ㅇ 시계열 자료의 절대 추세 및 계절변동 조절 추세 분석 Ⅵ. 대기오염이 COPD 환자 사망에 미치는 영향 ❏ 사망 전 1년, 5년 간 대기오염 노출이 COPD 환자 사망위험에 미치는 영향 분석 ㅇ 분석대상: 2009~2018년 전국 40세 이상 COPD 환자 ㅇ 분석기법: Kriging과 Cox Proportional Hazard model - Kriging을 사용하여 측정소 오염도 자료로부터 읍면동 오염도 추정 ❏ 국민건강보험공단 맞춤형 DB와 대기오염 측정 데이터를 결합하여 데이터 생성 ㅇ 환경오염 관련 독립변수: event 발생/종료 1년 전, 5년 전 거주지 평균 PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> 오염도 - PM<sub>10</sub>: 일평균, O3: 일별 최고 8시간 평균, NO<sub>2</sub>: 일평균 (O<sub>3</sub>, NO<sub>2</sub>의 경우 ppb를 ㎍/m3으로 변환) ㅇ 개인 특성 관련 독립변수: 성별, 연령, 소득, 동반질환지수, COPD 외래중증악화, BMI, 흡연 ㅇ 종속변수: 사망을 1, 생존을 0으로 표기한 사망 여부 ❏ 사망 전 1년, 5년 간 O<sub>3</sub> 오염도가 높은 지역에서 산 COPD 환자는 사망위험이 소폭 증가하였음을 확인 ㅇ Hazard Ratio of O<sub>3</sub>: 1.003(1년), 1.004(5년) Ⅶ. 딥러닝 기반 태양광발전량 예측 ❏ 기상정보를 활용하여 영암 F1 발전소 태양광발전량 예측 LSTM 알고리즘 개발 ㅇ 1시간, 12시간 평균 낮 시간대 발전량을 예측: 주기성이 심한 비정상(non-stationary) 시계열 ❏ 1시점 이전 태양광발전량 및 기상정보를 입력자료로 사용 ㅇ 기상정보: 목포 기상관측소 시간별 기온, 강수량, 습도, 일사량, 전운량 ㅇ 2017.1.1~2019.6.30 자료 중 2017.1.1~2018.6.30 자료를 학습자료로 사용하여 모형을 추정하고 2018.7.1~2019.6.30 자료를 예측 ❏ RNN 기반 LSTM 알고리즘을 사용하여 모형을 구축하고 직전 3시점 이동평균(Moving Average) 및 ARIMA 모형과 예측력 비교 ❏ 1시간 예측 평균제곱근오차를 표준편차의 36.9%, 12시간 평균 예측 평균제곱근오차는 표준편차의 51.1%로 억제 ㅇ 직전 3시점 이동평균 예측오차/표준편차의 71%, ARIMAX 예측오차/표준편차의 45% 수준으로 예측오차/표준편차를 억제 Ⅷ. 연구성과 및 정책적 시사점 ❏ 연구성과: 환경정책 모니터링 시스템 구성요소 구축 및 신규 성과 축적 ㅇ 환경오염 종합예측 시스템 구성요소 확대 및 심화 - 환경오염 종합예측 알고리즘: 설명 가능성을 보완하고 예측 시차를 연장하여 활용 가능성을 제고 ㆍ‘미세먼지 고농도 발생확률 추정’: coefficient estimation이 가능하면서 예측성과가 Deep Learning 모형과 경쟁력 있는 Quantile Regression 모형을 개발 ㆍ‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’: 12시간 예측오차를 2019년 개발 CNN 기반 모형의 1시간 예측오차와 유사한 7.64g/m<sup>3</sup>로 유지 - 실시간 환경 텍스트 분석 알고리즘: 환경 전 분야 실시간 SNS 감성 분석 및 부정 감성 원인 분석 가능 - 질문중심 데이터맵: 미세먼지에 이어 기후변화로 적용 범위를 확대 - 정책 현황 파악 상황판 기능 ㅇ 3개 알고리즘, 1개 질문중심 데이터맵 신규 구축 - 초미세먼지 고농도 현상 예측 Quantile Regression 모형, 초미세먼지 오염도 예측 Graph-GRU 모형, 태양광발전량 예측 RNN 모형/기후변화 Data Map ㅇ 텍스트 분석 인프라 확장: 실시간 환경 텍스트 분석 Web Interface 개발 ❏ 정책적 시사점: 환경정책 모니터링 기능을 강화하였고 대기오염 건강위험을 정량화하였으며 신재생에너지 발전 인프라의 기초를 제공 ㅇ 환경정책 모니터링 기능 강화: 정책 현황 파악 및 선제적 정책개입 관련 정보 제공 기능 강화 - 실시간 환경 텍스트 분석: 국민 감성이 부정적인 환경정책 분야를 실시간으로 파악 가능 - 기후변화 질문중심 데이터맵: 기후변화 현황 실시간 파악 기능 제공 - ‘기후변화 상황판’ 기능 - 초미세먼지 오염도 예측의 시차를 연장하고 기초적 인과분석 기능 확보 ㆍGraph-GRU 모형: 예측 시차를 연장하여 선제적 정책 개입이 가능한 시차를 확보 ㆍQuantile Regression 모형: 향후 오염원 및 정책 관련 Data를 추가하면 정책영향 분석 도구로 활용 가능 ㅇ 대기오염 장기노출의 건강위험을 정량화 하여 대기오염 억제정책의 정량적 편익 도출 근거 마련 ㅇ 태양광발전량 예측 기능을 강화하여 신재생에너지 발전에 필요한 스마트 그리드 구축 인프라 제공 Ⅰ. Background and Aims of Research ❏ We continue to build up ‘Environmental Policy monitoring System’ dedicated to periodically identify environmental policy needs and assess timeliness and effectiveness of environmental policy as we did last year ㅇ Environmental Policy monitoring System apply prediction accuracy and real-time data collection-analysis-diffusion capability of Machine learning to environmental policy research ㅇ Our ‘Environmental Policy monitoring System’ consists of three components: ‘Deep Learning Based Pollution Prediction algorithm’, ‘Real Time Environmental Text Analysis algorithm’, ‘Issue Based Database’ - Deep Learning Based Pollution algorithm: Periodically update various pollution prediction - Real Time Environmental Text Analysis algorithm: Periodically summarise environment related text data and sentiment analysis ㆍText summary: abstract keywords and keyword network from texts produced by environmental policy provider and environmental policy consumers ㆍSentiment analysis: Real-time collection and sentiment analysis of SNS related to all subfield of environment - Issue Based Database: Key environmental issue network connected with data analysis for each issue updating real-time ㅇ Policy need Identification: Detect environment policy areas and regions in need of intervention from the predictions of ‘Deep Learning Based Pollution Prediction algorithm’, the text analysis results of ‘Real Time Environmental Text Analysis algorithm’, and the data analysis results of ‘Issue Based Database’ ㅇ Timeliness assessment: check if the temporal pattern of keywords analysis result on policy provider text and the temporal pattern of keywords analysis results on policy consumer are consistent ㅇ Effectiveness assessment: Check Pollution improvement, SNS Sentiment improvement, and Environmental Issue improvement after policy execution ❏ In 2020, we tried to improve interpretability of ‘Environmental Policy monitoring System’ ㅇ While utilizing the advantage of deep learning we found in period 1(2017~2019), we tried to reduce complexity and strengthen interpretability ㅇ In period 1, we focused on ‘apply everything related to big data analysis to Environment policy research’ From 2020, we are going to focus on ‘Environmental Policy Research using large scale data’ ㅇ Regrading methodology, we stick to machine learning in period 1. From 2020, we are going to be more flexible and try to include traditional frequentist and Bayesian statistical methods ㆍWe are going to use simpler models to improve our understanding on feature importance ㆍWe are going to build models capable of longer -term prediction and models with more interpretability ❏ In 2020, we build four algorithms for ‘Environment Policy Monitoring System’ and perform two independent researches ㅇ For ‘Environment Policy Monitoring System’, we expand the methodology and scope of previous components - We added two fine particle estimation algorithms in `Fine particle high concentration event prediction’ and ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’ - In ‘Environmental text sentiment analysis algorithm’, we expanded sentiment analysis of environment related SNS to all subfield of environment - In ‘Climate change issue based database’, we constructed new issue based database on climate change ㅇ On two important issues that cannot be integrated to ‘Environment Policy Monitoring System’, we did independent research - In ‘The impact of air pollution long-term exposure to mortality of COPD patients’,we estimated the effect of long-term exposure of air pollution on the death risk of COPD patients using NHI (National Health Insurance) Data - In ‘Solar electricity generation prediction’, we constructed an RNN based algorithm predicting solar electricity generation of F1 power plant Ⅱ. Fine Particle High Concentration Event Prediction ❏ We built a quantile regression based prediction algorithm to predict ‘extremely bad(76+)’ event of PM<sub>2.5</sub> in 25 air pollution monitoring station in Seoul ㅇ We adjusted quantile regression model to analyze data with extreme values - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution decreases when contemporary and 1 time ahead rainfall, windspeed increases Ⅲ. PM<sub>2.5</sub> Estimation and Prediction Using Graph-GRU Algorithm ❏ We built Graph-GRU albright utilizing weather and geography information to prediction PM<sub>2.5</sub> pollution ㅇ We construct a 3 dimension dataset consists of temporal and spatial data - Our dependent variable is 3 hour average PM2.5 concentration of 0.125° × 0.125° Grid (12.5km x 12.5km) containing air-pollution monitoring stations in South Korea - Our independent variables are weather data, air pollution data and height data ㆍWe trained our model with data from Jan. 1st. 2015 to Dec. 31th. 2015, validated with data from Jan. 1st. 2016 to Dec. 21th. 2016, and tested with data from Jan. 1st. 2017 to Dec. 21th. 2017, ㅇ We used Graph-GRU algorithm - For node attributes, we used weather data, spacial data, and air pollution data - To measure edge attributes, we constructed a function evaluating impact of air pollutant emission between air pollution monitoring stations ㆍThis function evaluates impact of air pollutant emission between air pollution monitoring stations using distance, wind speed, and wind direction - For adjacency Matrix, we used threshold of distance of 300km or height of 1,200m ❏ RMSE of our model in 3 hour~72 hour prediction was 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup> ㅇ Temporal information reduced RMSE by 0.12μg/m<sup>3</sup>, and spacial information reduced RMSE by 0.16μg/m<sup>3</sup> Ⅳ. Environmental Text Sentiment Analysis Algorithm ❏ ‘Environmental text sentiment analysis algorithm’ periodically performs collection-analysis-result distribution on SNS text regarding environment ㅇ We expanded climate change sentiment analysis algorithm we build in 2018~2019 to all subfield of environments, and trained with new 140 thousands SNS text training data labeled by semi-supervised learning to improve accuracy ㅇ We constructed web based user interface to visualize sentiment analysis results over time ❏ To improve accuracy, we increase the size of our training data from 50 thousand to 180 thousand using semi-supervised learning ㅇ We collected 6.5 million SNS text, and applied 2018~2019 version climate change sentiment analysis algorithm. We collected 140 thousands cases with high positive/negative sentiment score, which we added to training data. We kept 10 thousand cases for testing ㅇ With this new training data, the accuracy of sentiment analysis improved by 1%p: From 78.7% to 79.7% ❏ Sensitivity of our newly trained model was 66~92%, and Recall of our newly trained model was 73%~81%, according to subfield ㅇ ‘Waste’ field had the lowest Sensitivity and Recall. This field needs supervised learning approach to improve overall accuracy ❏ We built web based user interface to visualize sentiment analysis results with user option of keyword search and period choice ㅇ Our user interface also abstract keyword network of SNS of negative sentiment, which should give insights on the cause of negative sentiment Ⅴ. Climate Change Issue Based Database ❏ We built a datamap on Climate change consists of hierarchically organized climate change issue network and data analysis linked to each issue in the network. This datamap is capable of real-time data analysis update ㅇ We build issue collection module to extract issues from text data and data analysis module to link data analysis with extracted issues ❏ Issue collection module execute ‘Climate change text collection → Topic Extraction → Issue Identification → Issue Network Organization’ process ㅇ Text Collection: Reports from government sponsored research institutes/ Formal speeches from higher-ranking official/Press Release from government/Assembly meeting transcripts/Materials from Climate Change From in Assembly/DBpia academic paper abstracts/NAVER paper articles of 12 major papers from 2012 to 2019 ㅇ Topic Extraction: Apply Correlated Topic Model to extract 10 topics and correlation between topics ㅇ Issue Identification: Derive issues from key sentences extracted from TextRank algorithm ㅇ Issue Network Organization: Assign each issue to topics and organize issues according to the relationship between topics - We deduced relationship between topics combining three sources of informations - (1) Correlation coefficient from Correlated Topic Model (2) Similarity of time series frequency pattern from Dynamic Time Warping (3) Specialist Survey - We re-categorized 10 CTM topics into 5 Categories: Climate Issue cooperation/Climate Change adaptation/Greenhouse Gas Reduction /Energy and Environment/Urban Environment and Citizen ❏ Data analysis module attach data source and data analysis result to each issue in Climate Change Issue Network - We linked each data analysis to data source so that we can update data analysis in real-time Ⅵ. The Impact of Air Pollution Long-Term Exposure on the Mortality of COPD Patients ❏ We estimate the impact of 1-year and 5-year air pollution exposure on the mortality of COPD patients ㅇ We analyzed medical data of COPD patients older than 40 diagnosed from 2009 to 2018 ㅇ We used kriging to convert air pollution monitoring station data to small local district (Up. Myun.Dong) data and applied Cox Proportional hazard model to small local district data ❏ We combined NHI(National Health Insurance) individual patient data and air-pollution monitoring station data ㅇ For air pollution exposure variable, we used 1-year and 5 year average of small local district PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> pollution - For PM<sub>10</sub> and NO<sub>2</sub>, We used daily average. For O<sub>3</sub>, we used average of maximum 8 hours for each day (We converted the unit of O<sub>3</sub> and NO<sub>2</sub> from ppb to ㎍/m3) ㅇ From NHI individual medical data, we obtained gender, age, income percentile, CCI, COPD exacerbation, smoking status ㅇ For dependent variable, we used dummy variable assigning 1 for death and 0 for survival ❏ We found that COPD patients exposed higher O<sub>3</sub> 1-year or 5-year had higher risk of death ㅇ Hazard ratio of 1 year O<sub>3</sub> exposure was estimated as 1.003. Hazard ratio of 5 year O<sub>3</sub> exposure was estimated as 1.004 Ⅶ. Solar Electricity Generation Prediction ❏ We developed an LSTM algorithm predicting electricity generation of Yung -am F1 solar power plant ㅇ We predicted hourly electricity generation and 12 hour average of electricity generation. The electricity generation was non-stationary time-series ❏ For independent variables, we used electricity generation and weather data with 1 lag ㅇ For weather data, we used hourly temperature, rainfall, humidity, solar insolation, Total Cloud amount from Mokpo weather monitoring station ㅇ We used data from Jan. 01.2017 to Jun. 30. 2018 for training, and data from Jun. 30. 2018 to Jun. 30. 2019 for testing ❏ We built and RNN based LSTM algorithm and compared RMSE with ARIMA model and 3-lag moving average ❏ The RMSE of our model was 36.9% of standard deviation in 1 hour prediction and 51.1% in 12 hours average prediction ㅇ The RMSE to standard deviation of our model was 71% of the RMSE to standard deviation ratio of 3-lag moving average, and 45% of RMSE to standard deviation of ARIMA model Ⅷ. Conclusion and Suggestions ❏ Summarizing, we improved ‘Environmental Policy Monitoring System’ and added some new results ㅇ We supplemented and improved components of ‘Environmental Policy Monitoring System’ - ‘Deep Learning Based Pollution Prediction algorithm’: We improved interpretability and extended prediction lag ㆍ ‘Fine particle high concentration event prediction’: We built a Quantile regression model which can produce coefficient estimates for independent variables and is capable of prediction as accurate as machine learning algorithm ㆍ ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’: We achieved 7.64g/m<sup>3</sup> 12 hour prediction RMSE, which is equivalent to 1 hour prediction RMSE of our CNN based algorithm in 2019 - ‘Real Time Environmental Text Analysis algorithm ’: We expanded realtime sensitivity analysis and keyword network abstraction of negative sentiment for all environmental policy subfield - ‘Issue Based Database’: We improve policy monitoring scope from fine particle issue (2019) to climate change (2020) ㅇ We developed three new algorithms and one new issue based database - Fine particle high concentration event prediction quantile regression model, PM<sub>2.5</sub> pollution prediction Graph-GRU model, RNN based Solar electricity generation prediction algorithm/ climate change datamap ㅇ We expanded scope of environmental text analysis: Real-time environmental text analysis web interface ❏ For policy application, we strengthen environmental policy monitoring capability, quantify the health risk of air pollution, and provided items for the infrastructure of renewable energy ㅇ Environmental Policy monitoring: We improved policy need identification and information generation for precautionary policy intervention - Now our ‘Real Time Environmental Text Analysis algorithm’ is capable of identifying subfield of environment regarding which general public has negative sentiment. - Now our ‘Climate Change datamap’ is capable of real-time assessment of climate change issues - Now our ‘Deep Learning Based Pollution Estimation algorithm’ is capable of extending prediction lag of PM<sub>2.5</sub> and providing basic causality analysis for high concentration event of PM<sub>2.5</sub> ㆍGraph-GRU extended prediction lag. We can use this time for preventive policy intervention ㆍQuantile Regression model can be used policy evaluation tool by extending control variables and policy related variables ㅇ We provided quantified risk of air pollution on COPD patients, which can be used to quantify benefits of air-pollution reduction policy ㅇ We provided solar electricity generation prediction algorithm, which can be used for renewable energy smart-grid infrastructure

      • 기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구

        진대용 ( Daeyong Jin Et Al. ),강성원,최희선,한국진,김도연 한국환경정책평가연구원 2018 기후환경정책연구 Vol.2018 No.-

        본 연구는 환경 텍스트 데이터를 활용하여 주요 기후환경 이슈를 분석하기 위한 텍스트 마이닝 방법론의 활용방안을 탐색하였다. 환경 이슈를 분석하기 위해 활용할 수 있는 환경 텍스트들을 파악하고 각 텍스트에 대해 텍스트 마이닝 또는 빅데이터 분석 방법론을 활용하여 어떤 결과를 도출할 수 있는지 파악 및 점검하였다.먼저 텍스트 마이닝의 개념을 정의하고 환경(정책)연구에서 텍스트 마이닝 기법들의 활용 현황을 파악하였다. 텍스트 마이닝은 텍스트 데이터로부터 의미 있는 정보를 추출하는 과정이 다. ICT의 발전과 비정형 텍스트 분석을 위한 다양한 텍스트 마이닝 방법론이 등장함에 따라 대용량의 텍스트 데이터들로부터 과거의 주요 이슈를 파악하고 이들의 동향을 분석하여 미래 주요 이슈들의 동향에 대한 예측하는 연구가 다양한 분야에서 수행되고 있고 의미 있는 결과를 도출하고 있다. 환경(정책)연구에서도 텍스트 마이닝을 활용하여 연구 결과를 도출하고 있다. 하지만 다양한 분석을 통해 여러 관점에서 결과를 도출하는 과정의 중요성보다 결과 분석 및 해석에 초점이 맞춰져 있고, 연구를 수행하는 과정에 활용된 데이터나 소스코드 등은 다시 활용되지 않아 데이터 분석 연구의 장점을 충분히 발휘하지 못한 부분이 있다. 본 연구에서는 텍스트 마이닝의 강점인 데이터 분석의 자동화와 지속적인 활용성 측면을 극대화하기 위해 노력을 하였다. 본 연구에서는 이 목표를 달성하기 위해 다양한 환경 텍스트 데이터 수집 및 분석 기능을 포함시킨 환경 텍스트 분석 프레임워크를 구축하였으며, 모든 소스코드를 공개하고 데이터 분석에 익숙하지 않은 사용자를 위해 주요 기능을 웹 서비스 형태로 구현하였다.다음으로는 구축된 환경 텍스트 분석 프레임워크를 활용하여 환경 텍스트 데이터의 수집 및 분석을 수행하였다. 먼저 네이버 환경뉴스, 환경부 보도자료, 환경부 e-환경뉴스, 환경백서 데이터를 수집하는 알고리즘을 구축하고 주기적으로 크롤링을 수행하여 데이터 서버에 저장하도록 하였다. 또한 이를 바로 데이터 분석에 활용하여 최신 데이터를 분석할 수 있도록 하였다.본 연구에서는 기후환경 이슈에 대한 분석을 집중적으로 수행하였는데, 각 텍스트 데이터를 분석하여 개별 결과를 도출하였다. 환경 전체 분야를 보았을 때 ‘미세먼지’, ‘폭염’, ‘친환경’, 등의 키워드가 상대적으로 증가세를 보이고 있었으며, ‘기후변화’ 키워드의 경우에는 전체적으로 줄어드는 경향을 보이고 있었다. 이는 ‘기후변화’라는 키워드보다는 ‘기후변화’ 중 재난/재 해(폭염, 한파 등)와 같은 세부현상메 대한 기사가 많아졌고, ‘기후변화’ 키워드를 포함하지 않는 문서가 많아진 것에 기인한 것으로 판단된다. 세부적으로 네이버 환경뉴스의 경우 전반적으로 기후변화에 관련 정보 및 피해(폭염, 한파, 홍수 등)에 관련된 이슈들을 많이 포함하고 있어 전반적인 기후환경 이슈 분석에 유용함을 확인할 수 있었다. 네이버 환경뉴스에서 ‘기후 변화’의 근본적인 내용인 지구온난화현상이나 온실가스 감축 등과 같은 내용이 시간이 지날수록 줄어들고 최근에는 ‘폭염’, ‘가뭄’, ‘한파’ 등과 같은 세부현상들의 키워드를 포함하는 문서가 상대적으로 많아지는 추세를 보이고 있었다. 환경부 보도자료 및 e-환경뉴스에서는 기후변화 세부현상(폭염, 한파, 폭설 등) 하나하나에 대해 거의 다루고 있지 않았으며, ‘기후변화’라는 큰 틀에서 정책 논의나 앞으로의 방향에 대한 내용들을 포함하고 있어서 기후변화에 있어 근본적인 내용에 대한 이슈 및 흐름을 파악할 수 있는 장점이 있었다. 환경백서의 경우 키워드의 수는 많지 않았지만 ‘미세먼지’, ‘폭염’ 등 최신 주요 키워드들이 뚜렷하게 나타나고 있고, 다른 문서들과 달리 기후변화 키워드는 계속 증가하는 추세를 보이고 있어 실제 기후변화 문제 해결을 위한 많은 정책 논의가 있는 것으로 보인다.본 연구에서 활용한 LDA, Word2Vec 문장단위 키워드 분석, 문서단위 키워드 분석, 키워드 네트워크 분석, 문서 요약 등의 방법론은 앞으로 다양한 환경 텍스트에 포함된 이슈 발굴 및 분석에 유용하게 활용될 것으로 보인다. 또한 구축된 환경 텍스트 분석 프레임워크 및 웹 서비스를 활용할 수 있는 방안을 기술하였고, 연구 결과를 분석하여 도출된 결과를 활용한 환경 정책 사례를 제시하였다.본 연구의 결과물은 향후 환경 정책연구자들이 관련 정책을 수립할 때 데이터에 기반한 근거로 활용할 수 있으며, 앞으로 보다 다양한 텍스트 분석을 통해 민간, 언론, 환경연구자, 정책 공급자 등 다양한 관점을 고려한 정책 수립에 기여할 것으로 기대한다. In this study, we look at the application of text mining methodology to analyze major climatic environmental issues using environmental text data. We investigate environmental texts that can be used to analyze environmental issues and for each text, we understand and check what results could be derived.First, we define the concept of text mining and understand the usage of it in environment (policy) research. Text mining is the process of extracting meaningful information from text data. With the advance of ICT technology and various text mining methodologies for unstructured text analysis, research to identify trends in major issues from large-scale text data and to analyze trends in order to predict trends in future major issues is being conducted across various fields and has meaningful results. However, the focus is on the results analysis and interpretation rather than on the importance of the process of deriving the results from various perspectives through various analyses. Data and source code used in the process of research are not reused, so some of the advantages of data analysis is not fully demonstrated. In this study, we tried to maximize the automation and continuous utilization of data analysis, which is the strength of text mining. In this study, we constructed an environment text analysis framework that includes various environmental text data collection and analysis functions for all users who are unfamiliar with data analysis. We have released all the source code and implemented the key functions as a web service so that users who are not familiar with data analysis can use it.Next, we collected and analyzed environmental text data using the built environment text analysis framework. We constructed an algorithm to collect data from Naver environment news,Ministry of Environment press releases, Ministry of Environment e-environment news, environmental white papers and periodicals. Its crawls the data and stores it on the data server. In addition,the data is used to enable analysis of the latest data.Next, we constructed algorithms for analyzing the environmental text data, and results of the analysis were derived from this. As a result, keywords such as 'fine dust’,'heat waves’, and ’environmentally friendly1 had relatively increased, while the keyword 'climate change' showed a tendency to decrease overall. This seems to be due to a lot of articles about the detailed phenomena of ’climate change1 such as 'heat waves’,and ’cold waves' rather than the keyword 'climate change’. In detail, Naver’s environmental news includes a lot of issues related to climate change information and detailed phenomena (heat, cold wave, flood, etc.), and is useful for analyzing overall climate environment issues. The content for ’global climate change’,such as the phenomenon of global wanning and greenhouse gas reduction, has decreased over time. On Naver environmental news,the fundamental content for climate change, such as global warming and greenhouse gas reductions, declined over time and in recent years, there have been a relatively large number of documents containing keywords related to detailed phenomena such as 'heat waves’, ’drought’ and ’cold waves’. The Ministry of Environment’s press release and the Ministry of Environment e-environment news did not cover every detail of climate change phenomenon (heat,cold waves, heavy snow, etc.). It includes policy discussions and the future direction on the major trend of climate change, so it has an advantage in understanding the issues and flow of fundamental content in climate change. In the case of environmental white papers, the frequency of keywords is not high, but the latest important keywords such as ’fine dust’ and 'heat waves’ are showing an increasing trend. Unlike other documents, the keyword of ‘climate change9 is also continuously increasing. There appears to be a lot of policy discussion on climate change issues in the environmental white papers.Methodologies utilized in this study such as LDA, Word2Vec, sentence-based keyword analysis, document-based keyword analysis, keyword network analysis, and document summarization can be used to identify and analyze various climate issues in the future. In addition, we described how to utilize the built environment text analysis framework and web service, and presented environmental policy examples using the results of the analysis.Based on this research, environmental policy researchers are expected to be able to establish policies based on data, and contribute to the establishment of policies that take into account various perspectives such as private citizens, the media, environmental researchers, and policy providers through various text analyses.

      • KCI등재

        한국어 듣기 교재에 대한 텍스트기호학적 분석

        백승주 중앙어문학회 2022 語文論集 Vol.91 No.-

        In contrast to other classes where learners can check their learning content when they need it, it is difficult in listening classes. The only time learners can check the ‘listening content’ is while performing listening activities. Due to these limitations, the composition of listening textbooks is more difficult than in other textbooks. The listening textbook’s text is the only clue learners can rely on for understanding listening content, whereas for instructors, it is the only tool that can provide learners with input and output opportunities. In this study, we investigated how these restrictions are overcome in Korean listening subject textbooks from the perspective of text-semiotic analysis. To this end, the two textbooks were compared and analyzed. Text-semiotic analysis was performed following two procedures. The first analysis procedure is the analysis of ‘communication participants and the acceptance pattern of text.’ This analysis includes ‘classroom situation analysis,’ ‘class situation analysis,’ and ‘teacher and learner situation analysis.’ The second analysis procedure is ‘text structure analysis,’ which includes ‘separate partial text from the full text and superficial communication function analysis,’ ‘Analysis of the usage patterns and relationships of language signs and visual signs,’ and ‘interpretation of partial text function and teaching learning intention according to the class stage.’ The analysis revealed that the two textbooks were based on the same teaching method and listening model, but there were differences in various points. In the case of textbook A, one listening content was designed to be taught and learned through 10 partial texts, whereas in the case of textbook B, two listening contents were composed of five partial texts. It was confirmed that the patterns of coherence and cohesion between the partial texts of textbook A and textbook B appeared differently. Textbook A provides learners with abundant input and output opportunities. However, in the case of textbook B, it was found that coherence and cohesion were weak, and thus the provision of opportunities for input and output is insufficient. 필요할 때 교수학습 내용을 확인할 수 있는 다른 과목과는 달리 듣기 수업은 교수학습내용을 확인하는 것이 어렵다. ‘듣기 내용’은 듣기 활동을 수행할 때만 확인할 수 있기 때문이다. 이런 제약 때문에 듣기 교재의 구성은 다른 교재에 비해 더 까다롭다. 듣기 교재텍스트는 학습자에게는 의존할 수 있는 유일한 단서이고, 교수자에게 입력과 출력 기회를제공할 수 있는 유일한 도구이다. 이 연구에서는 한국어 듣기 과목 교재에서 이런 제약을어떤 방식으로 극복하고 있는지를 텍스트기호학의 관점에서 살펴보았다. 이를 위해 의사소통 중심 교수법과, 하향식 듣기 모형을 기반으로 하는 두 교재를 비교 분석하였다. 텍스트기호학적 분석은 크게 두 가지 절차를 따라 수행되었다. 첫 번째 분석 절차는 ‘의사소통 참여자 및 텍스트의 수용 양상’ 분석이다. 이 분석에는 ‘교실 상황 분석’, ‘수업 상황 분석’, ‘교사 및 학습자 상황 분석’이 포함된다. 두 번째 분석 절차는 ‘텍스트 구조 분석’으로이 절차 안에는 ‘부분텍스트 판정 및 표면적 의사소통 기능 분석’, ‘언어기호 및 시각기호의 사용 양상 및 관계 파악’, ‘수업 단계에 따른 부분텍스트의 기능 및 교수 학습 의의 분석’이 포함된다. 분석 결과 두 교재가 같은 교수법과 듣기 모형에 기반하고 있지만, 여러가지 지점에서 차이가 있다는 것을 확인할 수 있었다. A 교재의 경우 하나의 듣기 내용을부분 텍스트 10개를 통해 교수 학습하도록 설계되어 있었지만, B 교재의 경우 두 개의 듣기 내용을 5개의 부분 텍스트로 구성하고 있었다. A 교재와 B교재의 부분 텍스트들 간의응집성과 응결성의 양상이 다르게 나타난다는 점을 확인할 수 있었다. A 교재는 부분 텍스트들이 형식적으로나 내용적으로 긴밀하게 결속되어 있어, 학습자에게 풍부한 입력과출력 기회를 제공할 수 있었다. 그러나 B교재의 경우는 응집성과 응결성이 약하고, 따라서입력과 출력의 기회 제공이 부족한 것으로 나타났다.

      • KCI등재

        텍스트 마이닝을 이용한 감정 유발 요인‘Emotion Trigger’에 관한 연구

        안주영,배정환,한남기,송민 한국지능정보시스템학회 2015 지능정보연구 Vol.21 No.2

        The explosion of social media data has led to apply text–mining techniques to analyze big social media data in a more rigorous manner. Even if social media text analysis algorithms were improved, previous approaches to social media text analysis have some limitations. In the field of sentiment analysis of social media written in Korean, there are two typical approaches. One is the linguistic approach using machine learning, which is the most common approach. Some studies have been conducted by adding grammatical factors to feature sets for training classification model. The other approach adopts the semantic analysis method to sentiment analysis, but this approach is mainly applied to English texts. To overcome these limitations, this study applies the Word2Vec algorithm which is an extension of the neural network algorithms to deal with more extensive semantic features that were underestimated in existing sentiment analysis. The result from adopting the Word2Vec algorithm is compared to the result from co-occurrence analysis to identify the difference between two approaches. The results show that the distribution related word extracted by Word2Vec algorithm in that the words represent some emotion about the keyword used are three times more than extracted by co-occurrence analysis. The reason of the difference between two results comes from Word2Vec’s semantic features vectorization. Therefore, it is possible to say that Word2Vec algorithm is able to catch the hidden related words which have not been found in traditional analysis. In addition, Part Of Speech (POS) tagging for Korean is used to detect adjective as "emotional word" in Korean. In addition, the emotion words extracted from the text are converted into word vector by the Word2Vec algorithm to find related words. Among these related words, noun words are selected because each word of them would have causal relationship with “emotional word” in the sentence. The process of extracting these trigger factor of emotional word is named “Emotion Trigger” in this study. As a case study, the datasets used in the study are collected by searching using three keywords: professor, prosecutor, and doctor in that these keywords contain rich public emotion and opinion. Advanced data collecting was conducted to select secondary keywords for data gathering. The secondary keywords for each keyword used to gather the data to be used in actual analysis are followed: Professor (sexual assault, misappropriation of research money, recruitment irregularities, polifessor), Doctor (Shin hae-chul sky hospital, drinking and plastic surgery, rebate) Prosecutor (lewd behavior, sponsor). The size of the text data is about to 100,000(Professor: 25720, Doctor: 35110, Prosecutor: 43225) and the data are gathered from news, blog, and twitter to reflect various level of public emotion into text data analysis. As a visualization method, Gephi (http://gephi.github.io) was used and every program used in text processing and analysis are java coding. The contributions of this study are as follows: First, different approaches for sentiment analysis are integrated to overcome the limitations of existing approaches. Secondly, finding Emotion Trigger can detect the hidden connections to public emotion which existing method cannot detect. Finally, the approach used in this study could be generalized regardless of types of text data. The limitation of this study is that it is hard to say the word extracted by Emotion Trigger processing has significantly causal relationship with emotional word in a sentence. The future study will be conducted to clarify the causal relationship between emotional words and the words extracted by Emotion Trigger by comparing with the relationships manually tagged. Furthermore, the text data used in Emotion Trigger are twitter, so the data have a number of distinct features which we did not deal with in this study. These features will be considered in further study. 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적·의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 ‘감정어휘’로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 ‘Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

      • KCI등재

        국어 텍스트 분석 프로그램(KReaD 지수)의 개발

        조용구 ( Gho Yonggu ),이경남 ( Lee Gyeongnam ) 한국독서학회 2020 독서연구 Vol.0 No.56

        본 연구는 국어 텍스트를 분석 프로그램(KReaD 지수)을 개발하는 것에 목적이 있다. 개발을 위해 텍스트 분석 프로그램과 관련된 국외의 영어권 텍스트 분석 연구를 검토하였다. 검토한 결과를 바탕으로 어휘 등급 목록을 구축하고 R을 기반으로 한 텍스트 분석 프로그램을 개발하였다. 텍스트 난이도 분석에 활용되는 어휘 목록은 빈도 지표, 분산 지표를 활용하여 등급화했으며, 28,332 단어를 1~10등급으로 목록화했다. 텍스트 분석 프로그램은 R을 기반으로 구동하였으며, 분석 결과로 문단 수, 문장 수, 단어 수, 평균문장길이, 어려운단어비율, 문장구조점수, 학년수준, KReaD 점수, 타입토큰비율, 단문의비율, 복문의 비율 등을 확인할 수 있다. 그리고 텍스트를 시각화한 워드클라우드, 네트워크 분석 결과도 확인할 수 있도록 구성하였다. 텍스트 분석 프로그램의 KReaD지수는 텍스트의 난이도 점수로 0~2000점 구간에서 제시된다. 본 연구에서 개발한 텍스트 분석 프로그램은 추후 교재, 교과서, 평가 도구의 텍스트 선정에서 활용할 수 있으며, 분석 방법을 응용하여 Coh-Metrix처럼 서사성, 정보성, 응집성 등을 분석할 수 있는 도구로 활용이 가능하다. 본 연구 결과는 독자에게 적합한 텍스트 선정 분야에 도움을 줄 것으로 기대한다. This study aims to develop a Korean text analysis program (KReaD index). To this end, foreign English-speaking text analysis studies related to the text analysis program were reviewed. Using the results of the review, a list of vocabulary grades was established, and a text analysis program based on R was developed. The vocabulary list used for text difficulty analysis was graded using frequency and variance indicators, and 28,332 words were listed for grades 1 to 10. The text analysis program used R, and the analysis results indicate the number of paragraphs, number of sentences, number of words, average length of sentences, difficult word rate, sentence structure score, grade level, KReaD score, type-tokens ratio, short sentence ratio, and double sentence ratio. Additionally, a word cloud visualizing the text and a network analysis checked the results. The KReaD index of the text analysis program was presented in 0- to 2000-point intervals according to the difficulty score of the text. The text analysis program developed in this study can be used in the text selection of textbooks and evaluation tools and can be used as a tool to analyze whether a text is narrative, informational, cohesive, and so on, similar to the Coh-Metrix, by applying the analysis method. The results of this study are expected to help readers in the field of text selection.

      • KCI등재

        텍스트 분석을 활용한 회계 연구의 현황과 전망

        윤소라 한국회계정보학회 2023 재무와회계정보저널 Vol.23 No.4

        [Purpose] The purpose of this study is to examine prior literature using text mining analysis techniques in the accounting area for identifying current research themes, to present other data analysis techniques, and to provide directions for future research and practice. [Methodology] For this study, I use the Systematic Literature Review(SLR) methodology adopted in Schmitz and Leoni(2019). The results are obtained by entering keywords of “text analysis’ and “accounting” in Google Scholar, and the prior researches reviewed in this paper are selected among them and their references, mainly with the papers published in major journals. [Findings] Sicne the 1990s overseas, and the 2000s in Korea, studies using text analysis in the accounting area have been started. However, there are not enough numbers of studies using the text mining analysis in the accounting, and the journals where these researches published are also limited. I find that most of the studies examine the relationship between quantitative information of financial statements and stock market responses using text analysis. It is also found that business/ audit/annual reports, sustainability reports, and disclosure data are used at the most. The data analysis techniques used in these studies are mostly opinion extraction, tone analysis, sentiment analysis, and frequency analysis, which investigates the amount of words or tone of data. In future business environments, non-financial and descriptive information such as sustainability reports, strategic reports and MD&A are expected to provide more useful information for decision-making, therefore, various types of data analysis techniques are needed to be more actively used in accounting research. [Implications] This paper contributes to review current research focus in text mining related accounting studies, identify research gaps, present future avenues of research, and introduce various types of data analysis techniques related to text mining. From a practical policy perspective, it is meaningful to suggest an improvement in the DART system and to drive efforts to establish XBRL, so that the text analysis studies can be more activated

      • KCI등재

        A Study on Convergence of Text Analysis Techniques for Social Science Research in the Age of Big Data

        김근형 한국인터넷전자상거래학회 2023 인터넷전자상거래연구 Vol.23 No.2

        In this paper, we do not only propose appropriate application methods of the semantic network analysis technique, topic modeling technique and text clustering technique, which are techniques that can analyze text document sets but also the convergence application methods between each techniques. Appropriate application methods for the text analysis techniques were presented by dividing exploratory analysis process and modeling process for analyzing the text document set. Semantic network analysis would be not only suitable for exploratory analysis of the entire text document set, but also applicable to performance improvement of topic modeling and text clustering. The meaning of the topic could be interpreted more clearly by applying semantic network analysis secondarily to the document set of each topic derived by topic modeling. It can be used for text cluster interpretation by applying semantic network analysis to the document set of each cluster, which is the result of text cluster analysis. When deriving an appropriate number of topics, a more accurate number of topics could be derived by adding a silhouette analysis along with the degree of perplexity and coherence. New social science research can be expected to be revitalized by enabling more accurate analysis of online text documents using the method proposed in this paper.

      • KCI등재

        오피니언 분류의 감성사전 활용효과에 대한 연구

        김승우(Seungwoo Kim),김남규(Namgyu Kim) 한국지능정보시스템학회 2014 지능정보연구 Vol.20 No.1

        Recently, with the advent of various information channels, the number of has continued to grow. The main cause of this phenomenon can be found in the significant increase of unstructured data, as the use of smart devices enables users to create data in the form of text, audio, images, and video. In various types of unstructured data, the user’s opinion and a variety of information is clearly expressed in text data such as news, reports, papers, and various articles. Thus, active attempts have been made to create new value by analyzing these texts. The representative techniques used in text analysis are text mining and opinion mining. These share certain important characteristics; for example, they not only use text documents as input data, but also use many natural language processing techniques such as filtering and parsing. Therefore, opinion mining is usually recognized as a sub-concept of text mining, or, in many cases, the two terms are used interchangeably in the literature. Suppose that the purpose of a certain classification analysis is to predict a positive or negative opinion contained in some documents. If we focus on the classification process, the analysis can be regarded as a traditional text mining case. However, if we observe that the target of the analysis is a positive or negative opinion, the analysis can be regarded as a typical example of opinion mining. In other words, two methods (i.e., text mining and opinion mining) are available for opinion classification. Thus, in order to distinguish between the two, a precise definition of each method is needed. In this paper, we found that it is very difficult to distinguish between the two methods clearly with respect to the purpose of analysis and the type of results. We conclude that the most definitive criterion to distinguish text mining from opinion mining is whether an analysis utilizes any kind of sentiment lexicon. We first established two prediction models, one based on opinion mining and the other on text mining. Next, we compared the main processes used by the two prediction models. Finally, we compared their prediction accuracy. We then analyzed 2,000 movie reviews. The results revealed that the prediction model based on opinion mining showed higher average prediction accuracy compared to the text mining model. Moreover, in the lift chart generated by the opinion mining based model, the prediction accuracy for the documents with strong certainty was higher than that for the documents with weak certainty. Most of all, opinion mining has a meaningful advantage in that it can reduce learning time dramatically, because a sentiment lexicon generated once can be reused in a similar application domain. Additionally, the classification results can be clearly explained by using a sentiment lexicon. This study has two limitations. First, the results of the experiments cannot be generalized, mainly because the experiment is limited to a small number of movie reviews. Additionally, various parameters in the parsing and filtering steps of the text mining may have affected the accuracy of the prediction models. However, this research contributes a performance and comparison of text mining analysis and opinion mining analysis for opinion classification. In future research, a more precise evaluation of the two methods should be made through intensive experiments.

      • KCI등재

        네트워크 텍스트 분석결과 해석에 관한 소고

        김준현(Kim Jun hyun) 부경대학교 인문사회과학연구소 2015 인문사회과학연구 Vol.16 No.4

        사회네트워크 분석방법을 내용연구에 적용한 방법으로, 텍스트에 출현하는 단어와 단어 사이의 관계를 네트워크로 파악해 메시지를 해석하는 분석기법인 네트워크 텍스트 분석은 통계 자료 중심의 계량적 연구방법에 적합한 주제에 편향되어 있는 행정학 분야에 중요한 질적 연구방법으로 관심을 받고 있다. 하지만 여전히 내용분석 연구는 행정학 분야에서 그 가능성과 잠재력을 충분히 발휘하고 있지 못하고 있는 바, 이러한 한계를 넘어서기 위해서는 네트워크 텍스트 분석방법의 내용과 그 분석결과에 대한 해석방법에 대한 이해를 심화시키는 것이 필요하다. 이러한 문제의식을 바탕으로 본 연구에서는 네트워크 텍스트 분석이 행정학 분야에서 보다 유용한 내용분석방법으로 자리 잡고, 그 잠재성을 행정학 분야에서 충분히 활용하는데 필요한 개선점을 제안하고자 2010년부터 2015년 사이에 학술지에 게재된 네트워크 텍스트 분석이 사용된 행정학 분야의 연구 18편을 검토하여 이들 연구에서 사용된 주요한 접근방법과 지표 및 그에 대한 해석을 검토하였다. 그리고 이를 바탕으로 행정학 분야에서 네트워크 텍스트 분석을 활용한 연구가 그 가치를 발휘하는데 도움이 되는 제안을 다음과 같이 제시하였다. 첫째, 연구목적과 분석대상 텍스트에 부합하는 적절한 네트워크 접근방법과 분석방법을 선별하여 단계적으로 사용해야 한다. 둘째, 보다 풍부하고 설득력 있는 설명과 해석을 제시하기 위해서 네트워크 텍스트 분석에 있어서 대표적인 3가지 접근방법별로 복수의 분석방법과 지표들을 비교하려는 시도가 필요하다. 셋째, 연구자가 사용한 분석방법과 분석단위, 코딩 방식 등에 대해 정확히 소개하는 것이 필요하다. 넷째, 텍스트의 메시지를 보다 풍부하게 해석하기 위해, 현재까지 사용된 네트워크 텍스트 분석방법 혹은 지표 외에 보다 다양한 사회 네트워크 분석방법·지표를 새롭게 활용해 보려는 시도가 필요하다. The network text analysis, a kind of social network analysis applied to the studies of content analysis, is known as the method which interprets the messages by analyzing the relationship between words that appear in the text. Recently network text analysis grasps the attention of the researchers in Public Administration as a promising qualitative research methods. But still the number of researches used the network text analysis is small in Public Administration Sector, In order to exceed these limits, it is necessary to deepen the understanding of the technique of the network text analysis and of the interpretation of the results. So we review the 18 network text analysis studies in Public Administration which have been published in journals from 2010 to 2015 in Korea. Based on this, Some suggestions to help achieve that value in the Administration field of the studies are showed as follows: Firstly, after screening the appropriate network approaches and analysis method to meet the research goal, the selected approaches and analysis methods should be used step by step. Second, in order to provide the interpretation and analysis about the messages of the text, there is a need for an attempt to compare methods and indicators of three approaches in network analysis. Third, it is necessary for the researchers to correctly introduce analysis methods, analysis unit and coding scheme. Fourth, in order to enrich the interpretation of the message of the text, we should try to take advantage of a wider variety of social network analysis methods or indicators.

      • KCI등재

        문법교육과 비판적 담화분석의 접점 모색 - 텍스트 분석 요소에 대응하는 문법교육 내용 구성 방향 -

        김효연,김규훈 한국문법교육학회 2022 문법 교육 Vol.44 No.-

        The purpose of this study is to find out the nexus of grammar education and critical discourse analysis(CDA), especially to make a way for construction of grammar educational contents responding to the text analysis elements of critical discourse analysis. CDA is a kind of discourse analysis studies to find out the multi-layered meaning of discourses in society with a linguistic analysis. Particularly, CDA has the text-orients which lays emphasis on a description of the text analysis elements for explaining the discourse practice and the socio-cultural practice. But many studies about CDA in Korean language education, being studied relatively and actively so far, are lack of the text-orients of CDA. The text analysis elements of CDA, that is, grammar educational contents about the linguistic features to construct social meanings of the discourse, have to be considered for applying CDA to Korean language education reasonably. So this study would figure out the text-orients of CDA, extract the text analysis elements from domestic CDA researches, and suggest the contents system of grammar education responding to the text analysis elements.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼