RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        기후변화 시나리오를 활용한 공간정보 기반 극단적 기후사상 분석 도구(EEAT) 개발

        한국진,이명진 대한원격탐사학회 2020 大韓遠隔探査學會誌 Vol.36 No.3

        기후변화 시나리오는 기후변화 대응 연구의 기반이 되는 사항으로, 대용량 시공간 데이터로 구성되어있다. 데이터의 관점에서는 1종의 시나리오가 약 83 기가바이트(Giga bytes) 이상의 대용량이며, 데이터 형식은 반정형으로 검색, 추출, 저장 및 분석 등 활용상 제약이 있다. 본 연구에서는 대용량, 다중시기 기후변화 시나리오의 활용을 편리하게 개선하기 위하여 공간정보 기반의 극단적 기후사상 분석 도구를 개발하였다. 또한, 개발된 도구를 RCP8.5 기후변화 시나리오에 적용하여 과거 발생한 집중호우 임계치가 미래 발생 가능한 시기와 공간에 대한 시범 분석을 수행하였다. 분석결과, 3일 누적 강우량 587.6 mm 이상인 날이 2080년대 약 76회 발생하는 것으로 분석되었으며, 집중호우는 국지적으로 발생하였다. 개발된 분석도구는 초기 설정부터 분석결과를도출하는 전 과정이 단일 플랫폼에서 구현되도록 하였다. 더불어 상용 소프트웨어가 없어도 분석결과를 다양한 형식(웹 문서형식(HTML), 이미지(PNG), 기후변화 시나리오(ESR), 통계(XLS))으로 구현되도록 하였다. 따라서 본 분석도구 활용을 통해 기후변화에 대한 미래 전망이나 취약성 평가 등의 활용에 도움이 될 것으로 사료되며, 향후 제공될 기후변화 보고서에 따른 기후변화 시나리오 분석 도구 개발에도 사용될 것으로 기대된다. Climate change scenarios are the basis of research to cope with climate change, and consist of large-scale spatio-temporal data. From the data point of view, one scenario has a large capacity of about 83 gigabytes or more, and the data format is semi-structured, making it difficult to utilize the data through means such as search, extraction, archiving and analysis. In this study, a tool for analyzing extreme climate events based on spatial information is developed to improve the usability of large-scale, multi-period climate change scenarios. In addition, a pilot analysis is conducted on the time and space in which the heavy rain thresholds that occurred in the past can occur in the future, by applying the developed tool to the RCP8.5 climate change scenario. As a result, the days with a cumulative rainfall of more than 587.6 mm over three days would account for about 76 days in the 2080s, and localized heavy rains would occur. The developed analysis tool was designed to facilitate the entire process from the initial setting through to deriving analysis results on a single platform, and enabled the results of the analysis to be implemented in various formats without using specific commercial software: web document format (HTML), image (PNG), climate change scenario (ESR), statistics (XLS). Therefore, the utilization of this analysis tool is considered to be useful for determining future prospects for climate change or vulnerability assessment, etc., and it is expected to be used to develop an analysis tool for climate change scenarios based on climate change reports to be presented in the future.

      • 환경 분야 빅데이터 수집방법 연구 : 대기질 데이터를 중심으로

        한국진 ( Kj Han ),강성원,김도연,김영인 한국환경정책평가연구원 2017 한국환경정책평가연구원 기초연구보고서 Vol.2017 No.-

        본 연구는 지능정보사회의 근간인 빅데이터에 대한 이해를 통해 환경 연구에 활용 가능한 빅데이터를 식별하고 데이터 기반 연구혁신을 위한 수집 방법으로서 환경 빅데이터 수집-저장의 절차와 프레임워크(안)를 제시하였다. 미래 사회와 연구 패러다임의 중심에 선 빅데이터를 환경 연구에 활용하기 위해서는 빅데이터에 대한 충분한 이해와 적극적인 활용이 필요하다. 더불어 환경 분야 빅데이터에 대한 식별 및 대응(안)도 마련되어야 한다. 이에 대한 사례로서 한국환경공단의 대기질 빅데이터 및 그 서비스를 분석하였고 분석과정을 통해 빅데이터 수집-저장방법의 절차를 검토하고 수집방법에 대한 프레임워크(안)를 제시하였다. 본 연구의 주요 내용은 다음의 3가지로 요약할 수 있다. ○ 빅데이터의 이해 빅데이터는 데이터의 수집-저장-분석-(시각화)-예측의 절차를 갖고 있지만 사회 전반적으로 다양한 이해와 의미를 갖고 있어 환경 분야 빅데이터 또한 다른 접근방법 및 이해가 필요하다. 그동안 빅데이터가 정부 주도형으로 추진되어 양적 성장을 이뤄냈고 우리나라에서는 공공데이터포털을 통해 데이터가 없더라도 데이터 제공자를 찾을 수 있는 제도적 장치가 마련되어 있다. 그러나 데이터 처리를 위한 첫 번째 단계인 수집-저장 단계에서는 성장보다 접근성, 활용성이 요구되며 연구자의 애로사항이나 수요를 고려한 데이터를 활용할 수 있는 수요자 관점에서 수집방법을 검토하였다. ○ 환경 분야 빅데이터 환경 분야의 빅데이터라 함은 모든 분야의 데이터를 일컫는다고 해도 과언이 아니다. 따라서 수요자 중심의 데이터 우선순위를 부여하고 그 사례를 제시하였다. 공공데이터포털 활용 신청 순위의 검토 및 한국환경정책·평가연구원 연구자 대상의 데이터 활용 온라인 설문을 통해 기상기후 및 대기질 데이터가 도출되었다. 이 가운데 활용성이 우수하고 동일한 규모의 데이터셋을 제공하고 있는 한국환경공단의 대기질 데이터 및 데이터 서비스를 분석하였다. ○ 수집방법의 절차화 위와 같은 분석을 통해 연구자들에게 특정 빅데이터에 대한 수집방법만을 제시한다면 기존의 방법과 다르지 않다고 판단하였다. 이에 도출된 수집방법을 통해 수집-저장방법의 절차를 마련하고 이를 프레임워크(안)으로 제시하고자 하였다. 이를 활용하면 다른 환경 빅데이터를 활용하는 연구에도 적용할 수 있고 컴퓨팅 플랫폼에도 적용이 수월하다. 또한 빅데이터 수집-저장 프레임워크(안)를 통해 활용 가능한 구체적인 소프트웨어 등의 컴퓨팅환경을 언급하여 데이터 기반 연구수행 체계로의 전환 또는 접근이 용이하도록 안을 제시하였다. The purpose of this study is identify the big data that can be used for environmental research through understanding the big data which is the basis of intelligent information society and to develop a procedure and framework of environment big data. In order to using the big data as a center of future and research paradigm, it is necessary to understand and actively apply the big data. In addition, identification and countermeasures for environmental data should be prepared. As a case study, it analyzed the air quality data and services of Airkorea, the process of scraping and storing the big data through service analytic process and presented a framework for scraping method.

      • KCI등재

        폭염에 의한 축산폐사와 뉴스 빅데이터의 상관관계 분석

        박종철,한국진,채여라 한국지리학회 2019 한국지리학회지 Vol.8 No.3

        소셜 빅데이터는 재난을 조기 탐지하는 정보의 원천이 될 수 있으며, 재난의 공간적 분포를 이해하기 위한 새로운 가능성을 내포하고 있다. 이를 위해서는 뉴스 빅데이터로부터 수집된 정보와 실제 사건의 관계에 대한 이해가 선행되어야 한다. 본 연구의 목적은 뉴스 빅데이터의 분석 결과와 폭염에 의한 가축 폐사와의 비교를 통해 두 자료의 관계에 대한 이해를 증진시키는 것이다. 가축 폐사가 증가하는 기온 구간에서 축산 피해 관련 뉴스는 다른 시기에 비해 두 배 이상 증가하였다. 하지만 뉴스 건수의 정점은 가축 폐사의 정점으로부터 약 6일 후에 나타나고 있었다. 가축 폐사가 증가하는 기온 구간에서 뉴스의 주요어는 ‘폐사’이었다. 7월 중순 이전의 뉴스에서 주요어는 ‘대응’, ‘예방’이었고, 7월 중순부터 8월 중순에는 ‘폐사’, 8월 중순 이후에는 ‘물가’가 주요어를 이루고 있었다. 사회적 이슈에 의해 특정 주요어의 빈도가 높아지기도 하지만 ‘폐사’라는 주요어는 대체로 실제 폐사가 집중되는 기온 구간 및 시기에 등장하고 있었다. Social big data can be a source of information for early detection of disasters. Furthermore, it contains new possibilities for understanding the spatial distribution of disasters. Understanding the relationship between information obtained from news big data and actual events is essential to do this. The purpose of this study is to improve the understanding of the relationship between the two data by comparing the results of the analysis of news big data and livestock mortality caused by heat waves. The number of news was doubled during the period livestock mortality increased. However, the number of news reached the peak after six days the livestock mortality reached the peak. In the temperature range where livestock mortality increased, the main keyword of the news was ’mortality’. In the news before mid-July, the main keywords were ‘response’ and ‘prevention’, and the main keyword was ‘mortality’ from mid-July to mid-August. Since mid-August, ‘price’ was the main keyword. Although the frequency of some key words is affected by social issues, the key word 'mortality' appeared mostly in temperature ranges and periods of actual mortality.

      • 사회ㆍ환경이슈 선제적 대응을 위한 환경 데이터 허브 구축 및 운영

        진대용,표종철,한국진,김도연,조윤랑 한국환경연구원 2021 사업보고서 Vol.2021 No.-

        Ⅰ. 서 론 1. 연구의 필요성 및 목적 □ 사회·경제 대전환의 핵심요소인 ‘데이터 댐’ 구축 필요 ○ 데이터 수집과 활용을 위한 데이터 허브(data hub) 필요 - 공공 및 민간 데이터는 미래 산업의 핵심 동력 - 데이터 지도, 데이터 연계 및 분석 서비스 등 데이터 댐의 新가치 창출 필요 ※ 데이터 댐: 데이터 수집 후 표준화하여 다시 공유하는 것 ○ 대규모 사회·환경 이슈 대응을 위한 데이터 활용 곤란 - 코로나19, 미세먼지, 가습기 살균제 등 대규모 사회·환경 이슈 발생 - 사회·환경 이슈 대응을 위한 환경관련 데이터가 산재되어 수집과 활용 곤란 □ 사회·환경 이슈 대응을 위한 데이터 허브 구축 중장기 로드맵 제시 ○ 환경정책 연구의 디지털 전환을 위한 데이터 허브 구축 방안 마련 - 주요 구축 사례 검토를 통한 환경 데이터 허브 구축의 필수요소 도출 - 연구데이터 리포지터리(IDR)를 기반으로 저장소 중심의 데이터 허브 시범 구축 ○ 효율적인 데이터 허브 구축을 위한 중장기 로드맵 제시 - 다양한 사회·환경 이슈 대응과 데이터 기반 의사결정 지원을 위한 데이터 발굴 - 산재된 데이터와 다양한 데이터 분석 플랫폼 활용을 고려한 중장기 로드맵 제시 2. 연구의 범위 및 방법 □ (시범) 구축 수행 후 향후 개선을 위한 중장기 구축 로드맵 제시 ○ 데이터 허브 구축 사례 검토하여 데이터 허브 필수기능 도출 - 데이터와 분석서비스, 데이터맵, 사용자 접근성 향상 등 주요 기능 사례 분석 ○ 사회·환경 분석 이슈 대응을 위한 데이터 허브의 기능 정의 - 데이터 기반 사회·환경 이슈 분석 사례 축적 및 데이터 분석의 장점과 한계점 검토 ○ 환경 데이터 허브 시범 구축 후 향후 확대 추진을 위한 중장기 로드맵 제안 - IDR 시스템을 중심으로 환경 데이터 허브 시범 구축 후 중장기 로드맵 제안 Ⅱ. 환경 데이터 허브 구축 방안 1. 데이터 허브 구축 개요 □ 환경 분야에 적용 가능한 데이터 허브 검토 필요 ○ 데이터 기반 대비 빈약한 데이터 분석 플랫폼과 데이터 허브 - 영국: 데이터 기반의 사회문제 해결과 행정데이터 분석연구 활용 지원 - 싱가포르: 국가 차원의 이슈 분석을 위한 범정부 플랫폼 운영 - 미국: 사이버 물리시스템(CPS) 기반의 스마트도시 데이터 허브 구축 및 활용 - 우리나라: 환경부 수집-저장 데이터 기반 구축, 연계 및 활용 제한 2. 주요 데이터 허브 사례 □ 공공데이터포털 ○ 국내 최대 데이터 허브로 「공공데이터법」에 따라 설치 및 운영 - 파일데이터 약 4만 건, 오픈데이터 약 7,000건, 표준데이터 약 1만 건 보유 ○ 다양한 관점의 데이터 지도인 국가데이터맵 제공 ○ 시각화, 국민참여지도, 위치정보 시각화 등 시각화 서비스 제공 □ 국가통계포털 ○ 국내 최대 통계 데이터 허브로 「통계법」에 따라 국내외 통계 제공 ○ 다양한 관점 데이터 지도와 e-지방지표(시각화) 등 시각화 제공 ○ 마이크로데이터 통합서비스 등 전문서비스 제공 □ 빅데이터 공통기반 혜안포털 ○ 범정부 빅데이터 분석 플랫폼 서비스 ○ SNS 텍스트 마이닝 분석과 시각화 제공, 대체로 느림 ○ 공동활용데이터 등록관리시스템 제공 □ 환경정보융합 빅데이터 플랫폼(환경데이터포털) ○ 환경 분야 전문 데이터 수집-저장 포털 ○ 데이터 분석 플랫폼 서비스 4종을 제공, 느리고 불편 ○ 2022년 이후 차세대 고도화 예정 □ 환경 비즈니스 빅데이터 플랫폼 ○ 환경 분야 데이터 유통 플랫폼 ○ 다양한 텍스트 마이닝 시각화 결과와 환경 데이터 시각화 예제 제공 ○ 모두 17개 공공과 민간이 참여 □ 연구데이터 리포지터리 ○ 연구데이터를 공유하는 시스템 - Open Science의 핵심 구성요소: 연구데이터 ㆍ NASA, 인공위성 데이터 제공 ㆍ CERN, 국제대형강입자충돌기 실험데이터 제공 ㆍ 바이오 분야의 유전체 데이터 공유 서비스 ㆍ 출판 분야의 Nature와 Springer, Elsevier ○ 연구 결과 및 과정을 개방, 공유하는 오픈 사이언스 개념 대두 - OECD: 개방성, 효과성, 지속가능성 등 13개 원칙 제시 - ISC: 공공데이터에 대한 보편적이고 동등한 접근을 증진하기 위한 14개 권고사항 제시 - 미국: 국가 수준의 연방기구의 디지털 데이터 관리 및 수집 시행, 국가연구기관 중심의 데이터 관리와 공유 정책 시행, 인프라 및 데이터 공유 프로그램 운영 - 유럽: 국가 저장소와 함께 유럽 전체 네트워크 OpenAIRE 구축, 투자 프로젝트의 연구결과 관리, 출판물과 문헌 관리 ○ 국가 차원의 체계적인 연구데이터 관리와 공유를 위한 정책과 제도 - 미국: NSF, NIH 등 연방기금 1억 달러 이상 지출 연방기관 R&D의 연구데이터 관리와 공동 활용을 위한 지침 제정 - 영국, 호주: 연구데이터 관리와 활용을 위한 정책 수립 ○ 국외 연구데이터 플랫폼 운영: 유럽, 미국, 영국, 일본, 호주 등 3. 데이터 허브의 주요 기능 □ 데이터 지도 ○ 방대한 데이터를 효과적으로 이용하는 데 활용 ○ 분류별, 지역별, 키워드별, 분야별 다양한 관점으로 제공 ○ 환경 분야는 키워드 접근 순서에 따라 다중 관점의 분류체계 필요 □ 데이터 표준화 ○ 누구든 해당 데이터를 쉽게 활용할 수 있도록 가공하는 것 의미 ○ 국제 표준화는 빅데이터의 수직, 수평적 상호운용성을 고려하여 추진 ○ 국내 표준화는 빅데이터 처리를 위해 일부 요소에만 적용 중 □ 빅데이터 분석 및 활용체계 ○ 데이터 지도와 연계하여 데이터를 확인 및 분석, 시각화하는 체계를 의미 ○ 데이터 분석 플랫폼 서비스와 유사한 기능 □ 공공데이터와 데이터 기반 행정의 업무 지원 ○ 최근 데이터 관련 법률과 관련 계획·평가 대응 증가 ○ DMP-연구데이터 등록으로 데이터 발굴, 현황 파악, 실적 증명이 가능해짐 ○ 다만, 환경 데이터 허브와 인트라넷 정보시스템 연동 필요 Ⅲ. 환경 데이터 허브 중심 코로나19 이슈 분석 1. 데이터 현황 검토 □ 환경통계 데이터는 신뢰도가 높지만 통계 산출에 많은 시간이 소요되며 시공간적 한계 존재 □ 신용카드 데이터는 지역별, 업종별 카드이용 현황 및 코로나19, 미세먼지 등 사회·환경 이슈 분석을 위한 소비 빅데이터 제공 ○ ’20~’21년 데이터바우처 사업을 통해 코로나19 관련 BC카드 소비데이터 확보 및 분석 수행 □ 사회·환경 이슈 도출 및 분석을 위해 SNS, 언론 보도자료 등 텍스트 자료 수집 및 활용 가능 ○ 텍스트 마이닝 분석으로 코로나19 사태 이후 발현한 환경 이슈* 도출 * 환경 이슈: 1) 쓰레기(폐기물 등) 증가, 2) 대기오염(대기질) 감소, 3) 에너지(전기, 가스 등) 증가 2. 코로나19에 의해 (준)실시간으로 발생한 환경 이슈 분석 □ 코로나19로 발현한 환경 이슈를 카드데이터와 환경 데이터를 융합 분석하여 (준)실시간으로 발생하는 환경 이슈에 대응하는 시의적절한 정책 개발 가능 ○ 카드데이터 기반 소비형태 변화 분석을 통해 발현 가능한 환경 이슈(폐기물 증가, 대기오염 감소, 에너지 사용량 증가) 분석 ○ 분석 결과, 코로나19 확진자가 증가하면 배달앱의 이용금액 및 건수가 모두 증가하고 대중교통과 주유 이용금액 및 건수는 모두 감소, 지역난방은 양의 상관관계로 보이나, 계절적인 특징으로 겨울철 지역난방 사용이 높아서 나타난 것으로 판단 3. 코로나19 사회적 거리두기 정책 전후 분석 □ 코로나19 사태 이후 사회적 거리두기 정책 전후 코로나 확진자 및 카드이용 변화 분석을 통해 정부 개입 효과 분석 수행 ○ 사회적 거리두기 기간을 기준으로 전후 4주(1개월) 데이터를 비교 분석 - 사회적 거리두기 단계에 따라 4개 구간(’20.3.22~’20.4.19, ’20.8.30~’20.9.13, ’20.9.14~’20.10.11, ’20.12.8~’20.12.28) ○ 코로나19 확진자 증감량의 산식에 사용되는 변수의 평균 변화 분석을 통해 정책 전후 차이 확인 ○ 정책 전과 후 추세에 대한 검증 및 검증된 추세를 기반으로 비교 분석 결과 4개 구간 모두에서 추세 변화 확인 4. 환경 데이터 허브의 추가 요구사항 □ 사회·환경 이슈의 탐지 및 현황 분석 제공 ○ 문헌, 언론, 보도자료와 포털 등의 데이터 수집 자동화 필요 ○ 사회·환경 이슈 조기 탐지를 위한 연관·관련 이슈 분석, 절차 필요 □ 사회·환경 이슈 분석을 위한 데이터 확보 및 공유기반 구축 ○ 공공 및 민간 데이터를 효율적으로 제공하기 위한 기능 필요 ○ 사회·환경 이슈 분석을 위한 데이터의 범위 검토, 데이터의 제공 및 분석 사례 구축 □ 데이터의 특성 및 범위의 검토 ○ 데이터의 신뢰도와 이슈 대응의 신속성 등 상황을 고려하여 데이터 활용 ○ 데이터의 공통 활용성 측면에서 검토하여 공동활용데이터로 활용 ○ 데이터의 접근성과 지속가능성을 고려하여 연구데이터 선정 □ 사회·환경 이슈 분석을 위한 분석 도구 활용방안 검토 ○ 모든 연구데이터가 분석데이터로 활용되지 않음 ○ 사회·환경 이슈 분석을 위한 분석 도구와 활용사례 발굴 필요 □ 정책적인 시사점을 도출할 수 있는 데이터 기반 정책 의사결정 지원체계 구축 ○ 빅데이터는 함축적 의미를 가진 간소화를 통해 분석되기 때문에 전문가의 해석과 정책화 등 의사결정을 위한 추가적인 절차가 반드시 필요 ○ 데이터기반 정책의사결정 지원체계 구축 필수 Ⅳ. 환경 데이터 허브 시범 구축 1. 환경 데이터 허브 구축의 필수요소 □ 데이터 세트 ○ 질적으로 우수한 데이터 확보 방안 필요 - 환경정책에 활용 가능한 데이터 수요조사 - 수집경로별 데이터 수집 자동화 - 환경부 데이터 실무협의체 참여 등 데이터 네트워크 발굴 - 데이터 세트 구축 사업과 데이터 지원 사업의 공모 참여 - 연구자 접근성 개선과 업무효율성 홍보 등 □ 데이터 저장소 ○ 메타정보 운영관리의 편리성과 무결성 유지를 병행할 방안 필요 - 데이터의 제출, 갱신, 검색 기능과 메타데이터 관리 기능 필요 - DMP, 권한관리, 외부 데이터와 데이터 분석 플랫폼 연계 활용 □ 데이터 분석 플랫폼 ○ 데이터 분석을 위한 데이터 파이프라인 구축 방안 필요 - 데이터의 적재, 전처리, 분석, 검증과 시각화 확인이 가능해야 함 - 프로그래밍 언어와 라이브러리 등 코드 사용의 편리함 고려 - 데이터 저장소와의 데이터 연계, 데이터 분석 결과의 유연한 저장 - 수치예측, 텍스트·이미지 분석 등 주요 AI 및 데이터 분석 모듈의 이용자 편의 2. 환경 데이터 허브 구축 □ 사전 검토사항 ○ 연구데이터 컬렉션 - 효율적인 조회와 검색결과 제공: 원본 데이터 여부, 출처, 데이터의 위치 등 - 최상위 컬렉션에 공동활용데이터와 과제수행 연도 반영 ㆍ 공동활용데이터: 기후변화, 녹색전환, 대기환경, 물관리, 국토환경, 자원순환, 환경 보건, 환경영향평가, 지표통계, 기타(외부) 등 모두 10개 ㆍ 과제수행 연도별 컬렉션은 과제종류별 컬렉션을 담고, 그 하위에 과제명 컬렉션 존재 ※ 컬렉션: 연구데이터와 연구데이터의 메타데이터를 담고 있는 캐비닛 - 연구데이터 분류체계 ○ 데이터 인용 - 효율적인 연구수행으로 데이터 활용의 선순환 생태계 조성 ㆍ 선행 연구자의 공로 인정 ㆍ 후행 연구자는 연구 과정·결과의 재생 및 활용 ㆍ 연구결과의 재이용을 통해 연구성과 확산에 기여 ㆍ 연구자 간 연구결과의 신뢰와 투명성 제고 - KEI 형식, MLA, APA, ISO 690 등 모두 4종의 인용 문구 표시 - DOI 출판 기능 제공 ○ 데이터 지도 - 효율적인 데이터 검색 ㆍ 활용하고자 하는 데이터에 대한 명확한 지식이 없는 이용자도 사용 ※ 통합 데이터 지도: 분류별, 지역별, 키워드별, 분야별 접근방식 제공 ※ 공공데이터포털: 트리맵과 검색기능 병행 제공, 데이터의 비중 파악 유리 ○ 데이터 관리 절차 - 데이터 구축과 관리를 통하여 체계적인 연구데이터 수집-저장 가능 ㆍ 데이터 구축: 데이터 확인과 검토를 통해 데이터 분류 수행과 데이터 표준화를 위한 메타데이터 부여 ㆍ 데이터 관리: 우선순위를 구분하여 중요데이터와 일반데이터로 분류하고 데이터 품질관리, 데이터 공개 여부 결정, 데이터 보완, 생애주기 관리 수행 ㆍ DMP-연구데이터 동기화와 기획-수행-종료에 따라 단계별 생애주기 관리 필요 ○ 프레임워크 구축 - KEI-IDR 시스템은 연구데이터 저장소로 이용하고 DMP-연구데이터를 활용 - 연구DB는 인트라넷 시스템을 이용하고 연구정보 연동 - 빅데이터 분석 플랫폼은 KEI 빅데이터 분석 플랫폼 시범서비스를 활용 - 외부 허브는 데이터, 분석, 인프라 등 목적에 맞도록 연동 - 외부 데이터는 공공데이터포털, 국가통계포털, AI데이터허브, 빅카인즈 등 목적에 맞게 연동 ○ 시범 구축 - 사전 검토사항과 데이터 관리 절차, 환경 데이터 허브 프레임워크를 기반으로 환경 데이터 허브를 시범 구축 ㆍ 자동으로 갱신되는 데이트를 수집하기 위해 동적 데이터 기능 구축 ㆍ 이용자 간 데이터 공유 기능과 데이터 보호를 위해 보존 기간 기능 구축 ㆍ 외부 학술DB 검색 기능과 데이터 지도, 외부 데이터 기능을 구축 ㆍ 물리적인 저장소 NAS로 교체 ○ 외부 데이터 활용방안 - 공동활용데이터 컬렉션 분리: 연구 수행에 자주 사용하는 데이터, 분류기준이 범용적인 데이터 ㆍ OpenAPI, WebDAV, FTP 등을 통해 원격에서 데이터 활용 가능 - 데이터포털과 데이터 분석 플랫폼 ㆍ 환경 빅데이터 분석 플랫폼 시범서비스, 환경 Data Science 전환연구 서비스와 개인 분석환경 활용 ㆍ 데이터의 활용이 더 중요한 경우, 외부의 데이터 분석 플랫폼을 이용하는 것이 유리함 ㆍ MLOps: 분석환경을 온라인으로 전환하는 조직에서 활용 ○ 환경 데이터 허브 고도화 방안 - DMP 관리기능 개선: 템플릿 복사, 순서 변경, 엑셀 반출 등 - 개인 저장소 기능 개선: 업로드/다운로드, 공유, OpenAPI 사용, 프로그래밍 코드 연동 등 3. 환경 데이터 허브 확대 구축 로드맵 □ KEI형 환경 데이터 허브 로드맵 제시 ○ 제약조건을 고려하여 KEI형 환경 데이터 허브 로드맵(간소화) 제시 - 제약조건 ㆍ 모든 연구데이터의 특성을 고려하여 환경 데이터 허브를 구축하는 것은 불가능 ㆍ 일반적인 정보시스템 구축 방법론 적용도 현실성이 없음 ㆍ 과업수행기간, 예산, 인력, 사회·환경 변화 고려 ㆍ 연구자, 정책가, 수요기업과 대국민 등 수요자를 단계적으로 확대 - 제안사항 ㆍ 환경 데이터 허브 구축 계획 수립: 2021년 표준 IDR 최신 업데이트가 마무리되는 시점부터 8개월간 수행, 제약조건을 고려하여 약 2개년에 대한 추진계획 작성 ㆍ 환경 데이터 허브 인프라 구축: KEI-IDR 시스템과 외부 분석 플랫폼 서비스, 외부 데이터포털 등 다른 시스템과의 연계를 고려하여 구축, 유연한 분류체계 반영 ㆍ 환경 데이터 허브 고도화: 외부 서비스 변경사항 반영, 수요조사 후 결과반영, 데이터 지도 확대 ○ 로드맵(간소화) 제약조건을 고려하여 환경 데이터 허브 확대 로드맵 제시 - 데이터 구축 ㆍ 1단계(2020~2021년): 연구데이터 등록과 내부 공개 시범 운영, 환경 데이터 플랫폼 현황 파악과 분석, 외부 데이터 연동기능 구축 ㆍ 2단계(2022~2024년): 모든 정부출연금 과제까지 연구데이터 등록 대상과제 확대, 연구데이터의 외부공개 절차 마련, 환경 전문가 수요조사 결과에 따른 AI데이터 구축 ㆍ 3단계(2025년~): 수탁과제까지 연구데이터 등록 대상과제 확대, 연구데이터의 외부공개 대상 확대 - 데이터 저장소 구축 ㆍ 1단계(2020~2021년): 표준 IDR 도입과 KEI-IDR 구축, 인트라넷 정보시스템 연동, 기본 데이터 통계, 데이터 지도와 외부 데이터 검색 기능 구축 ㆍ 2단계(2022~2024년): KEI-IDR 안정화, 데이터 연계와 활용 기능 확대 ㆍ 3단계(2025년~): 데이터 저장소 구축 완료, 데이터 아카이빙 서비스의 고도화 추진 - 데이터 분석 플랫폼 도입 ㆍ 1단계(2020~2021년): 기존의 분석 플랫폼 서비스와 서버, 개인 분석환경 활용으로 1단계 없음 ㆍ 2단계(2022~2024년): 분석환경에서 연구데이터를 직접 연결하는 기능개선과 전문가 중심의 대시보드 구축 ㆍ 3단계(2025년~): 데이터 융합 활용사례 제공과 대시보드 고도화 - 성공조건: 전담조직 운영 > 예산확보, 제도개선 병행 ㆍ 제도개선: 안전하고 유연한 접근이 가능하도록 정보보안 정책 개선 ㆍ 전담조직: 데이터 관련 법률에 따라 전담조직 설치, 데이터 과학자와 기술자 자체 수급(전문교육 등 활용), 환경 매체별 부서와 전담조직의 협업 강화 ㆍ 예산확보: KEI에서 집행 가능한 수준으로 조정(협의) 가능. 다만, 예산이 연속적으로 보장되어야 함 Ⅴ. 결론 (학술적 성과) 1. 결론 □ 연구자 인식전환 및 협업 생태계 구축 ○ 다양한 사회·환경 이슈 파악, 분석, 정책 결정을 위한 현실적인 방안과 사전대응체계 마련 필요 - 지속적인 사회·환경 이슈 발생으로 데이터 기반 대응사례 증가 추세 - 환경통계와 사회통계 융복합, 환경정책연구의 경계 약화 ○ 빠른 데이터 생산에 유연한 데이터 활용을 통한 정책 반영 - 사람과 사물 등 물리적 요소가 모두 연결되고, 상호작용하는 상황 반영 - 데이터에 대한 관점 변화: 적시적인 결과 도출과 데이터 신뢰의 중요도 판단 - 환경정책연구의 제약: 시의성 높은 이슈 분석에 사용할 수 있는 데이터가 미미 ○ 통계 구축의 주기성 단축과 대체재로서의 데이터 선별 지원 - 사회·환경 이슈 분석에 있어 다양한 데이터의 범위와 한계점 검토 - 의료 폐기물 발생량이 폭증하였으나, 2021년 쓰레기 배출량 공식통계 없음 □ 환경 데이터 허브 시범 구축과 환경 데이터 활용 기반 구축 - 환경 데이터 허브 구축의 필수요소 도출: 데이터 세트, 데이터 저장소, 데이터 분석 플랫폼 - KEI형 중장기 환경 데이터 허브 로드맵 제시 □ 사회·환경 이슈 분석을 위한 환경 데이터 허브의 요건 제시 - 사회·환경 이슈 분석을 데이터의 확보, 데이터 공유를 위한 기초 기반 구축, 분석 도구 구축 등 필요 - 정책적인 시사점을 도출할 수 있는 데이터 기반 정책 의사결정 지원체계 구축 필요 Ⅰ. Background and Aims of Research 1. Heading □ Construction of ‘data dam’, a key element of the great social and economic transformation ○ A data hub is required for data collection and utilization - Public and private data are the key drivers of the future industry - It is necessary to create new values for ‘data dam’ such as data maps, data linkage and analysis services. ※ Data Dam: Collecting data, standardizing it, and sharing it againn ○ Difficulty in using data to respond to large-scale social and environmental issues - Large-scale social and environmental issues such as COVID-19, fine dust, and humidifier disinfectant occurred - It is difficult to collect and utilize environment-related data to respond to social and environmental issues. □ Present a mid- to long-term roadmap for building a data hub to respond to social and environmental issues ○ Prepare a plan to build a data hub for the digital transformation of environmental policy research - Derivation of essential elements for building an environmental data hub through a review of major implementation cases - Based on Institutional Data Repository (IDR), build a storage-centric data hub pilot ○ Present a mid- to long-term roadmap for building an efficient data hub - Discovering data to respond to various social and environmental issues and support data-based decision-making - Presenting a mid- to long-term roadmap considering scattered data and utilization of various data analysis platforms 2. Research Scope and Methods □ (Pilot) After implementation, present a mid-to-long-term roadmap for future improvement ○ Deriving essential data hub functions through data hub implementation case review - Major functions : data and analysis service, data map, and user accessibility improvement ○ Functional definition of data hub to respond to social/environmental analysis issues - Accumulation of data-based social and environmental issue analysis cases and review of strengths and limitations of data analysis ○ Proposal of mid- to long-term roadmap for future improvement after pilot implementation of environmental data hub - Proposal of mid- to long-term roadmap after pilot implementation of environmental data hub based on IDR system Ⅱ. Strategies to Build an Environmental Data Hub 1. Overview of building a data hub □ Applicable data hubs in the environmental field need to be reviewed ○ Poor data analysis platform and data hub - UK: Support for data-based social problem solving and administrative data analysis research use - Singapore: Pan-government platform operation for national issue analysis - U.S.: Establishment and utilization of smart city data hub based on cyber physical system (CPS) - Korea: Establishment of collection-storage data base by the Ministry of Environment, and restriction of connection and use 2. Key Data Hub Examples □ Public Data Portal ○ Installed and operated according to the Public Data Act as the largest data hub in Korea - About 40,000 file data, 7,000 open data, and 10,000 standard data ○ Provides a national data map from various perspectives ○ Provide visualization services such as public participation map, location information visualization and so on □ National Statistics Portal ○ As the largest statistical data hub in Korea, domestic and foreign statistics are provided in accordance with the Statistical Act ○ Provide visualizations such as data maps from various viewpoints and e-local indicators (visualization) ○ Provide professional services such as micro data integration service □ Big data common-based insight portal ○ Pan-government big data analysis platform service ○ SNS text mining analysis and visualization provided, generally slow ○ Provide joint use data registration management system □ Environmental information convergence big data platform (environmental data portal) ○ Specialized data collection-storage portal in the environmental field ○ Provides 4 types of data analysis platform services, but it is slow and inconvenient ○ Next-generation upgrade planned after 2022 □ Environmental Business Big Data Platform ○ Environment field data distribution platform ○ Provide various text mining visualization results and environmental data visualization examples ○ A total of 17 public and private sectors participated □ Research data repository ○ A system for sharing research data - Core components of Open Science: Research data ㆍ NASA provides satellite data ㆍ CERN provides experimental data for the International Large Hadron Collider ㆍ Genomic data sharing service in the bio field ㆍ Nature, Springer, and Elsevier in publishing ○ The rise of the concept of open science to open and share research results and exaggerations ㆍ OECD: 13 principles including openness, effectiveness, and sustainability ㆍ ISC: makes 14 recommendations to promote universal and equal access to public data; ㆍ U.S.: Implementation of digital data management and collection by federal agencies at the national level, implementation of data management and sharing policies centered on national research institutes, and operating programs for infrastructure and data sharing ㆍ Europe: Establishment of OpenAIRE, an entire European network with national repositories, management of research results of investment projects, management of publications and literature ○ Overseas research data platform operation: Europe, USA, UK, Japan, Australia, etc. 3. Key Features of Data Hub □ Data Map ○ Utilize to effectively use vast amounts of data ○ Provide various viewpoints by classification, region, keyword, and field ○ In the environmental field, a multi-view classification system is required according to the keyword access order □ Data standardization ○ It means processing the data so that anyone can use it easily. ○ International standardization is promoted in consideration of the vertical and horizontal interoperability of big data ○ Domestic standardization is being applied only to some elements for big data processing □ Big data analysis and utilization system ○ Refers to a system for checking, analyzing, and visualizing data in connection with the data map ○ Support for functions similar to data analysis platform services □ Support for public data and data-based administration work ○ Recently, data-related laws have increased and related plans and evaluation responses have increased ○ DMP-Research data registration makes it possible to discover data, understand the current status, and prove performance ○ However, necessary to connect environmental data hubs and intranet information systemsm. Ⅲ. Analysis of COVID-19 Issues Centered on Environmental Data Hub 1. Data Status Review □ Although environmental statistics data is highly reliable, it takes a lot of time to calculate statistics, and there are temporal and spatial limitations □ Credit card data provides consumption big data for analysis of card usage status by industry by sector and social and environmental issues such as COVID-19 and fine dust. ○ Securing and analyzing data on BC card consumption related to COVID-19 through ‘data voucher business’ in ’20~’21 □ Possible to collect and use text data such as SNS and press releases for deriving and analyzing social and environmental issues. ○ Deriving environmental issues* that emerged after the COVID-19 crisis through text mining analysis * Environmental issues: 1) Increase in garbage (waste, etc.), 2) Decrease in air pollution (air quality), 3) Increase in energy (electricity, gas, etc.) 2. Analysis of environmental issues caused by near real-time due to COVID-19 □ Possible to develop timely policies to respond to environmental issues that occur in (quasi) real-time by convergence analysis of card data and environmental data for environmental issues that have emerged due to COVID-19 ○ Analysis of possible environmental issues (increase in waste, decrease in air pollution, increase in energy consumption) through card data-based consumption pattern change analysis ○ As a result of the analysis, when the number of confirmed COVID-19 cases increases, both the amount and number of delivery apps use increases, and the amount and number of use of public transportation and gas both decrease. It is considered that this is due to the high 3. Analysis of before and after COVID-19 social distancing policy □ Analyze the effect of government intervention by analyzing the changes in COVID-19 confirmed cases and card use before and after the social distancing policy after the COVID-19 inciden ○ Comparative analysis of data before and after 4 weeks (1 month) based on the social distancing period - 4 sections according to the social distancing stage (‘20.3.22~`20.4.19, `20.8.30~`20.9.13, `20.9.14~`20.10.11, `20.12.8~`20.12.28) ○ Confirm the existence of differences before and after the policy by analyzing the average change of the variables used in the calculation of the increase or decrease of the number of COVID-19 confirmed cases ○ Verification of the trend before and after the policy and comparison analysis based on the verified trend confirms that there is a trend change in all 4 sections 4. Additional Requirements for Environment Data Hub □ Detection of social/environmental issues and provide current status analysis ○ Need to automate data collection of documents, press, press releases and portals ○ Relevant and related issue analysis and procedures required for early detection of social and environmental issues □ Securing data for analysis of social/environmental issues and building a base for sharing ○ Need functions to efficiently provide public and private data ○ Review the scope of data for analyzing social and environmental issues, provide data, and establish examples of analysis □ Review of the nature and scope of the data ○ Data is utilized in consideration of circumstances such as reliability of data and prompt response to issues ○ Used as data for common use by reviewing the aspect of common use of data. ○ Research data was selected in consideration of data accessibility and Sustainability □ Review of the use of analysis tools to analyze social and environmental issues ○ Not all research data is used as analysis data ○ Necessary to discover analysis tools and use cases to analyze social and environmental issues □ Establishment of data-based policy decision support system that can draw policy implications ○ Since big data is analyzed through simplification with implications, additional procedures for decision-making such as expert interpretation and policymaking are absolutely necessary ○ Essential to establish a data-based policy decision support system Ⅳ. Implementation of a Pilot Environment Data Hub 1. Essentials of Building an Environmental Data Hub □ Data set ○ Demand for measures to secure quality data - Data demand survey that can be used for environmental policy - Automate data collection by collection path - Discover data networks such as participation in the data working group of the Ministry of Environment - Participation in competition for data set construction and data support projects - Improving researcher access and promoting work efficiency, etc. □ Data Repository ○ Demand for a method that can simultaneously maintain the convenience and integrity of meta information operation and management - Data submission, update, search function and metadata management function are required - Utilization of DMP, authority management, connection of external data and data analysis platform □ Data analysis platform ○ Need to build a data pipeline for data analysis - Data loading, pre-processing, analysis, verification, and visualization should be possible - Consider the convenience of using codes such as programming languages and libraries - Data linkage with data storage, flexible storage of data analysis results - User convenience of major AI and data analysis modules such as numerical prediction and text/image analysis 2. Building an Environmental Data Hub □ Preliminary considerations ○ Research data collection - Provide efficient inquiry and search results: whether original data, source, location of data, etc. - The joint use data and the year of the assignment are reflected in the top-level collection ㆍ Shared data: climate change, green transition, atmospheric environment, water management, land environment, resource circulation, environmental health, environmental impact assessment, index statistics, other (external), etc. ㆍ The collection by year of task execution contains collections by task type, and the task name collection exists under it ※ Collection: Cabinet containing research data and metadata of research data Research data categorization system ○ data citation - Creating a virtuous cycle ecosystem of data utilization through efficient research ㆍ Recognition of merits of previous researchers ㆍ Subsequent researchers can reproduce and utilize the research process and results ㆍ Contribute to the spread of research results through reuse of research results ㆍ Enhance the trust and transparency of research results among researchers - All 4 types of quotation marks including KEI format, MLA, APA, ISO 690 - DOI publishing function provided ○ Data map - Efficient data search ㆍ Users who do not have clear knowledge of the data they want to use can also use it ※ Integrated data map: Provides approaches by classification, region, keyword, and field ※ Public data portal: Treemap and search function are provided concurrently, and it is advantageous to understand the weight of data ○ Data management procedure - Systematic research data collection and storage possible through data construction and data management ㆍ Data construction: data classification and data standardization through data verification and review ㆍ Data management: Classify priorities into important data and general data, and perform data quality management, data disclosure decision, data supplementation, and life cycle management ㆍ Step-by-step life cycle management is required according to DMP-research data synchronization and planning-execution-completion ○ Building a framework - The KEI-IDR system is used as a research data repository and DMP-research data is used - Research DB uses intranet system and research information is linked - Big data analysis platform utilizes KEI big data analysis platform pilot service - External hubs are linked to suit the purpose of data, analysis, infrastructure, etc. - External data is linked according to the purpose of public data portal, national statistics portal, AI data hub, Big Kinds, etc. ○ Pilot build - Pilot implementation of an environmental data hub based on preliminary reviews, data management procedures, and ㆍ Build dynamic data capabilities to collect automatically updated data ㆍ Establishment of data sharing function among users and retention period function for data protection ㆍ Build external academic DB search function, data map, and external data function ㆍ Replace with physical storage NAS ○ External data utilization - Separation of data collection for common use: data frequently used for research, data with universal classification criteria ㆍ Data can be used remotely through OpenAPI, WebDAV, FTP, etc. - Data portal and data analysis platform ㆍ Use of environmental big data analysis platform pilot service, environmental data science conversion research service and personal analysis environment ㆍ When the use of data is more important, it is advantageous to use an external data analysis platform ㆍ MLOps: Used by organizations moving their analytics environment online ○ Environmental data hub upgrade plan - Improvement of DMP management function: copy template, change order, export to Excel, etc. - Improvement of personal storage function: upload/download, sharing, use of OpenAPI, interworking with programming code, etc. 3. Roadmap for expanding the environmental data hub □ Presenting a roadmap for the KEI-type environmental data hub ○ Presenting a KEI-type environmental data hub roadmap (simplification) in consideration of constraints - Constraints ㆍ Impossible to build an environmental data hub considering the characteristics of all research data. ㆍ Not practical to apply the general information system construction methodology ㆍ Consider changes in task execution period, budget, manpower, and social/environment ㆍ Step by step expansion of consumers such as researchers, policy makers, demanding companies and the general public - Proposals ㆍ Establishment of environmental data hub construction plan: Implemented for 8 months from the time the latest update of the 2021 standard IDR is completed ㆍ Establishment of environmental data hub infrastructure: Considering the linkage between the KEI-IDR system and other systems such as external analysis platform services and external data portals, and reflecting the flexible classification system ㆍ Environmental data hub upgrade: reflect external service changes, reflect results after demand survey, expand data map ○ Roadmap (simplification) Presenting a roadmap for expanding the environmental data hub in consideration of constraints - Data construction ㆍ Stage 1 (2020~2021): Research data registration and internal public pilot operation, environmental data platform status identification and analysis, and external data interlocking function establishment ㆍ Stage 2 (2022~2024): Expand research data registration projects to all government subsidy projects, prepare procedures for external disclosure of research data, and build AI data based on the results of environmental expert demand surveys ㆍ Stage 3 (from 2025): Expand research data registration target projects to consignment projects, expand research data disclosure target - Construction of data repository ㆍ Stage 1 (2020~2021): Introduction of standard IDR and establishment of KEI-IDR, interworking of intranet information system, establishment of basic data statistics, data map and external data search function ㆍ Stage 2 (2022~2024): stabilization of KEI-IDR, expansion of data linkage and utilization functions ㆍ Stage 3 (from 2025): Completion of data storage construction, advancement of data archiving service - Introduction of data analysis platform ㆍ Stage 1 (2020~2021): No phase 1 due to the use of the existing analysis platform service, server, and personal analysis environment ㆍ Stage 2 (2022~2024): Function improvement to directly connect research data in the analysis environment and establishment of an expert-oriented dashboard ㆍ Stage 3 (from 2025): Provide data convergence use cases and upgrade dashboard - Success conditions: Operation of a dedicated organization > Securing a budget and improving the system ㆍ Data policy improvement: information security policy improvement to enable safe and flexible access ㆍ Dedicated organization: Establishment of a dedicated organization in accordance with data-related laws, self-supply of data scientists and technicians (using professional training, etc.), and strengthening collaboration between departments and dedicated organizations by environmental media ㆍ Budget Securing: Possible to adjust (negotiate) to a level that is enforceable by KEI, however, the budget must be continuously guaranteed Ⅴ. Conclusion 1. Conclusion □ Improvement of researcher awareness and establishment of a collaborative ecosystem ○ Practical measures are needed to identify, analyze, and make policy decisions on various social and environmental issues, and it is necessary to prepare a system to respond in advance - Data-based response cases are increasing due to the continuous occurrence of social and environmental issues - Convergence of environmental statistics and social statistics, weakening the boundaries of environmental policy research ○ Policy reflection through flexible data utilization for rapid data production - Reflects the situation in which all physical elements such as people and objects are connected and interacted - Changes in perspective on data: timely results and determination of the importance of data trust - Constraints in environmental policy research: There is very little data available for timely issue analysis ○ Support for shortening the periodicity of statistical construction and screening data as a substitute - Review of the scope and limitations of various data in analyzing social and environmental issues - Although the amount of medical waste has increased significantly, there are no official statistics on the amount of waste in 2021 □ Establishment of a pilot environment data hub and foundation for environmental data utilization - Derivation of essential elements of building an environmental data hub: data set, data storage, data analysis platform - KEI-type mid- to long-term environmental data hub roadmap presented □ Suggestion of requirements for environmental data hub for social/environmental issue analysis - Necessary to secure data for analysis of social and environmental issues, to establish a foundation for data sharing, and to establish an analysis tool - Necessary to establish a data-based policy decision support system that can draw policy implication

      • 생활밀착형 환경이슈에 대한 수요반영 개선 연구 민원 빅데이터 분석을 중심으로

        진대용,강성원,한국진,김진형,김도연,강선아 한국환경연구원 2019 수시연구보고서 Vol.2019 No.-

        본 연구는 빅데이터 분석을 통한 생활밀착형 환경 이슈의 수요반영 개선 방안에 대한 연구이다. 시민들의 환경문제에 대한 인식이 높아지면서 미세먼지, 폐기물/쓰레기, 소음, 악취 등 다양한 환경문제가 이슈로 떠오르고 있다. 하지만 시민들이 실제로 해결을 요구하는 환경문제와 환경정책의 대응 사이에는 괴리가 존재한다. 이에 본 연구에서는 이런 시민들의 일상생활과 밀접한 관련이 있는 ‘민원’에서 발생하는 모든 환경 문제를 ‘생활밀착형 환경이슈’로 정의하고 이에 대한 수요를 반영할 수 있는 방안을 제시하였다. 먼저 환경부 유사민원(국민신문고 공개민원) 분석을 통해 민원에서 나타나는 전반적인 환경이슈들을 분석하였다. LDA 토픽 모델링을 수행하여 ‘생활환경’, ‘건설 및 가축 폐기물’, ‘환경영향평가’, ‘유해화학물질’, ‘대기오염물질 및 배출시설’, ‘폐수’, ‘의료 및 사업장 폐기물’ 7개의 토픽으로 구성하였는데, 전체적으로 볼 때 소음, 쓰레기, 미세먼지 등을 포함하는 ‘생활환경’ 이슈와 관련한 민원이 상대적으로 증가 추세가 있었다. ‘생활환경’ 에서는 2015년까지는 ‘공사소음, ‘층간소음’, ‘교통소음’, ‘공장소음’ 등의 다양한 소음 문제의 해결을 요구하는 민원이 대다수 였지만, 2016년 이후는 미세먼지 이슈가 등장하면서 미세먼지가 가장 높은 빈도수를 보였다. 특히 ‘미세먼지’의 경우 ‘아이’들의 건강에 대한 우려와 더불어 관련 대책을 요구하는 민원이 많았다. ‘건설 및 가축 폐기물’ 및 ‘의료 및 사업장 폐기물’ 에서는 처리, 분리수거, 재활용 등에 관련된 내용이 많았으며, 특히 부가가치가 높은 건축 폐기물에 대한 ‘순환 골재’ 등에 대한 인식 개선이 필요한 것으로 나타났다. ‘환경영향평가’에서는 2018년 ‘소규모 환경영향평가’의 수요가 급격하게 증가하였으며, ‘폐수’에서는 폐수(배출시설), 수질 등과 관련된 민원이 꾸준히 나타나고 있었고, 각종 축산폐수 등으로 인한 ‘지하수’에 대한 내용이 증가하는 추세를 보였다. ‘유해화학물질’ 에서는 설치검사, 안전검사, 설치검사, 영업허가, 취급시설, 신고대상 등에 내용이 많았고, 대기오염물질 및 배출시설’에서는 대기배출시설, 배출허용기준, 방지시설, 자가측정, 악취배출 허용 및 해당 여부 등의 내용이 많았다. 세종특별자치시에서는 ‘소음’, ‘악취’와 관련한 민원이 많았다. 신도시의 특성상 각종 주거시설 및 상업시설의 소음과 먼지로 인한 민원이 다수 발생한 것으로 보인다. 따라서 소음의 원인을 추적하고 적시에 대응하는 동시에, 도로변에서 발생하는 소음을 막기 위한 방음벽 설치 등의 정책적 지원이 필요할 것으로 사료된다. 악취 문제에 대한 대책도 필요하다. 비료, 쓰레기악취, 축사악취 등으로 인한 악취가 다수 발생하고 있으므로 이에 대한 대처가 필요하다. 또한 단지 내, 아파트, 상가, 그리고 특히 버스정류장 등에서 자주 발생하는 쓰레기 문제에 대응하기 위한 정책 및 전기차 충전소 설치, 및 보조금 지급에 관련한 문제에 대해서도 보다 건설적인 대책이 필요해 보인다. 환경정책의 최종 수요자는 국민이므로, 이들이 해결을 요구하는 환경이슈를 다양한 경로로 파악하는 것이 중요하다. 민원은 환경 텍스트 중 시민들의 실제 생활과 관련성이 높은 환경문제의 시각을 반영하고 있어 좋은 정책수립의 근거를 찾을 수 있을 것으로 판단된다. 현재 시민 대다수가 많은 환경문제 에서도 미세먼지 이슈에 촉각을 곤두세우고 있다. 그런 한편으로 실제 민원에서는 이 외에도 공사소음, 쓰레기, 악취 등의 문제에 대한 해결을 요구하는 비중이 높은 것으로 나타나 이에 대한 적극적인 대응이 필요한 실정이다. 미세먼지는 단기간에 해결할 수 있는 문제가 아니며 국내의 문제해결과 더불어 국제적인 협력을 필요로 한다. 반면에 소음, 쓰레기, 악취 등은 충분한 논의를 통해 규제, 피해보상, 단속강화 등이 이루어진다면 그 피해를 줄일 수 있을 것으로 보인다.

      • 인공지능 딥러닝을 활용한 조류현상 예측기술 개발 및 활용방안

        홍한움,조을생,강선아,한국진 한국환경정책평가연구원 2020 기본연구보고서 Vol.2020 No.-

        Ⅰ. 연구의 배경 및 목적 1. 연구 개요 □ 연구명: 인공지능 딥러닝을 이용한 조류현상 예측기술 개발 및 활용방안 □ 연구기간: 2020.1.1~2020.12.31. 2. 연구의 필요성 및 목적 □ 조류현상의 원인 ㅇ 조류현상은 녹조현상과 적조현상을 포함 - 녹조현상: 강 및 호수에 남조류 과다 생성 - 적조현상: 바다에 갈색을 띠는 규조류 및 와편모조류 번성 □ 현행 조류경보제의 한계 ㅇ 환경부 및 국립환경과학원에서는 유해남조류 실측치 및 EFDC 모형에 기반하여 조류 경보제 시행 ㅇ 물리 모형의 한계 - 탄탄한 이론적 배경을 기반으로 하나, 모형이 요구하는 세밀한 데이터를 확보하는데 한계가 있음 - 질량보존의 법칙에 기반한 물리 모형 활용 생명활동인 조류현상 예측에 한계가 있음 ㅇ 딥러닝 예측을 대안 및 보완방안으로 고려 Ⅱ. 현행 녹조대응정책 1. 조류경보제 □ 도입 시기: 1998년 □ 법적 근거: 「물환경보전법」 제21조 □ 대상 ㅇ 상수원 및 친수활동구간 28개소 지점 ㅇ 발령권자: 국립환경과학원 □ 분석 항목 ㅇ 유해남조류세포수 실측치 ㅇ 상수원 구간 기준 - 관심: 1,000(cells/mL) 이상 - 경계: 10,000(cells/mL) 이상 - 대발생: 1,000,000(cells/mL) 이상 2. (구) 수질예보제 □ 도입 시기: 2012년 □ 법적 근거: 「물환경보전법」 제21조 □ 대상 ㅇ 4대강 16개 보 및 북한강 삼봉리 등 17개 지점 ㅇ 발령권자: 국립환경과학원 □ 분석 항목 ㅇ 수온 및 클로로필a 농도 예측치 ㅇ 현재는 조류경보제와 수질예보제를 통합 운영함에 따라 예측은 수행하지만 예보 발령은 하지 않음 □ 현재 유해남조류 예측정보 제공 ㅇ 현재 국립환경과학원에서 유해남조류 예측정보 제공 중 ㅇ 주 2회 월·목요일 조류경보제 6개 지점 대상 ㅇ 유해남조류세포수 및 수온예측 결과 발표 3. 수질측정망 현황 □ 법적 근거 ㅇ 「환경정책 기본법」 제22조 및 「물환경보전법」 제9조 □ 구성 ㅇ 수질측정망 - 대상: 하천, 호소, 농엽용수, 도시관류, 산단하천에서의 수질측정데이터 - 제공 정보: 수심, 수소이온농도, 용존산소량, BOD, COD, 부유물질, 총질소, 총인, 총유기탄소(TOC), 수온, 페놀류, 전기전도도, 총대장균군수, 용존총질소, 암모니아성 질소, 질산성 질소, 용존총인, 용존총인, 인산염인, 클로로필a, 투명도 - 주기: 월 1회, 주요지점에 대해서는 주 1회 ㅇ 총량측정망 - 대상: 수질오염총량제 대상 지역에 대해 총량 관리에 필요한 기초데이터 - 제공 정보: 수온, 수소이온농도, 전기전도도, 용존산소, BOD, COD, 부유물질, 총질소, 총인, TOC, 유량 - 주기: 월 1회 ㅇ 자동측정망 - 수동적으로 측정되는 일반측정망의 보완을 위해 운영 - 제공 정보: (공통항목) 수온, 수소이온농도, 용존산소량, 전기전도도, TOC (선택항목) 탁도, 클로로필a, TN, TP, NH3-N, NO3-N, PO4-P, VOCs(9종 10개), 페놀, 중금속, 생물감시항목 - 주기: 일 1회 ㅇ 퇴적물측정망 - 목적: 국 하천 및 호소 등 수질보전대상 공공수역에 대한 퇴적물의 이화학적 특성 조사 - 제공 정보: (공통항목) 수온, 수소이온농도, 용존산소량, 전기전도도, TOC (선택항목) 채취시간 최고수심, 표층측정수심, 표층 및 저층 수심, 수온, 용존산소량, pH, 전기전도도, 퇴적물 입도, 함수율, 완전연소가능량 비율 및 등급, COD, TOC, TN, TN등급, TP, SRP, 중금속, 보존성 원소 농도 - 주기: (하천) 상·하반기 연 2회, (호소) 연 1회 ㅇ 이 외에 방사성 측정망 및 생물측정망 추가 측정 Ⅲ. 수질 예측 모형 1. 물리모형 □ 모형 예시 ㅇ EFDC, QUAL2K, WASP 등 ㅇ 국립환경과학원에서는 EFDC 기반 모형 운용 중 □ 구성 ㅇ 수계를 소구역으로 분할한 모델 격자망 구성 및 경계조건 설정 ㅇ 격자망 안의 소구역 단위에서 수질 추정 □ 사례 ㅇ 신창민 외(2017)의 EFDC 활용 영산강 수계 예측 2. 딥러닝 모형 □ 모형 구조 ㅇ 다층 퍼셉트론(DMLP) - 신경망의 뉴런과 시냅스를 모방한 모형. 입력층, 은닉층, 출력층으로 구성. 은닉층을 여러 개 두는 다층 구조로 구성 ㅇ 순환신경망(RNN) - 다층 퍼셉트론 모형에서 전 시점 은닉 노드의 피드백을 추가 반영한 모형 - 현대에는 단순 순환신경망 모형을 기반으로 하여 장기 기억을 활용할 수 있는 GRU, LSTM 모형을 활용 □ 수질 예측 모형 적용 예시 3. 물리모형 vs 딥러닝 알고리듬 □ 물리모형 ㅇ 잘 확립된 수학/물리법칙에 기반 ㅇ 실제 관측값은 모형 평가에 활용 ㅇ 물리적 방정식을 통해 관측값보다 세밀한 해상도에서 예측수행 가능 ㅇ 단점 - 불확실한 초기/경계조건으로 인한 오차 - 이상현상을 예측하기 어려움 - 부실한 입력데이터, 모델 관계식의 불안정성, 모델링 방법 등의 문제로 작동하지 않을 수 있음 □ 딥러닝 알고리듬 ㅇ 기계학습을 통해 입력변수와 출력변수의 관계 구축 ㅇ 실제 관측값 모형 구축에 활용 ㅇ 측정값의 오차를 정량화하여 모형 안에 오류 조건 내장 ㅇ 물리 모형 대비 불확실성이 큰 단기 예측에 강점 ㅇ 단점 - 많은 데이터 요구 - 관측 해상도보다 세밀화 불가능 - 입력변수와 출력변수의 관계를 설명할 수 없기 때문에 실제 활용에 한계가 있음 Ⅳ. 딥러닝 기반 조류예측 알고리듬 개발 1. 데이터 수집 및 전처리 □ 모형 구축 대상 ㅇ 대상 지점: 한강 친수활동구간 조류 관찰지점 ㅇ 대상 변수 - 조류현상의 직접 원인인 유해남조류세포수 직접 예측 - 클로로필a 예측 등을 통해 우회적으로 녹조현상을 예측한 선행연구와 차별성이 있음 □ 모형 구축 기간 ㅇ 대상기간: 2007.4~2020.8. ㅇ 조류현상으로부터 비교적 안전한 겨울철인 12 ~ 3월의 겨울철 데이터는 관측값이 없으므로 제외 ㅇ 수집 데이터 2. 조류 데이터 특성 □ 기술통계 □ 특징 ㅇ 극단적으로 오른쪽으로 치우친 비대칭 분포 ㅇ 온도가 높은 여름철에 집중적으로 발생하여 이와 같은 극단적인 비대칭 특성이 나타남 ㅇ 극단적 비대칭 특성으로 인해 물리 모형이나 전통적인 통계 모형 등으로 유해남조류를 직접 예측하기 어려움 3. 예측 알고리듬 개발 □ RNN 모형 구축 ㅇ 로그스케일에서의 유해남조류세포수를 예측대상으로 함 ㅇ 장기기억 정보 활용을 위해 LSTM 예측 알고리듬을 구축함 ㅇ 최적화를 위한 손실함수: 최소제곱함수 최적화 알고리듬: ADAM ㅇ 학습 데이터(training data): 2007.4~2016.11. 검정 데이터(test data): 2017.4~2020.6. □ 결과 ㅇ 전 관측소에서 유해남조류의 증감 패턴을 잘 예측함. 친수활동구간은 하천 하류에 위치하여 데이터 불안정성이 커 전통적인 예측 방법으로는 예측하기 어려우나, 본 연구에서는 증감 패턴을 잘 예측함 ㅇ 가장 큰 극단값의 발생을 동 시점에서 예측함 ㅇ 예측오차 Ⅴ. 결론 및 학술적 성과 □ 학술적 성과 ㅇ 물리모형을 활용한 예측은 명확한 이론을 바탕으로 정립되어 있기 때문에 수온, 용존산소량, 총인, 총질소 등의 수질 예측에 널리 쓰임. 하지만 질량보존법칙을 기저로 하는 물리 방정식을 활용한 예측은 보존성 물질에는 잘 맞으나 살아 있는 생명체의 활동인 조류현상 예측에는 한계가 있음 ㅇ 기존 조류현상 예측 연구는 조류현상의 직접적인 원인인 유해남조류세포수(cells/mL)를 직접 예측하지 않고 클로로필a 농도(mg/m3) 예측 결과를 활용하는 것으로 대체함 ㅇ 본 연구에서는 물리 모형으로는 예측하기 힘든 유해남조류세포수 예측에 대한 대안으로 순환신경망 기반의 딥러닝 알고리듬을 활용함. 조류 증감 및 이상현상 발생을 동 시점에서 잘 예측함 □ 한계 ㅇ 입력변수로 수질, 상류 수질, 수위, 기상 정보만을 활용하였는데, 이는 물리 모형에서 이미 쓰고 있는 변수 위주임. 인구 변화와 같은 인간 사회 활동에 관한 변수를 고려하면 딥러닝 분석의 이점을 더 크게 활용할 수 있음. 위성 이미지 등의 비정형 데이터 또한 추가로 고려할 수 있음 ㅇ 데이터 수의 한계. 본 연구에서는 2007년부터 2016년까지의 총 365개 주별 데이터를 활용하여 모형을 학습하였는데, 이 데이터 수 자체가 충분하다고 할 수 없음. 새로운 데이터가 추가될 때마다 예측 모형을 업데이트하여 효율성을 높여야 함 ㅇ 딥러닝 모형의 근본적 한계. 실제 모형의 자세한 동작 과정을 명확히 알 수 없다는 블랙박스(black-box) 특성으로 인한 한계가 있음. 정책을 시행할 때는 근거가 필요한데, 딥러닝 예측 모형의 블랙박스 특성은 명확한 근거를 수립하기 어려움 □ 결론 및 제언 ㅇ 이미 구축된 모형에 대한 예측 수행은 매우 간단하므로 현재의 조류 예보에 참고 정보로 바로 활용할 수 있음 ㅇ 딥러닝 모형을 활용한 예측과 물리 모형을 활용한 예측 모두 장단점이 있으므로 두 예측 방식을 통합하는 것이 가장 바람직함. 딥러닝 모형에 기반을 두고 목적함수의 제약 조건에 물리 방정식을 포함하는 방식으로 물리 모형을 통합할 수도 있고, 물리모형 예측의 부분 모듈에 딥러닝 학습을 부분적으로 수행하는 방식으로 물리 모형을 기반으로 딥러닝 모형을 통합할 수도 있음 Ⅰ. Background and Aims of Research 1. Research outline □ Research title: Development and application of an algal bloom forecast system using artificial intelligence deep learning technology □ Research period: January 1, 2020 ~ December 31, 2020 2. Necessity and purpose of research □ Limitations of the current algal bloom warning system ㅇ The Ministry of Environment and the National Institute of Environmental Research implemented an algal bloom warning system based on the measured values of harmful blue-green algae and the EFDC model. ㅇ Limitations of physics-based models - They have a solid theoretical background but there is a difficulty in securing the detailed data required by the model. - Since algal blooms are living organisms, the law of conservation of mass does not apply to the number of harmful blue-green algae cells. Therefore, the physics-based model has limitations. - Deep learning-based forecasting can be considered as an alternative and a complementary method. Ⅱ. Current Algal Bloom Response Policy 1. Algal bloom warning system □ Year of introduction: 1998 □ Legal basis: Article 21 of the Water Environment Conservation Act □ Target ㅇ 28 branches of water supply sources and hydrophilic activities ㅇ Issuer: Basin Environmental Office and local governments □ Analysis items ㅇ Measured numbers of harmful blue-green algae cells ㅇ Based on water source section - Attention: 1,000 (cells/mL) or more - Alert: 10,000 (cells/mL) or more - Large bloom: 1,000,000 (cells/mL) or more ㅇ Based on hydrophilic activities section - Attention: 20,000 (cells/mL) or more - Alert: 100,000 (cells/mL) or more 2. (Former) Water quality forecast system □ Year of Introduction: 2012 □ Legal basis: Article 21 of the Water Environment Conservation Act □ Target ㅇ 17 branches including 16 barrages and the Bukhan River Sambong-ri of the four major rivers of South Korea ㅇ Issuer: National Institute of Environmental Research □ Analysis items ㅇ Predicted water temperature and chlorophyll-a concentration ㅇ Currently, as the algal bloom warning system and the water quality forecast system are integrated, no forecast is issued although forecasting is performed. □ Providing forecasts for harmful blue-green algae cells ㅇ Twice a week, Monday and Thursday, six branches that are targets of the algal bloom system ㅇ Issuing the predicted number of harmful blue-green algae cells and water temperature predictions 3. Status of the water quality monitoring network □ Legal basis ㅇ Article 22 of the Basic Act on Environmental Policy and Article 9 of the Water Environment Conservation Act □ Organization ㅇ Water quality monitoring network - Target: water quality measurement data in rivers, lakes, agricultural water, urban streams, and industrial rivers - Provided information: water depth, hydrogen ion concentration, dissolved oxygen content, BOD, COD, suspended matter, total nitrogen, total phosphorus, total organic carbon (TOC), water temperature, phenols, electrical conductivity, total coliform group, dissolved total nitrogen, ammonia nitrogen, nitrate nitrogen, dissolved total phosphorus, phosphate phosphorus, chlorophyll a, transparency - Cycle: once a month, once a week for major locations ㅇ Total quantity measurement network - Target: basic data for total amount management in areas subject to the total water pollution rate system - Provided information: water temperature, hydrogen ion concentration, electrical conductivity, dissolved oxygen, BOD, COD, suspended matter, total nitrogen, total phosphorus, TOC, flow rate - Cycle: once a month ㅇ Automatic measurement network - Operated to complement the hand-operated measurements of the water quality monitoring network - Provided information: (Common) water temperature, hydrogen ion concentration, dissolved oxygen content, electrical conductivity, TOC (Optional) Turbidity, chlorophyll a, TN, TP, NH<sub>3</sub>-N, NO<sub>3</sub>-N, PO<sub>3</sub>-P, VOCs (nine types, ten items), phenol, heavy metals, biological monitoring items - Cycle: once a day ㅇ Sediment monitoring network - Purpose: investigation of the physicochemical properties of sediments in public waters subject to water quality conservation of South Korea - Provided information: (Common) water temperature, hydrogen ion concentration, dissolved oxygen content, electrical conductivity, TOC (Optional) maximum depth during collection, surface measurement depth, surface and bottom depth, water temperature, dissolved oxygen content, pH, electrical conductivity, sediment particle size, moisture content, ratio and grade of complete combustion potential, COD, TOC, TN, TN grade, TP, SRP, heavy metals, conservative element concentration - Cycle: (River) twice a year for the first and second halves, (Lake) once a year ㅇ In addition, there are additional measurements of radioactive monitoring networks and biometric networks. Ⅲ. Water Quality Prediction Models 1. Physics-based model □ Example ㅇ EFDC, QUAL2K, WASP, etc. ㅇ The National Institute of Environmental Research is operating an EFDC-based model. □ Organization ㅇ Construct a grid network by dividing the water system into sub-regions and set boundary conditions ㅇ Estimate the water quality in sub-area units within the grid 2. Deep learning algorithm □ Model structure ㅇ Multi-layer perceptron (MLP) - It mimics the neurons and synapses of a neural network. It consists of an input layer, a hidden layer, and an output layer. it has a multi-layered structure with more than one hidden layer. ㅇ Recurrent Neural Network (RNN) - It additionally reflects the feedback effects of previous hidden nodes. - Nowadays, GRU and LSTM models are used. These models utilize the long-term memory based on a simple recurrent neural network. 3. Physics-based model vs. Deep learning algorithm □ Physics-based model ㅇ Based on well-established mathematical/physical laws ㅇ Actual observations are used for model evaluation. ㅇ Prediction can be performed at a more detailed resolution than observed values based on physical equations. ㅇ Disadvantages - Errors due to uncertain initial/boundary conditions - Difficulty in predicting the abnormal phenomena - May not work due to problems such as poor input data, instability of model relations, modeling method, etc. □ Deep learning algorithm ㅇ Establish the relationship between input and output variables through machine learning ㅇ Actual observations are used for model construction. ㅇ Includes error conditions in the model by quantifying the error of the measurements ㅇ Advantages in short-term predictions with greater uncertainties compared to physics-based models ㅇ Disadvantages - Requires a huge amount of data - Cannot be performed at a more detailed resolution than observation resolution - Practical application is limited since the relationship between input and output variables cannot be explained. Ⅳ. Development of an Algal Bloom Forecast Algorithm Based on Deep Learning 1. Data collection and preprocessing □ Model construction target ㅇ Target point: algae observation point in the hydrophilic activity section of the Han River ㅇ Target variable - Direct prediction of the number of harmful blue-green algae cells which is the direct cause of the algal bloom - Differentiated from previous studies that indirectly predicted the algal bloom through chlorophyll a prediction □ Model construction period ㅇ Target period: April 2007 ~ August 2020 ㅇ Data in winter from December to March, which is relatively safe from algal blooms, are excluded. 2. Characteristics of algae data □ Descriptive statistics □ Characteristics ㅇ Extremely right-skewed asymmetric distribution ㅇ Extreme asymmetric distribution is exhibited since algal blooms occur intensively in summer when the temperature is high. ㅇ Because of this, it is difficult to directly predict harmful blue-green algae using physics-based models or traditional statistical models. 3. Development of a predicting algorithm □ RNN model construction ㅇ Target of prediction: the number of harmful blue-green algae cells ㅇ Constructing an LSTM prediction algorithm to utilize the long-term memory information ㅇ Loss function for optimization: least squares function Optimization algorithm: ADAM ㅇ Training data: April 2007 ~ November 2016 Test data: April 2017 ~ June 2020 □ Results ㅇ The increasing and decreasing patterns are well predicted although there is difficulty in predicting using traditional prediction methods due to high data instability, which results from the fact that the hydrophilic activity section is located downstream of the river. ㅇ Well predict the occurrence of the largest extreme value at the same time ㅇ Prediction error Ⅴ. Conclusion and Achievements □ Achievements ㅇ Since the prediction using a physical model is established based on a well-established theory, it is widely used to predict properties of water quality such as water temperature, dissolved oxygen, total phosphorus, and total nitrogen. The prediction using the physical equation based on the law of conservation of mass is well suited for conservative substance. However, there is a limitation in the prediction of algae cells since it is the activity of living organisms. ㅇ Existing algal phenomena prediction studies have not directly predicted the number of harmful blue-green algae cells, which is the direct cause of algal phenomena. It is replaced by using the results of chlorophyll a concentration prediction. ㅇ In this study, a deep learning algorithm based on recurrent neural networks was used as an alternative method to predict the number of harmful blue-green algae cells. It well predicted the increasing or decreasing patterns of algae and the occurrence of abnormal phenomena at the concurrent point. □ Limitations ㅇ Only water quality, upstream water quality, water level, and meteorological information were used as input variables. These variables are already used in the physical model. Taking into account social variables such as population change and the benefits of deep learning analytics can be leveraged to a greater extent. Unstructured information such as satellite images can be additionally considered. ㅇ There is a limitation in the amount of data. In this study, the model was studied using data from a total of 365 weekly data collections from 2007 to 2016, but this amount itself is not sufficient. Whenever new data are added, the predictive model should be updated to increase the prediction efficiency. ㅇ There is a limitation due to the black-box characteristic. The detailed operational process of the prediction model cannot be clearly observed. When implementing a policy, evidence is needed. The black-box characteristic of deep learning prediction models makes it difficult to provide clear evidence. □ Conclusions and suggestions ㅇ Because it is very simple to perform predictions with the model that has already been established, it can be directly used as reference information for current algal bloom forecasts. ㅇ Since predictions using deep learning models and physics-based models both have advantages and disadvantages, it is most desirable to integrate the two prediction methods. Based on the deep learning model, the physical model can be integrated by including the physical equation in the constraint of the objective function. Or, deep learning can be partially performed in the partial module of the physical model prediction.

      • 환경 디지털 뉴딜 구현을 위한 AI 기반 환경 감시 체계 구축

        진대용,표종철,김도연,조윤랑,한국진 한국환경연구원 2021 기본연구보고서 Vol.2021 No.-

        Ⅰ. 서 론 □ 연구의 필요성 ㅇ 환경(정책)분야에서 AI 기술 활용은 그린 뉴딜과 디지털 뉴딜 연결에 주체적인 가교역할을 할 수 있지만 그 역할을 충분히 수행하지 못하고 있음 ㅇ 환경 분야의 데이터를 AI 기술을 중심으로 체계적이고 종합적으로 활용하기 위한 전략구축이 필요한 상황임 ㅇ ‘AI 기반 환경 감시 체계’ 구축을 위해서는 환경변화탐지, 자연재해 분석, 매체별 오염 발생패턴 분석 등 사례구축이 우선적으로 필요하며 이를 통해 필요한 요소 도출 및 프로세스 설계가 필요함 □ 연구의 목적 ㅇ AI 및 XAI 복합적 활용을 통한 AI 기반 환경 자동 모니터링 및 대응을 위한 주요 사례를 구축하고 이를 토대로 ‘AI 기반 환경 감시 체계’ 구축 전략을 제시함 Ⅱ. 선행연구 □ 환경정책연구에서 AI 연구 활용 범위의 확대 ㅇ 기존 의사결정 방법론의 한계를 다수의 파라미터로 구성된 AI 모델로 개선 가능 ㅇ 환경연구에서도 AI 방법론의 활용이 확대 중임 - 수치, 이미지, 영상 등 다양한 형태의 데이터를 변수로 활용 가능하며 예측, 분류, 검출, 변화탐지 및 영향력 분석 등이 가능함 - AI는 성능 측면에서 높은 정확도를 나타내지만, 복잡한 모델 구성으로 인해 설명력이 낮은 문제가 존재함 □ 설명 가능한 인공지능(XAI: eXplainable AI)의 등장으로 예측과 동시에 영향력이 큰 요인을 확인하여 의사결정을 위한 양적 자료로 활용 가능성 확대 ㅇ 블랙박스(Black-Box) 구조로 되어 있는 인공지능 알고리즘의 투명성과 신뢰성 확보를 위해 XAI 연구가 활발해지는 추세임 - 2017년 미 방위고등연구계획국(DARPA: Defense Advanced Research Projects Agency)에서 발표한 설명 가능 인공지능 프로젝트인 XAI를 시작으로 설명 가능한 인공지능의 기술 연구가 본격적으로 전개 중임 ㅇ XAI 분석 연구는 대기오염, 수질오염, 토양오염 등의 환경오염 문제뿐만 아니라 생태계 분야 등 다양한 환경 분야에서 적용되고 있음 - XAI 중에서 LIME(Local Interpretable Model-agnostic Explanations), SHAP(SHapley Additive exPlanation), Grad-CAM(Gradient-Class Activation Map) 등의 모형이 주로 활용되고 있음 □ IoT, 드론, 무인이동체 등 다양한 애플리케이션 및 기기를 통해 데이터 수집이 가능해져 환경 빅데이터가 축적되고 있으며 AI 적용 연구가 확대되는 추세임 ㅇ 환경분야에서 생성되는 이미지 및 영상 데이터는 기후, 환경오염(대기, 수질, 토양, 소음 등) 등 다양한 분야에 관련되어 있음 - AI 기반 예측, 분류 및 결측 데이터 보간 연구 등이 활발히 수행 중임 - 예측연구뿐만 아니라, XAI 기반 예측에 영향력이 큰 요인들을 제시하여 의사결정을 위한 양적 자료로 활용 가능성 확대 Ⅲ. AI 기반 산지 변화 탐지 1. AI 기반 산지 변화 탐지 연구의 개요 □ GIS와 원격탐사 기술을 이용한 산지 변화에 대한 실태 조사, 의심지 도출 및 후속 조치와 같은 대응이 이루어지고 있지만, 산지 변화의 조기 탐지 수행을 통한 피해지역의 조기 대응과 피해 축소가 필요함 □ 따라서 본 연구는 딥러닝 기술을 이용한 산지 변화 탐지에 대한 가능성을 제안함 2. 국내외 산림지도 현황 □ 국내외 산림지도 공급 현황 ㅇ 국토정보 플랫폼(국토지리정보원), 산림공간포탈서비스(산림청), AI 허브 산림수종 항공이미지 자료(한국지능정보사회진흥원) 등 ㅇ UCI Machine Learning Repository(미국), Skyscape dataset(독일 항공우주 센터), Semantic Change detection dataset(중국 우한대학교) 등 3. AI 기반 산지 변화탐지 입력자료 구성 및 모델 구성 □ AI 모델 입력자료 구성 ㅇ AI 허브 국토환경데이터에서 산림수종 항공이미지를 활용함 ㅇ 항공영상을 128×128로 세분화하여 한 영상당 16장의 이미지로 구성하고, RGB 항공영상 정보의 정규화를 수행함 ㅇ 라벨링 데이터는 산림과 비산림으로만 구분하기 위해 바이너리 어노테이션(binary annotation)을 수행하였고, 판독 불가의 라벨이 포함된 항공 이미지는 제외함 ㅇ 수도권 지역의 학습 이미지 총 1만 6,000장과 검증 이미지 총 1,600장을 AI 모델 입력자료로 활용함 ㅇ 산지 변화 탐지 성능 테스트를 위해 카카오 지도(Kakao Map)의 동 지역 다(多) 시기 테스트 이미지 데이터셋(data set)을 구성함 □ AI 모델의 구조 ㅇ 이미지 분할(Image segmentation)에 특화된 U-Net 딥러닝 모델 구조를 적용 ㅇ 기훈련된 U-Net 딥러닝 아키텍처의 레이어 구성과 하이퍼 파라미터를 파인튜닝(fine-tuning) 하여 산지 변화 탐지 학습을 수행 4. AI 모델 산지 변화탐지 결과 및 활용방향 □ U-Net 모델의 훈련 및 검증 결과는 산림과 비산림 지역을 잘 구분하였고, 실제 라벨링 지역과 유사한 패턴을 보이는 것을 확인함 □ 훈련된 U-Net 모델에 카카오 지도의 동 지역 다(多) 시기 이미지 적용 시 산지의 변화를 잘 구분하는 것을 확인하여, 산지 변화 탐지에 대한 딥러닝 모델의 활용 가능성을 확인함 Ⅳ. AI 기반 기후·대기오염과 코로나19 상관관계 분석 1. AI 기반 기후·대기오염과 코로나19 상관관계 분석 연구개요 □ 기후변화가 코로나19의 확산에 직접적인 영향을 미친다는 증거는 없으나, 관련 논의는 지속적으로 진행 중인 상황임 □ 2020년 서울시를 대상으로 기후 및 대기오염과 코로나19의 상관관계 분석을 수행하고, 기후 및 대기오염 인자와 코로나19 확진 사이의 관계에 대해 모의한 AI 모형 구축 가능성을 검토함 2. 기후·대기오염과 코로나19 상관관계 관련 선행연구 검토 □ 최신 국내외 연구사례 분석 결과, 국가별 결과가 상이하며 기후 및 대기오염 변수가 코로나19에 직접적인 영향을 미친다고 보기에는 어려운 것으로 사료됨 ㅇ 코로나19 사태 이후 기후 및 대기오염 영향 연구가 활발히 진행 중임 - 메르스, 사스, 코로나19 등 감염병은 계절적 패턴을 보이며 기온, 습도 데이터를 활용하여 예측 가능성을 검토함 - 유럽에서는 코로나19로 인한 사망에 이산화질소(NO<sub>2</sub>)가 중요한 요소인 것으로 추정하였으며, 인도에서는 코로나19로 에어로졸 광학깊이(AOD)가 20년 만에 최저 수준으로 나타남 3. 기후·대기오염과 코로나19 상관관계 분석 및 결과 □ 2020년도 서울시 중심 기후 및 대기오염과 코로나19 상관관계 분석 시범 연구 사례 도출 ㅇ 코로나 관련 확진자 및 사망자 수, 기후 및 대기오염 데이터 수집을 통한 학습 데이터셋 구축 ㅇ 계절적 요인을 제외하기 위한 시기별(구간별) 스피어만(Spearman), 켄달(Kendall) 상관관계 분석 수행 - 전체기간 분석 결과 기온 변수가 코로나19 확진자 수와 높은 상관성을 나타냄 - 하지만 기온 변수의 코로나 시기별 상관계수 부호와 값이 크게 바뀌어 결과에 일관성 문제가 있음을 확인 ㅇ 분석 결과 한계점을 확인하였으며, 향후 분석 시 정책, 사회활동 변수 추가 필요 - 코로나19 확진자 수를 추정할 수 있는 직접적인 관련 입력변수(정책, 인구 이동 등)를 추가하여 분석 수행 필요 - 분석대상이 되는 기간이 2020년 1개 연도로, 데이터 축적을 통해 이를 늘릴 필요가 있음 Ⅴ. AI 기반 침수 흔적 탐지 1. AI 기반 침수 흔적 탐지 연구 개요 □ 오픈데이터(Open Data)를 활용하여 AI 기반 도심 침수 흔적 탐지 체계 구축 연구를 수행함 □ GIS 기반 공간 데이터 전처리, 파이썬 기반 전처리 데이터의 AI 모델 입력자료 구축, 기계학습 모델 구축을 통한 침수 흔적 탐지 학습 및 활용한 입력 데이터 중 침수 탐지에 중요한 인자 추정 □ 침수 취약 지도 작성과 중요 인자 파악 및 분석, 기후변화시나리오 데이터를 적용한 미래 침수 취약지역 예측 및 분석 수행 2. AI 기반 침수 흔적 탐지 입력자료 및 모델 구성 □ AI 모델 입력자료 구성 ㅇ 환경 빅데이터 플랫폼, 기상정보포털, 그리고 환경공간정보서비스를 통한 수문분석도, 지형분석도, 기후변화 시나리오 데이터, GIS 데이터를 활용함 ㅇ 취득한 공간 데이터의 수도권 지역으로 공간적 범위 일원화, 래스터화 및 적층을 통한 입력자료 구성을 진행함 ㅇ 랜덤 포레스트 모델 훈련을 위해 침수위선상 침수 범위의 150지점을 훈련데이터로, 50지점을 검증데이터로 사용함 □ AI 모델의 구성 ㅇ 앙상블 학습 방법을 활용하는 대표적인 기계학습 모델인 랜덤 포레스트(Random Forest) 모델 구성과 학습을 통한 수도권 지역 침수 흔적 탐지 성능 평가를 진행함 ㅇ 침수 흔적 탐지 결과에 대한 입력자료의 민감도 분석을 위해 랜덤 포레스트 모델의 변수 중요도(Variable importance)를 추정함 3. AI 모델 침수 흔적 탐지 성능 및 검증 □ 랜덤 포레스트 모델 침수 흔적 탐지 성능 평가 ㅇ 랜덤 포레스트로 학습한 침수 흔적 범위와 측정된 침수 흔적 범위와 유사한 결과를 확인함 ㅇ 훈련된 모델을 수도권 전역에 적용한 수도권 지역 침수 취약 지도를 통해 한강 수변 중심으로 침수 취약도가 높음을 확인함 4. 기후변화 시나리오를 통한 침수 흔적 예측 □ RCP 8.5 시나리오 적용을 통한 침수 흔적 변화 예측 ㅇ 미래의 RCP 시나리오를 훈련된 랜덤 포레스트 모델에 적용하여, 강수량 변화에 따른 수도권 지역 침수 흔적 범위 변화를 확인함 ㅇ 기후변화 시나리오에 따른 AI 기반 도심 침수 피해 예측 등의 활용을 기대함 Ⅵ. AI 기반 미세먼지 발생패턴 분석: 고농도 사례를 중심으로 1. AI 기반 미세먼지 발생패턴 분석 연구 개요 □ AI 기반 고농도 미세먼지 발생패턴 분석 연구의 필요성 ㅇ 우리나라의 미세먼지 농도는 관련 정책의 수립 및 적극적인 이행으로 전반적으로 감소하는 추세임 ㅇ 하지만 고농도 미세먼지 현상은 계속해서 나타나고 있고, 지속기간이 길어지는 사례는 여전히 존재하며, 국민들의 미세먼지에 대한 불안감은 아직까지 해소되지 않은 상태에서 환경에 대한 인식 및 관심이 높아짐에 따라, 관련 정책이 늘어나고 있음 ㅇ 미세먼지 발생 패턴분석을 위한 AI 모형의 구축을 수행하고 활용방안을 제시함 2. AI 기반 미세먼지 발생패턴 분석 입력자료 및 모델 구성 □ AI 모델 입력자료 구성 ㅇ 에어코리아, 기상정보포털 등을 통한 대기질, 기상·기후자료, 외부요인(중국 대기질) 자료를 활용함 ㅇ 2017~2019년 충남 지역을 대상으로 하였으며, 대기측정망을 기준으로 데이터를 재구성함 □ AI 모델 구성 ㅇ 부스팅 기반 방법을 활용하는 대표적인 기계학습 모델인 XGBoost 모델 구성 및 학습을 통해 미세먼지 추정 모형 구축을 진행 3. AI 기반 고농도 미세먼지 발생패턴 분석모델 성능 및 활용 가능성 검토 □ 미세먼지 추정 성능 테스트 ㅇ 테스트 데이터에 대해 구축된 모형에서 추정값과 실측값을 비교했을 때 대부분의 경우 경향을 추적할 수 있음을 확인함 ㅇ 하지만 고농도 미세먼지 대해서는 추정이 잘되지 않는 부분들이 일부 존재하였으며, 이 부분은 향후 학습 데이터의 증가 및 관련 변수들의 추가선정을 통해 보완할 수 있을 것으로 사료됨 □ 미세먼지 발생패턴 분석 결과 ㅇ 구축된 모형에 PDP 및 SHAP 방법론을 적용하여, 미세먼지 농도 추정에 대한 모델의 판단 근거를 도출할 수 있음을 확인함 ㅇ 미세먼지 발생패턴의 핵심인자를 파악하고, 주요 사례별로 모형값 결정에 대한 입력 변수의 기여도 분석 사례를 제시함 □ AI 기반 고농도 미세먼지 발생패턴 모형의 활용 가능성 검토 ㅇ 대기오염물질, 기상·기후 요인, 중국 대기질 데이터 등의 활용을 통해 PM<sub>2.5</sub>를 추정하는 AI 모형 구축이 가능함 ㅇ SHAP값은 구축한 AI 모델의 출력값에 의존적인 모형이며, 구축된 모형의 특성에 종속된다는 한계가 있음 ㅇ 출력된 결과는 입력변수와 출력변수의 패턴 분석을 통해 상관관계를 체계화하는 것에 가까우며, 인과관계를 보장하지 않는 한계가 있음 ㅇ 그럼에도 AI 모형으로 입력되는 변수들의 PM<sub>2.5</sub> 추정에 샘플 단위로 영향력을 제시할 수 있음 ㅇ 향후 전문가들과의 논의를 통해 미세먼지 농도 추정에 대한 기여도의 정합성을 검토하여, 신뢰도 높은 정량평가모델로 개선할 필요가 있음 Ⅶ. 결론 및 정책 제언(학술적 성과) □ 환경 디지털 뉴딜을 위한 AI 기반 환경분야 연구사례 제시 ㅇ AI 기술을 중심으로 환경 변화 탐지 사례(산지 변화 탐지), 자연재해 분석 사례(침수탐지 및 예측), 감염병 분석 사례(기후 및 대기인자와 코로나19 상관분석, 매체별 환경오염 분석 사례(미세먼지 발생패턴 분석)의 환경분야 활용 사례를 제시 ㅇ 수치, 이미지, 지리정보 등 다양한 데이터를 입력변수로 활용 가능하며, 연구목적에 따라 관심변수의 추정 및 예측, (이미지) 변화 분석, 변수의 영향력 분석 등에 활용할 수 있는 가능성을 제시함 ㅇ XAI 모형을 통해 구축된 모델의 값 출력에서 영향력이 큰 요인들을 제시하여, 의사결정을 위한 양적 자료로 활용하기 위한 방안을 제시함 □ AI 기반 감시 체계 구축을 위한 필수 요소 및 활용방안 ㅇ 다수 환경분야에 대한 실제 AI 적용을 통해, AI 기반 감시 체계 구축을 위한 필수요소 및 기본적인 모형 구축 및 분석 과정을 정립함 ㅇ AI 기반 감시 체계의 필수요소는 데이터 구축(데이터 수집 또는 생산) ⇒ AI 모형구축 ⇒ AI 모형 기반 분석 및 감시 실시 ⇒ 결과 도출 및 정책 근거자료 확보의 과정으로, 이를 통해 AI 기반 감시 체계 구축 가능 ㅇ 지속적으로 활용 가능한 환경감시 체계 구축을 위해서는 실시간 또는 주기적 자동 데이터 수집이 필수적임 ㅇ AI 모형을 구축한 뒤 모형 출력 결과를 활용 및 고려하지 못한 부분에 대한 모형 업데이트를 수행하는 등의 선순환 체계 구축 필요 ㅇ 모형 구축 및 결과 해석의 과정에서 전문지식과의 정합성이 확보되면, 향후에는 지속적(자동)으로 결과를 도출하여 환경 이슈 대응방안 수립 시 과학적 정책 근거 자료를 제시함으로써 감시 체계의 역할을 수행할 것으로 기대함 □ 후속 과제 제안 ㅇ 정밀하고 실용성 높은 분석을 위해서 고해상도의 시·공간 데이터 구축이 필요하고 구축된 데이터의 질에 따라 결과 및 활용 범위가 달라지기 때문에, 데이터 구축이 필요한 영역에 대한 검토, 목적에 맞는 고해상도 데이터 생산을 위한 연구 수행을 제안함 ㅇ 매체별 오염, 자연재해 분석 등 AI 및 XAI 모델을 구축하고, 도출된 결과를 토대로 전문가와의 정합성 검토, 물리적 모델링 및 시뮬레이션 결과 등과 비교분석을 비롯해 관련 내용을 합리적으로 반영하기 위한 연구 필요 Ⅰ. Introduction □ Research background ㅇ Use of AI technology in the environmental (policy) sector can perform an independent role as a bridge between Green New Deal and Digital New Deal, but it fails to sufficiently fulfill its role ㅇ There is a need to establish strategies to systematically and comprehensively use data in the environmental sector with focus on AI technology ㅇ To build an ‘AI-based environmental monitoring system’, it is necessary to first develop cases such as environmental change detection, natural disaster analysis, and pollution occurrence pattern analysis by media type, through which necessary elements must be derived and processes designed □ Research objective ㅇ To develop major cases for automatic AI-based environmental monitoring and response through combined use of AI and XAI and provide strategies to build an “AI-based environmental monitoring system” based on the above Ⅱ. Literature Review □ Expanding the application scope of AI studies in environmental policy research ㅇ Limitations of existing decision-making methodologies can be overcome with AI models comprised of multiple parameters ㅇ Application as environmental studies using AI methodologies is being expanded - Various forms of data such as numbers, images, and videos can be used as variables, allowing prediction, classification, detection, change detection, and impact analysis - AI shows high accuracy in terms of performance, but there is the issue of low explanatory power due to complicated model compositions □ With the emergence of explainable AI (XAI), factors with a huge impact can be predicted as well as validated, which can be used as quantitative data for decision making ㅇ XAI studies are conducted actively to ensure transparency and reliability of AI algorithms in a black box structure - Starting with the explainable AI project XAI announced by the Defense Advanced Research Projects Agency (DARPA) in the U.S. in 2017, technological research on explainable AI is being developed ㅇ Studies analyzing XAI are applied to various fields of the environment such as ecosystem in addition to environmental pollution problems such as air pollution, water pollution, and soil pollution - XAI models mostly used include local interpretable model-agnostic explanations (LIME), SHapley Additive exPlanation (SHAP), and Gradient-weighted Class Activation Mapping (Grad-CAM) □ Data can be collected using various applications and devices such as IoT, drones, and unmanned vehicles, thereby accumulating environmental big data and activating studies applying AI ㅇ Image and video data created in the environmental sector are related to various fields such as climate and environmental pollution (air, water quality, soil, noise, etc.) - Studies are actively conducted on AI-based prediction, classification and interpolation of missing values - In addition to prediction research, factors with a huge impact on XAI-based prediction are presented, which can be used as quantitative data for decision making Ⅲ. AI-based Mountain Land Change Detection 1. Overview of research on AI-based mountain land change detection □ Measures are taken using GIS and remote sensing technology such as factual surveys on mountain land changes, derivation of suspicious sites, and other follow-up measures, but there is a need for early response and decrease of damages through early detection of mountain land changes □ Therefore, this study raises the possibility of mountain land change detection using deep learning technology 2. Forest maps in Korea and overseas □ Supply of forest maps in Korea and overseas ㅇ National Geographic Information Platform, (National Geographic Information Institute), Forest Space Portal Service (Korea Forest Service), AI Hub aerial photographs of forest tree species data (National Information society Agency), etc. ㅇ UCI Machine Learning Repository (U.S.), Skyscape dataset (German Aerospace Center), Semantic Change detection dataset (Wuhan University in China), etc. 3. AI-based mountain land change detection input data and model composition □ AI model input data ㅇ Aerial photographs of forest tree species are used from AI Hub national land environment data ㅇ Aerial videos are subdivided into 128 x 128, organizing each video with 16 images and normalizing the information of RGB aerial images ㅇ For labeling data, binary annotation is performed to classify into just forests and non-forests, and aerial photographs including illegible labels are excluded ㅇ Total 16,000 images for learning and 16,000 images for validation in the capital area are used as AI model input data ㅇ The same area multi-period test image datasets on Kakao Map are formed to test the performance of mountain land change detection □ Structure of the AI model ㅇ The U-Net deep learning model structure specialized for image segmentation is applied ㅇ The layer composition of trained U-Net deep learning architecture and hyper parameters are fine-tuned to perform mountain land change detection learning 4. Results and application of AI model mountain land change detection □ The training and validation results of the U-Net model well divided forests and non-forests and showed a similar pattern as actual labeling areas □ Mountain land changes are well distinguished when applying the same area multi-period test images on Kakao Map to the trained U-Net model, which proved the applicability of deep learning models in mountain land change detection Ⅳ. Correlation Analysis of AI-based Climate/air Pollution and COVID-19 1. Overview of research in correlation analysis of AI-based climate/air pollution and COVID-19 □ There is no evidence that climate change has a direct impact on the spread of COVID-19, but related discussions are continuously being made □ Correlation analysis of climate/air pollution and COVID-19 in Seoul was conducted in 2020, and the possibility of building an AI model simulating the relationship between climate/air pollution factors and COVID-19 was reviewed 2. Literature review on correlation between climate/air pollution and COVID-19 □ After analyzing the latest research cases in Korea and overseas, the results vary among nations and proved that there is no evidence that climate and air pollution variables have a direct impact on COVID-19 ㅇ Studies are actively conducted on the impact of climate and air pollution since the COVID-19 pandemic - Infectious diseases such as MERS, SARS, and COVID-19 show a seasonal pattern and can be predicted using temperature and humidity data - NO<sub>2</sub> was proved to be a key element of death from COVID-19 in Europe, and AOD in India turned out to be the lowest in 20 years due to COVID-19 3. Correlation analysis of climate/air pollution and COVID-19 and results □ A pilot study was conducted on correlation analysis of climate/air pollution and COVID-19 at the heart of Seoul in 2020 ㅇ Learning datasets are built by collecting confirmed cases and deaths of COVID-19, and climate and air pollution data ㅇ Spearman and Kendall correlation analyses were conducted on each section to exclude seasonal factors - The results showed that temperature was a variable highly correlated with the number of confirmed cases of COVID-19 - As a result, the correlation coefficient of temperature in each section changed significantly, proving that there is little relevance ㅇ The results proved the limitations and raised the need to add policy and social activity variables for future analysis - Must conduct analysis by adding directly related input variables (policy, population mobility, etc.) that can estimate the number of confirmed cases of COVID-19 - Must increase the analysis period by accumulating data to 1 year of 2020 Ⅴ. AI-based Inundation Trace Detection 1. Overview of research on AI-based inundation trace detection □ Research is conducted on building an AI-based urban inundation trace detection system using open data □ Preprocessing GIS-based spatial data, building AI model input data of Python-based preprocessing data, learning inundation trace detection by building machine learning and deep learning models, and estimating key factors of inundation detection among input data used □ Developing a flood susceptibility map, identifying and analyzing key factors, and conducting prediction and analysis of future flood susceptible areas applying climate change scenario data 2. AI-based inundation trace detection input data and model composition □ AI model input data ㅇ Hydrology map, topographic map, climate change scenario data, and GIS data are used on Environment Big Data Platform, Open MET Data Portal, and Environmental Space Information Service ㅇ Input data is formed by unifying, rasterizing, and stacking the spatial scope to the capital area of spatial data obtained ㅇ For random forest model training, 150 points of inundation scope in 2010 are used as training data, and 50 points as validation data □ Structure of the AI model ㅇ Inundation trace detection performance in the capital area is evaluated by composing and learning the random forest model, which is a typical machine learning model using the ensemble learning method ㅇ Variable importance of the random forest model was estimated to analyze the sensitivity of input data in inundation trace detection results 3. AI model inundation trace detection performance and validation □ Performance evaluation of the inundation trace detection using the random forest model ㅇ Similar results were found between the inundation trace scope learned by random forest and the inundation trace scope measured in 2010 ㅇ High flood susceptibility was verified around the waters of Hangang River through the flood susceptibility map of the capital area applied to all capital areas of the trained model 4. Inundation trace prediction through climate change scenario □ Inundation trace change prediction by applying the RCP 8.5 scenario ㅇ Change in the inundation trace range in the capital area is verified by change in precipitation by applying the future RCP scenario to the trained random forest model ㅇ Expected to be used in AI-based urban inundation damage prediction according to climate change scenarios Ⅵ. AI-based Particulate Matter (PM) Occurrence Pattern Analysis: Focusing on High Concentration Cases 1. Overview of research on AI-based PM occurrence pattern analysis □ Need for research on AI-based PM occurrence pattern analysis ㅇ PM concentrations in Korea are decreasing overall with establishment and active implementation of related policies ㅇ However, there is an ongoing phenomenon of high concentration PM that still lasts long, and the nation’s anxiety over PM is not yet resolved, and there are more and more related policies and interest due to the expansion of environmental awareness ㅇ Building an AI model and providing application plans for PM occurrence pattern analysis 2. AI-based PM occurrence pattern analysis input data and model composition □ AI model input data ㅇ Air quality and weather/climate data on Air Korea and Open MET Data Portal are used, as well as external factors (air quality in China) ㅇ Research is conducted on Chungnam in 2017-2019, with data restructured based on the air quality monitoring network □ Structure of the AI model ㅇ The XGBoost model, which is a typical machine learning model using the boosting technique, is developed and the PM estimation model is built through learning 3. Review of performance and applicability of the AI-based high concentration PM occurrence pattern analysis model □ PM estimation performance test ㅇ Comparing the estimated and measured values of the model built on test data, the trend was traced in most cases ㅇ However, some cases of high concentration PM were not estimated well, which can be supplemented later by increasing learning data and additionally selecting related variables □ PM occurrence pattern analysis results ㅇ It has been proved that the grounds for model judgment about PM concentration estimation can be derived by applying PDP and SHAP to the built model ㅇ Key factors of PM occurrence patterns are identified, and analysis cases on contribution of input variables in determining model values for each case are provided □ Review of the applicability of the AI-based high concentration PM occurrence pattern model ㅇ Can build an AI model estimating PM<sub>2.5</sub> using air pollutants, weather/ climate factors, and China’s air quality data ㅇ SHAP values have limitations in that they are dependent on the output values of the AI model built and subordinate to the characteristics of the model built ㅇ The output results are closer to systemizing the correlation through pattern analysis of input and output variables without guaranteeing the causal relations ㅇ Nonetheless, the AI model can have an effect at the sample level in PM<sub>2.5</sub> estimation of variables ㅇ By discussion with experts in the future, it is necessary to review the consistency in contribution to PM concentrations and improve into a highly reliable quantitative evaluation model Ⅶ. Conclusions and Policy Suggestions (Academic Outcomes) □ Case studies on AI-based environment for environmental Digital New Deal ㅇ This study presented cases used in the environmental sector with focus in AI technology, such as environmental change detection (mountain land change detection), natural disaster analysis (inundation control and prediction), infectious disease analysis (correlation analysis of climate/air factors and COVID-19) and environmental pollution analysis by media type (PM occurrence pattern analysis) ㅇ All kinds of data such as numbers, images, and geographical information can be used as input variables, and can be applied in estimating and predicting variables of interest, analyzing (image) changes, and analyzing variable impact depending on the research purpose ㅇ Presenting ways to use as quantitative data for decision making by providing factors with a great impact in obtaining values of the model built through the XAI model □ Essential elements and application plan to build an AI-based monitoring system ㅇ Essential elements, basic models, and analysis processes are established to build an AI-based monitoring system through many actual cases of AI application in the environmental sector ㅇ The essential elements of the AI-based monitoring system are building data (collecting or producing data) ⇒ building an AI model ⇒ analyzing and monitoring based on the AI model ⇒ deriving outcomes and securing policy grounds ㅇ Automatic real-time or regular data collection is essential for building a sustainably applicable environmental monitoring system ㅇ It is necessary to build a virtuous cycle of deriving and using data produced by building an AI model as the results and updating the model for parts not considered ㅇ By securing consistency with expert knowledge in the process of building the model and interpreting the results, the monitoring system will be able to fulfill its role by deriving continuous (automatic) results and providing scientific grounds and policy grounds when establishing measures to resolve environmental issues □ Suggestion of follow-up tasks ㅇ For precise and highly practical analysis, it is necessary to build high-resolution temporal and spatial data; thus, this study suggests review of fields that need data building and research on high-resolution data production fit for the purpose by setting the results and application scope of data quality ㅇ There is a need for research that rationally reflects and comparatively analyzes the results of consistency review with experts, physical modeling, and simulation based on building of AI and XAI models such as pollution by media type and natural disaster analysis

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼