RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • 사회ㆍ환경이슈 선제적 대응을 위한 환경 데이터 허브 구축 및 운영

        진대용,표종철,한국진,김도연,조윤랑 한국환경연구원 2021 사업보고서 Vol.2021 No.-

        Ⅰ. 서 론 1. 연구의 필요성 및 목적 □ 사회·경제 대전환의 핵심요소인 ‘데이터 댐’ 구축 필요 ○ 데이터 수집과 활용을 위한 데이터 허브(data hub) 필요 - 공공 및 민간 데이터는 미래 산업의 핵심 동력 - 데이터 지도, 데이터 연계 및 분석 서비스 등 데이터 댐의 新가치 창출 필요 ※ 데이터 댐: 데이터 수집 후 표준화하여 다시 공유하는 것 ○ 대규모 사회·환경 이슈 대응을 위한 데이터 활용 곤란 - 코로나19, 미세먼지, 가습기 살균제 등 대규모 사회·환경 이슈 발생 - 사회·환경 이슈 대응을 위한 환경관련 데이터가 산재되어 수집과 활용 곤란 □ 사회·환경 이슈 대응을 위한 데이터 허브 구축 중장기 로드맵 제시 ○ 환경정책 연구의 디지털 전환을 위한 데이터 허브 구축 방안 마련 - 주요 구축 사례 검토를 통한 환경 데이터 허브 구축의 필수요소 도출 - 연구데이터 리포지터리(IDR)를 기반으로 저장소 중심의 데이터 허브 시범 구축 ○ 효율적인 데이터 허브 구축을 위한 중장기 로드맵 제시 - 다양한 사회·환경 이슈 대응과 데이터 기반 의사결정 지원을 위한 데이터 발굴 - 산재된 데이터와 다양한 데이터 분석 플랫폼 활용을 고려한 중장기 로드맵 제시 2. 연구의 범위 및 방법 □ (시범) 구축 수행 후 향후 개선을 위한 중장기 구축 로드맵 제시 ○ 데이터 허브 구축 사례 검토하여 데이터 허브 필수기능 도출 - 데이터와 분석서비스, 데이터맵, 사용자 접근성 향상 등 주요 기능 사례 분석 ○ 사회·환경 분석 이슈 대응을 위한 데이터 허브의 기능 정의 - 데이터 기반 사회·환경 이슈 분석 사례 축적 및 데이터 분석의 장점과 한계점 검토 ○ 환경 데이터 허브 시범 구축 후 향후 확대 추진을 위한 중장기 로드맵 제안 - IDR 시스템을 중심으로 환경 데이터 허브 시범 구축 후 중장기 로드맵 제안 Ⅱ. 환경 데이터 허브 구축 방안 1. 데이터 허브 구축 개요 □ 환경 분야에 적용 가능한 데이터 허브 검토 필요 ○ 데이터 기반 대비 빈약한 데이터 분석 플랫폼과 데이터 허브 - 영국: 데이터 기반의 사회문제 해결과 행정데이터 분석연구 활용 지원 - 싱가포르: 국가 차원의 이슈 분석을 위한 범정부 플랫폼 운영 - 미국: 사이버 물리시스템(CPS) 기반의 스마트도시 데이터 허브 구축 및 활용 - 우리나라: 환경부 수집-저장 데이터 기반 구축, 연계 및 활용 제한 2. 주요 데이터 허브 사례 □ 공공데이터포털 ○ 국내 최대 데이터 허브로 「공공데이터법」에 따라 설치 및 운영 - 파일데이터 약 4만 건, 오픈데이터 약 7,000건, 표준데이터 약 1만 건 보유 ○ 다양한 관점의 데이터 지도인 국가데이터맵 제공 ○ 시각화, 국민참여지도, 위치정보 시각화 등 시각화 서비스 제공 □ 국가통계포털 ○ 국내 최대 통계 데이터 허브로 「통계법」에 따라 국내외 통계 제공 ○ 다양한 관점 데이터 지도와 e-지방지표(시각화) 등 시각화 제공 ○ 마이크로데이터 통합서비스 등 전문서비스 제공 □ 빅데이터 공통기반 혜안포털 ○ 범정부 빅데이터 분석 플랫폼 서비스 ○ SNS 텍스트 마이닝 분석과 시각화 제공, 대체로 느림 ○ 공동활용데이터 등록관리시스템 제공 □ 환경정보융합 빅데이터 플랫폼(환경데이터포털) ○ 환경 분야 전문 데이터 수집-저장 포털 ○ 데이터 분석 플랫폼 서비스 4종을 제공, 느리고 불편 ○ 2022년 이후 차세대 고도화 예정 □ 환경 비즈니스 빅데이터 플랫폼 ○ 환경 분야 데이터 유통 플랫폼 ○ 다양한 텍스트 마이닝 시각화 결과와 환경 데이터 시각화 예제 제공 ○ 모두 17개 공공과 민간이 참여 □ 연구데이터 리포지터리 ○ 연구데이터를 공유하는 시스템 - Open Science의 핵심 구성요소: 연구데이터 ㆍ NASA, 인공위성 데이터 제공 ㆍ CERN, 국제대형강입자충돌기 실험데이터 제공 ㆍ 바이오 분야의 유전체 데이터 공유 서비스 ㆍ 출판 분야의 Nature와 Springer, Elsevier ○ 연구 결과 및 과정을 개방, 공유하는 오픈 사이언스 개념 대두 - OECD: 개방성, 효과성, 지속가능성 등 13개 원칙 제시 - ISC: 공공데이터에 대한 보편적이고 동등한 접근을 증진하기 위한 14개 권고사항 제시 - 미국: 국가 수준의 연방기구의 디지털 데이터 관리 및 수집 시행, 국가연구기관 중심의 데이터 관리와 공유 정책 시행, 인프라 및 데이터 공유 프로그램 운영 - 유럽: 국가 저장소와 함께 유럽 전체 네트워크 OpenAIRE 구축, 투자 프로젝트의 연구결과 관리, 출판물과 문헌 관리 ○ 국가 차원의 체계적인 연구데이터 관리와 공유를 위한 정책과 제도 - 미국: NSF, NIH 등 연방기금 1억 달러 이상 지출 연방기관 R&D의 연구데이터 관리와 공동 활용을 위한 지침 제정 - 영국, 호주: 연구데이터 관리와 활용을 위한 정책 수립 ○ 국외 연구데이터 플랫폼 운영: 유럽, 미국, 영국, 일본, 호주 등 3. 데이터 허브의 주요 기능 □ 데이터 지도 ○ 방대한 데이터를 효과적으로 이용하는 데 활용 ○ 분류별, 지역별, 키워드별, 분야별 다양한 관점으로 제공 ○ 환경 분야는 키워드 접근 순서에 따라 다중 관점의 분류체계 필요 □ 데이터 표준화 ○ 누구든 해당 데이터를 쉽게 활용할 수 있도록 가공하는 것 의미 ○ 국제 표준화는 빅데이터의 수직, 수평적 상호운용성을 고려하여 추진 ○ 국내 표준화는 빅데이터 처리를 위해 일부 요소에만 적용 중 □ 빅데이터 분석 및 활용체계 ○ 데이터 지도와 연계하여 데이터를 확인 및 분석, 시각화하는 체계를 의미 ○ 데이터 분석 플랫폼 서비스와 유사한 기능 □ 공공데이터와 데이터 기반 행정의 업무 지원 ○ 최근 데이터 관련 법률과 관련 계획·평가 대응 증가 ○ DMP-연구데이터 등록으로 데이터 발굴, 현황 파악, 실적 증명이 가능해짐 ○ 다만, 환경 데이터 허브와 인트라넷 정보시스템 연동 필요 Ⅲ. 환경 데이터 허브 중심 코로나19 이슈 분석 1. 데이터 현황 검토 □ 환경통계 데이터는 신뢰도가 높지만 통계 산출에 많은 시간이 소요되며 시공간적 한계 존재 □ 신용카드 데이터는 지역별, 업종별 카드이용 현황 및 코로나19, 미세먼지 등 사회·환경 이슈 분석을 위한 소비 빅데이터 제공 ○ ’20~’21년 데이터바우처 사업을 통해 코로나19 관련 BC카드 소비데이터 확보 및 분석 수행 □ 사회·환경 이슈 도출 및 분석을 위해 SNS, 언론 보도자료 등 텍스트 자료 수집 및 활용 가능 ○ 텍스트 마이닝 분석으로 코로나19 사태 이후 발현한 환경 이슈* 도출 * 환경 이슈: 1) 쓰레기(폐기물 등) 증가, 2) 대기오염(대기질) 감소, 3) 에너지(전기, 가스 등) 증가 2. 코로나19에 의해 (준)실시간으로 발생한 환경 이슈 분석 □ 코로나19로 발현한 환경 이슈를 카드데이터와 환경 데이터를 융합 분석하여 (준)실시간으로 발생하는 환경 이슈에 대응하는 시의적절한 정책 개발 가능 ○ 카드데이터 기반 소비형태 변화 분석을 통해 발현 가능한 환경 이슈(폐기물 증가, 대기오염 감소, 에너지 사용량 증가) 분석 ○ 분석 결과, 코로나19 확진자가 증가하면 배달앱의 이용금액 및 건수가 모두 증가하고 대중교통과 주유 이용금액 및 건수는 모두 감소, 지역난방은 양의 상관관계로 보이나, 계절적인 특징으로 겨울철 지역난방 사용이 높아서 나타난 것으로 판단 3. 코로나19 사회적 거리두기 정책 전후 분석 □ 코로나19 사태 이후 사회적 거리두기 정책 전후 코로나 확진자 및 카드이용 변화 분석을 통해 정부 개입 효과 분석 수행 ○ 사회적 거리두기 기간을 기준으로 전후 4주(1개월) 데이터를 비교 분석 - 사회적 거리두기 단계에 따라 4개 구간(’20.3.22~’20.4.19, ’20.8.30~’20.9.13, ’20.9.14~’20.10.11, ’20.12.8~’20.12.28) ○ 코로나19 확진자 증감량의 산식에 사용되는 변수의 평균 변화 분석을 통해 정책 전후 차이 확인 ○ 정책 전과 후 추세에 대한 검증 및 검증된 추세를 기반으로 비교 분석 결과 4개 구간 모두에서 추세 변화 확인 4. 환경 데이터 허브의 추가 요구사항 □ 사회·환경 이슈의 탐지 및 현황 분석 제공 ○ 문헌, 언론, 보도자료와 포털 등의 데이터 수집 자동화 필요 ○ 사회·환경 이슈 조기 탐지를 위한 연관·관련 이슈 분석, 절차 필요 □ 사회·환경 이슈 분석을 위한 데이터 확보 및 공유기반 구축 ○ 공공 및 민간 데이터를 효율적으로 제공하기 위한 기능 필요 ○ 사회·환경 이슈 분석을 위한 데이터의 범위 검토, 데이터의 제공 및 분석 사례 구축 □ 데이터의 특성 및 범위의 검토 ○ 데이터의 신뢰도와 이슈 대응의 신속성 등 상황을 고려하여 데이터 활용 ○ 데이터의 공통 활용성 측면에서 검토하여 공동활용데이터로 활용 ○ 데이터의 접근성과 지속가능성을 고려하여 연구데이터 선정 □ 사회·환경 이슈 분석을 위한 분석 도구 활용방안 검토 ○ 모든 연구데이터가 분석데이터로 활용되지 않음 ○ 사회·환경 이슈 분석을 위한 분석 도구와 활용사례 발굴 필요 □ 정책적인 시사점을 도출할 수 있는 데이터 기반 정책 의사결정 지원체계 구축 ○ 빅데이터는 함축적 의미를 가진 간소화를 통해 분석되기 때문에 전문가의 해석과 정책화 등 의사결정을 위한 추가적인 절차가 반드시 필요 ○ 데이터기반 정책의사결정 지원체계 구축 필수 Ⅳ. 환경 데이터 허브 시범 구축 1. 환경 데이터 허브 구축의 필수요소 □ 데이터 세트 ○ 질적으로 우수한 데이터 확보 방안 필요 - 환경정책에 활용 가능한 데이터 수요조사 - 수집경로별 데이터 수집 자동화 - 환경부 데이터 실무협의체 참여 등 데이터 네트워크 발굴 - 데이터 세트 구축 사업과 데이터 지원 사업의 공모 참여 - 연구자 접근성 개선과 업무효율성 홍보 등 □ 데이터 저장소 ○ 메타정보 운영관리의 편리성과 무결성 유지를 병행할 방안 필요 - 데이터의 제출, 갱신, 검색 기능과 메타데이터 관리 기능 필요 - DMP, 권한관리, 외부 데이터와 데이터 분석 플랫폼 연계 활용 □ 데이터 분석 플랫폼 ○ 데이터 분석을 위한 데이터 파이프라인 구축 방안 필요 - 데이터의 적재, 전처리, 분석, 검증과 시각화 확인이 가능해야 함 - 프로그래밍 언어와 라이브러리 등 코드 사용의 편리함 고려 - 데이터 저장소와의 데이터 연계, 데이터 분석 결과의 유연한 저장 - 수치예측, 텍스트·이미지 분석 등 주요 AI 및 데이터 분석 모듈의 이용자 편의 2. 환경 데이터 허브 구축 □ 사전 검토사항 ○ 연구데이터 컬렉션 - 효율적인 조회와 검색결과 제공: 원본 데이터 여부, 출처, 데이터의 위치 등 - 최상위 컬렉션에 공동활용데이터와 과제수행 연도 반영 ㆍ 공동활용데이터: 기후변화, 녹색전환, 대기환경, 물관리, 국토환경, 자원순환, 환경 보건, 환경영향평가, 지표통계, 기타(외부) 등 모두 10개 ㆍ 과제수행 연도별 컬렉션은 과제종류별 컬렉션을 담고, 그 하위에 과제명 컬렉션 존재 ※ 컬렉션: 연구데이터와 연구데이터의 메타데이터를 담고 있는 캐비닛 - 연구데이터 분류체계 ○ 데이터 인용 - 효율적인 연구수행으로 데이터 활용의 선순환 생태계 조성 ㆍ 선행 연구자의 공로 인정 ㆍ 후행 연구자는 연구 과정·결과의 재생 및 활용 ㆍ 연구결과의 재이용을 통해 연구성과 확산에 기여 ㆍ 연구자 간 연구결과의 신뢰와 투명성 제고 - KEI 형식, MLA, APA, ISO 690 등 모두 4종의 인용 문구 표시 - DOI 출판 기능 제공 ○ 데이터 지도 - 효율적인 데이터 검색 ㆍ 활용하고자 하는 데이터에 대한 명확한 지식이 없는 이용자도 사용 ※ 통합 데이터 지도: 분류별, 지역별, 키워드별, 분야별 접근방식 제공 ※ 공공데이터포털: 트리맵과 검색기능 병행 제공, 데이터의 비중 파악 유리 ○ 데이터 관리 절차 - 데이터 구축과 관리를 통하여 체계적인 연구데이터 수집-저장 가능 ㆍ 데이터 구축: 데이터 확인과 검토를 통해 데이터 분류 수행과 데이터 표준화를 위한 메타데이터 부여 ㆍ 데이터 관리: 우선순위를 구분하여 중요데이터와 일반데이터로 분류하고 데이터 품질관리, 데이터 공개 여부 결정, 데이터 보완, 생애주기 관리 수행 ㆍ DMP-연구데이터 동기화와 기획-수행-종료에 따라 단계별 생애주기 관리 필요 ○ 프레임워크 구축 - KEI-IDR 시스템은 연구데이터 저장소로 이용하고 DMP-연구데이터를 활용 - 연구DB는 인트라넷 시스템을 이용하고 연구정보 연동 - 빅데이터 분석 플랫폼은 KEI 빅데이터 분석 플랫폼 시범서비스를 활용 - 외부 허브는 데이터, 분석, 인프라 등 목적에 맞도록 연동 - 외부 데이터는 공공데이터포털, 국가통계포털, AI데이터허브, 빅카인즈 등 목적에 맞게 연동 ○ 시범 구축 - 사전 검토사항과 데이터 관리 절차, 환경 데이터 허브 프레임워크를 기반으로 환경 데이터 허브를 시범 구축 ㆍ 자동으로 갱신되는 데이트를 수집하기 위해 동적 데이터 기능 구축 ㆍ 이용자 간 데이터 공유 기능과 데이터 보호를 위해 보존 기간 기능 구축 ㆍ 외부 학술DB 검색 기능과 데이터 지도, 외부 데이터 기능을 구축 ㆍ 물리적인 저장소 NAS로 교체 ○ 외부 데이터 활용방안 - 공동활용데이터 컬렉션 분리: 연구 수행에 자주 사용하는 데이터, 분류기준이 범용적인 데이터 ㆍ OpenAPI, WebDAV, FTP 등을 통해 원격에서 데이터 활용 가능 - 데이터포털과 데이터 분석 플랫폼 ㆍ 환경 빅데이터 분석 플랫폼 시범서비스, 환경 Data Science 전환연구 서비스와 개인 분석환경 활용 ㆍ 데이터의 활용이 더 중요한 경우, 외부의 데이터 분석 플랫폼을 이용하는 것이 유리함 ㆍ MLOps: 분석환경을 온라인으로 전환하는 조직에서 활용 ○ 환경 데이터 허브 고도화 방안 - DMP 관리기능 개선: 템플릿 복사, 순서 변경, 엑셀 반출 등 - 개인 저장소 기능 개선: 업로드/다운로드, 공유, OpenAPI 사용, 프로그래밍 코드 연동 등 3. 환경 데이터 허브 확대 구축 로드맵 □ KEI형 환경 데이터 허브 로드맵 제시 ○ 제약조건을 고려하여 KEI형 환경 데이터 허브 로드맵(간소화) 제시 - 제약조건 ㆍ 모든 연구데이터의 특성을 고려하여 환경 데이터 허브를 구축하는 것은 불가능 ㆍ 일반적인 정보시스템 구축 방법론 적용도 현실성이 없음 ㆍ 과업수행기간, 예산, 인력, 사회·환경 변화 고려 ㆍ 연구자, 정책가, 수요기업과 대국민 등 수요자를 단계적으로 확대 - 제안사항 ㆍ 환경 데이터 허브 구축 계획 수립: 2021년 표준 IDR 최신 업데이트가 마무리되는 시점부터 8개월간 수행, 제약조건을 고려하여 약 2개년에 대한 추진계획 작성 ㆍ 환경 데이터 허브 인프라 구축: KEI-IDR 시스템과 외부 분석 플랫폼 서비스, 외부 데이터포털 등 다른 시스템과의 연계를 고려하여 구축, 유연한 분류체계 반영 ㆍ 환경 데이터 허브 고도화: 외부 서비스 변경사항 반영, 수요조사 후 결과반영, 데이터 지도 확대 ○ 로드맵(간소화) 제약조건을 고려하여 환경 데이터 허브 확대 로드맵 제시 - 데이터 구축 ㆍ 1단계(2020~2021년): 연구데이터 등록과 내부 공개 시범 운영, 환경 데이터 플랫폼 현황 파악과 분석, 외부 데이터 연동기능 구축 ㆍ 2단계(2022~2024년): 모든 정부출연금 과제까지 연구데이터 등록 대상과제 확대, 연구데이터의 외부공개 절차 마련, 환경 전문가 수요조사 결과에 따른 AI데이터 구축 ㆍ 3단계(2025년~): 수탁과제까지 연구데이터 등록 대상과제 확대, 연구데이터의 외부공개 대상 확대 - 데이터 저장소 구축 ㆍ 1단계(2020~2021년): 표준 IDR 도입과 KEI-IDR 구축, 인트라넷 정보시스템 연동, 기본 데이터 통계, 데이터 지도와 외부 데이터 검색 기능 구축 ㆍ 2단계(2022~2024년): KEI-IDR 안정화, 데이터 연계와 활용 기능 확대 ㆍ 3단계(2025년~): 데이터 저장소 구축 완료, 데이터 아카이빙 서비스의 고도화 추진 - 데이터 분석 플랫폼 도입 ㆍ 1단계(2020~2021년): 기존의 분석 플랫폼 서비스와 서버, 개인 분석환경 활용으로 1단계 없음 ㆍ 2단계(2022~2024년): 분석환경에서 연구데이터를 직접 연결하는 기능개선과 전문가 중심의 대시보드 구축 ㆍ 3단계(2025년~): 데이터 융합 활용사례 제공과 대시보드 고도화 - 성공조건: 전담조직 운영 > 예산확보, 제도개선 병행 ㆍ 제도개선: 안전하고 유연한 접근이 가능하도록 정보보안 정책 개선 ㆍ 전담조직: 데이터 관련 법률에 따라 전담조직 설치, 데이터 과학자와 기술자 자체 수급(전문교육 등 활용), 환경 매체별 부서와 전담조직의 협업 강화 ㆍ 예산확보: KEI에서 집행 가능한 수준으로 조정(협의) 가능. 다만, 예산이 연속적으로 보장되어야 함 Ⅴ. 결론 (학술적 성과) 1. 결론 □ 연구자 인식전환 및 협업 생태계 구축 ○ 다양한 사회·환경 이슈 파악, 분석, 정책 결정을 위한 현실적인 방안과 사전대응체계 마련 필요 - 지속적인 사회·환경 이슈 발생으로 데이터 기반 대응사례 증가 추세 - 환경통계와 사회통계 융복합, 환경정책연구의 경계 약화 ○ 빠른 데이터 생산에 유연한 데이터 활용을 통한 정책 반영 - 사람과 사물 등 물리적 요소가 모두 연결되고, 상호작용하는 상황 반영 - 데이터에 대한 관점 변화: 적시적인 결과 도출과 데이터 신뢰의 중요도 판단 - 환경정책연구의 제약: 시의성 높은 이슈 분석에 사용할 수 있는 데이터가 미미 ○ 통계 구축의 주기성 단축과 대체재로서의 데이터 선별 지원 - 사회·환경 이슈 분석에 있어 다양한 데이터의 범위와 한계점 검토 - 의료 폐기물 발생량이 폭증하였으나, 2021년 쓰레기 배출량 공식통계 없음 □ 환경 데이터 허브 시범 구축과 환경 데이터 활용 기반 구축 - 환경 데이터 허브 구축의 필수요소 도출: 데이터 세트, 데이터 저장소, 데이터 분석 플랫폼 - KEI형 중장기 환경 데이터 허브 로드맵 제시 □ 사회·환경 이슈 분석을 위한 환경 데이터 허브의 요건 제시 - 사회·환경 이슈 분석을 데이터의 확보, 데이터 공유를 위한 기초 기반 구축, 분석 도구 구축 등 필요 - 정책적인 시사점을 도출할 수 있는 데이터 기반 정책 의사결정 지원체계 구축 필요 Ⅰ. Background and Aims of Research 1. Heading □ Construction of ‘data dam’, a key element of the great social and economic transformation ○ A data hub is required for data collection and utilization - Public and private data are the key drivers of the future industry - It is necessary to create new values for ‘data dam’ such as data maps, data linkage and analysis services. ※ Data Dam: Collecting data, standardizing it, and sharing it againn ○ Difficulty in using data to respond to large-scale social and environmental issues - Large-scale social and environmental issues such as COVID-19, fine dust, and humidifier disinfectant occurred - It is difficult to collect and utilize environment-related data to respond to social and environmental issues. □ Present a mid- to long-term roadmap for building a data hub to respond to social and environmental issues ○ Prepare a plan to build a data hub for the digital transformation of environmental policy research - Derivation of essential elements for building an environmental data hub through a review of major implementation cases - Based on Institutional Data Repository (IDR), build a storage-centric data hub pilot ○ Present a mid- to long-term roadmap for building an efficient data hub - Discovering data to respond to various social and environmental issues and support data-based decision-making - Presenting a mid- to long-term roadmap considering scattered data and utilization of various data analysis platforms 2. Research Scope and Methods □ (Pilot) After implementation, present a mid-to-long-term roadmap for future improvement ○ Deriving essential data hub functions through data hub implementation case review - Major functions : data and analysis service, data map, and user accessibility improvement ○ Functional definition of data hub to respond to social/environmental analysis issues - Accumulation of data-based social and environmental issue analysis cases and review of strengths and limitations of data analysis ○ Proposal of mid- to long-term roadmap for future improvement after pilot implementation of environmental data hub - Proposal of mid- to long-term roadmap after pilot implementation of environmental data hub based on IDR system Ⅱ. Strategies to Build an Environmental Data Hub 1. Overview of building a data hub □ Applicable data hubs in the environmental field need to be reviewed ○ Poor data analysis platform and data hub - UK: Support for data-based social problem solving and administrative data analysis research use - Singapore: Pan-government platform operation for national issue analysis - U.S.: Establishment and utilization of smart city data hub based on cyber physical system (CPS) - Korea: Establishment of collection-storage data base by the Ministry of Environment, and restriction of connection and use 2. Key Data Hub Examples □ Public Data Portal ○ Installed and operated according to the Public Data Act as the largest data hub in Korea - About 40,000 file data, 7,000 open data, and 10,000 standard data ○ Provides a national data map from various perspectives ○ Provide visualization services such as public participation map, location information visualization and so on □ National Statistics Portal ○ As the largest statistical data hub in Korea, domestic and foreign statistics are provided in accordance with the Statistical Act ○ Provide visualizations such as data maps from various viewpoints and e-local indicators (visualization) ○ Provide professional services such as micro data integration service □ Big data common-based insight portal ○ Pan-government big data analysis platform service ○ SNS text mining analysis and visualization provided, generally slow ○ Provide joint use data registration management system □ Environmental information convergence big data platform (environmental data portal) ○ Specialized data collection-storage portal in the environmental field ○ Provides 4 types of data analysis platform services, but it is slow and inconvenient ○ Next-generation upgrade planned after 2022 □ Environmental Business Big Data Platform ○ Environment field data distribution platform ○ Provide various text mining visualization results and environmental data visualization examples ○ A total of 17 public and private sectors participated □ Research data repository ○ A system for sharing research data - Core components of Open Science: Research data ㆍ NASA provides satellite data ㆍ CERN provides experimental data for the International Large Hadron Collider ㆍ Genomic data sharing service in the bio field ㆍ Nature, Springer, and Elsevier in publishing ○ The rise of the concept of open science to open and share research results and exaggerations ㆍ OECD: 13 principles including openness, effectiveness, and sustainability ㆍ ISC: makes 14 recommendations to promote universal and equal access to public data; ㆍ U.S.: Implementation of digital data management and collection by federal agencies at the national level, implementation of data management and sharing policies centered on national research institutes, and operating programs for infrastructure and data sharing ㆍ Europe: Establishment of OpenAIRE, an entire European network with national repositories, management of research results of investment projects, management of publications and literature ○ Overseas research data platform operation: Europe, USA, UK, Japan, Australia, etc. 3. Key Features of Data Hub □ Data Map ○ Utilize to effectively use vast amounts of data ○ Provide various viewpoints by classification, region, keyword, and field ○ In the environmental field, a multi-view classification system is required according to the keyword access order □ Data standardization ○ It means processing the data so that anyone can use it easily. ○ International standardization is promoted in consideration of the vertical and horizontal interoperability of big data ○ Domestic standardization is being applied only to some elements for big data processing □ Big data analysis and utilization system ○ Refers to a system for checking, analyzing, and visualizing data in connection with the data map ○ Support for functions similar to data analysis platform services □ Support for public data and data-based administration work ○ Recently, data-related laws have increased and related plans and evaluation responses have increased ○ DMP-Research data registration makes it possible to discover data, understand the current status, and prove performance ○ However, necessary to connect environmental data hubs and intranet information systemsm. Ⅲ. Analysis of COVID-19 Issues Centered on Environmental Data Hub 1. Data Status Review □ Although environmental statistics data is highly reliable, it takes a lot of time to calculate statistics, and there are temporal and spatial limitations □ Credit card data provides consumption big data for analysis of card usage status by industry by sector and social and environmental issues such as COVID-19 and fine dust. ○ Securing and analyzing data on BC card consumption related to COVID-19 through ‘data voucher business’ in ’20~’21 □ Possible to collect and use text data such as SNS and press releases for deriving and analyzing social and environmental issues. ○ Deriving environmental issues* that emerged after the COVID-19 crisis through text mining analysis * Environmental issues: 1) Increase in garbage (waste, etc.), 2) Decrease in air pollution (air quality), 3) Increase in energy (electricity, gas, etc.) 2. Analysis of environmental issues caused by near real-time due to COVID-19 □ Possible to develop timely policies to respond to environmental issues that occur in (quasi) real-time by convergence analysis of card data and environmental data for environmental issues that have emerged due to COVID-19 ○ Analysis of possible environmental issues (increase in waste, decrease in air pollution, increase in energy consumption) through card data-based consumption pattern change analysis ○ As a result of the analysis, when the number of confirmed COVID-19 cases increases, both the amount and number of delivery apps use increases, and the amount and number of use of public transportation and gas both decrease. It is considered that this is due to the high 3. Analysis of before and after COVID-19 social distancing policy □ Analyze the effect of government intervention by analyzing the changes in COVID-19 confirmed cases and card use before and after the social distancing policy after the COVID-19 inciden ○ Comparative analysis of data before and after 4 weeks (1 month) based on the social distancing period - 4 sections according to the social distancing stage (‘20.3.22~`20.4.19, `20.8.30~`20.9.13, `20.9.14~`20.10.11, `20.12.8~`20.12.28) ○ Confirm the existence of differences before and after the policy by analyzing the average change of the variables used in the calculation of the increase or decrease of the number of COVID-19 confirmed cases ○ Verification of the trend before and after the policy and comparison analysis based on the verified trend confirms that there is a trend change in all 4 sections 4. Additional Requirements for Environment Data Hub □ Detection of social/environmental issues and provide current status analysis ○ Need to automate data collection of documents, press, press releases and portals ○ Relevant and related issue analysis and procedures required for early detection of social and environmental issues □ Securing data for analysis of social/environmental issues and building a base for sharing ○ Need functions to efficiently provide public and private data ○ Review the scope of data for analyzing social and environmental issues, provide data, and establish examples of analysis □ Review of the nature and scope of the data ○ Data is utilized in consideration of circumstances such as reliability of data and prompt response to issues ○ Used as data for common use by reviewing the aspect of common use of data. ○ Research data was selected in consideration of data accessibility and Sustainability □ Review of the use of analysis tools to analyze social and environmental issues ○ Not all research data is used as analysis data ○ Necessary to discover analysis tools and use cases to analyze social and environmental issues □ Establishment of data-based policy decision support system that can draw policy implications ○ Since big data is analyzed through simplification with implications, additional procedures for decision-making such as expert interpretation and policymaking are absolutely necessary ○ Essential to establish a data-based policy decision support system Ⅳ. Implementation of a Pilot Environment Data Hub 1. Essentials of Building an Environmental Data Hub □ Data set ○ Demand for measures to secure quality data - Data demand survey that can be used for environmental policy - Automate data collection by collection path - Discover data networks such as participation in the data working group of the Ministry of Environment - Participation in competition for data set construction and data support projects - Improving researcher access and promoting work efficiency, etc. □ Data Repository ○ Demand for a method that can simultaneously maintain the convenience and integrity of meta information operation and management - Data submission, update, search function and metadata management function are required - Utilization of DMP, authority management, connection of external data and data analysis platform □ Data analysis platform ○ Need to build a data pipeline for data analysis - Data loading, pre-processing, analysis, verification, and visualization should be possible - Consider the convenience of using codes such as programming languages and libraries - Data linkage with data storage, flexible storage of data analysis results - User convenience of major AI and data analysis modules such as numerical prediction and text/image analysis 2. Building an Environmental Data Hub □ Preliminary considerations ○ Research data collection - Provide efficient inquiry and search results: whether original data, source, location of data, etc. - The joint use data and the year of the assignment are reflected in the top-level collection ㆍ Shared data: climate change, green transition, atmospheric environment, water management, land environment, resource circulation, environmental health, environmental impact assessment, index statistics, other (external), etc. ㆍ The collection by year of task execution contains collections by task type, and the task name collection exists under it ※ Collection: Cabinet containing research data and metadata of research data Research data categorization system ○ data citation - Creating a virtuous cycle ecosystem of data utilization through efficient research ㆍ Recognition of merits of previous researchers ㆍ Subsequent researchers can reproduce and utilize the research process and results ㆍ Contribute to the spread of research results through reuse of research results ㆍ Enhance the trust and transparency of research results among researchers - All 4 types of quotation marks including KEI format, MLA, APA, ISO 690 - DOI publishing function provided ○ Data map - Efficient data search ㆍ Users who do not have clear knowledge of the data they want to use can also use it ※ Integrated data map: Provides approaches by classification, region, keyword, and field ※ Public data portal: Treemap and search function are provided concurrently, and it is advantageous to understand the weight of data ○ Data management procedure - Systematic research data collection and storage possible through data construction and data management ㆍ Data construction: data classification and data standardization through data verification and review ㆍ Data management: Classify priorities into important data and general data, and perform data quality management, data disclosure decision, data supplementation, and life cycle management ㆍ Step-by-step life cycle management is required according to DMP-research data synchronization and planning-execution-completion ○ Building a framework - The KEI-IDR system is used as a research data repository and DMP-research data is used - Research DB uses intranet system and research information is linked - Big data analysis platform utilizes KEI big data analysis platform pilot service - External hubs are linked to suit the purpose of data, analysis, infrastructure, etc. - External data is linked according to the purpose of public data portal, national statistics portal, AI data hub, Big Kinds, etc. ○ Pilot build - Pilot implementation of an environmental data hub based on preliminary reviews, data management procedures, and ㆍ Build dynamic data capabilities to collect automatically updated data ㆍ Establishment of data sharing function among users and retention period function for data protection ㆍ Build external academic DB search function, data map, and external data function ㆍ Replace with physical storage NAS ○ External data utilization - Separation of data collection for common use: data frequently used for research, data with universal classification criteria ㆍ Data can be used remotely through OpenAPI, WebDAV, FTP, etc. - Data portal and data analysis platform ㆍ Use of environmental big data analysis platform pilot service, environmental data science conversion research service and personal analysis environment ㆍ When the use of data is more important, it is advantageous to use an external data analysis platform ㆍ MLOps: Used by organizations moving their analytics environment online ○ Environmental data hub upgrade plan - Improvement of DMP management function: copy template, change order, export to Excel, etc. - Improvement of personal storage function: upload/download, sharing, use of OpenAPI, interworking with programming code, etc. 3. Roadmap for expanding the environmental data hub □ Presenting a roadmap for the KEI-type environmental data hub ○ Presenting a KEI-type environmental data hub roadmap (simplification) in consideration of constraints - Constraints ㆍ Impossible to build an environmental data hub considering the characteristics of all research data. ㆍ Not practical to apply the general information system construction methodology ㆍ Consider changes in task execution period, budget, manpower, and social/environment ㆍ Step by step expansion of consumers such as researchers, policy makers, demanding companies and the general public - Proposals ㆍ Establishment of environmental data hub construction plan: Implemented for 8 months from the time the latest update of the 2021 standard IDR is completed ㆍ Establishment of environmental data hub infrastructure: Considering the linkage between the KEI-IDR system and other systems such as external analysis platform services and external data portals, and reflecting the flexible classification system ㆍ Environmental data hub upgrade: reflect external service changes, reflect results after demand survey, expand data map ○ Roadmap (simplification) Presenting a roadmap for expanding the environmental data hub in consideration of constraints - Data construction ㆍ Stage 1 (2020~2021): Research data registration and internal public pilot operation, environmental data platform status identification and analysis, and external data interlocking function establishment ㆍ Stage 2 (2022~2024): Expand research data registration projects to all government subsidy projects, prepare procedures for external disclosure of research data, and build AI data based on the results of environmental expert demand surveys ㆍ Stage 3 (from 2025): Expand research data registration target projects to consignment projects, expand research data disclosure target - Construction of data repository ㆍ Stage 1 (2020~2021): Introduction of standard IDR and establishment of KEI-IDR, interworking of intranet information system, establishment of basic data statistics, data map and external data search function ㆍ Stage 2 (2022~2024): stabilization of KEI-IDR, expansion of data linkage and utilization functions ㆍ Stage 3 (from 2025): Completion of data storage construction, advancement of data archiving service - Introduction of data analysis platform ㆍ Stage 1 (2020~2021): No phase 1 due to the use of the existing analysis platform service, server, and personal analysis environment ㆍ Stage 2 (2022~2024): Function improvement to directly connect research data in the analysis environment and establishment of an expert-oriented dashboard ㆍ Stage 3 (from 2025): Provide data convergence use cases and upgrade dashboard - Success conditions: Operation of a dedicated organization > Securing a budget and improving the system ㆍ Data policy improvement: information security policy improvement to enable safe and flexible access ㆍ Dedicated organization: Establishment of a dedicated organization in accordance with data-related laws, self-supply of data scientists and technicians (using professional training, etc.), and strengthening collaboration between departments and dedicated organizations by environmental media ㆍ Budget Securing: Possible to adjust (negotiate) to a level that is enforceable by KEI, however, the budget must be continuously guaranteed Ⅴ. Conclusion 1. Conclusion □ Improvement of researcher awareness and establishment of a collaborative ecosystem ○ Practical measures are needed to identify, analyze, and make policy decisions on various social and environmental issues, and it is necessary to prepare a system to respond in advance - Data-based response cases are increasing due to the continuous occurrence of social and environmental issues - Convergence of environmental statistics and social statistics, weakening the boundaries of environmental policy research ○ Policy reflection through flexible data utilization for rapid data production - Reflects the situation in which all physical elements such as people and objects are connected and interacted - Changes in perspective on data: timely results and determination of the importance of data trust - Constraints in environmental policy research: There is very little data available for timely issue analysis ○ Support for shortening the periodicity of statistical construction and screening data as a substitute - Review of the scope and limitations of various data in analyzing social and environmental issues - Although the amount of medical waste has increased significantly, there are no official statistics on the amount of waste in 2021 □ Establishment of a pilot environment data hub and foundation for environmental data utilization - Derivation of essential elements of building an environmental data hub: data set, data storage, data analysis platform - KEI-type mid- to long-term environmental data hub roadmap presented □ Suggestion of requirements for environmental data hub for social/environmental issue analysis - Necessary to secure data for analysis of social and environmental issues, to establish a foundation for data sharing, and to establish an analysis tool - Necessary to establish a data-based policy decision support system that can draw policy implication

      • 생활밀착형 환경이슈에 대한 수요반영 개선 연구 민원 빅데이터 분석을 중심으로

        진대용,강성원,한국진,김진형,김도연,강선아 한국환경연구원 2019 수시연구보고서 Vol.2019 No.-

        본 연구는 빅데이터 분석을 통한 생활밀착형 환경 이슈의 수요반영 개선 방안에 대한 연구이다. 시민들의 환경문제에 대한 인식이 높아지면서 미세먼지, 폐기물/쓰레기, 소음, 악취 등 다양한 환경문제가 이슈로 떠오르고 있다. 하지만 시민들이 실제로 해결을 요구하는 환경문제와 환경정책의 대응 사이에는 괴리가 존재한다. 이에 본 연구에서는 이런 시민들의 일상생활과 밀접한 관련이 있는 ‘민원’에서 발생하는 모든 환경 문제를 ‘생활밀착형 환경이슈’로 정의하고 이에 대한 수요를 반영할 수 있는 방안을 제시하였다. 먼저 환경부 유사민원(국민신문고 공개민원) 분석을 통해 민원에서 나타나는 전반적인 환경이슈들을 분석하였다. LDA 토픽 모델링을 수행하여 ‘생활환경’, ‘건설 및 가축 폐기물’, ‘환경영향평가’, ‘유해화학물질’, ‘대기오염물질 및 배출시설’, ‘폐수’, ‘의료 및 사업장 폐기물’ 7개의 토픽으로 구성하였는데, 전체적으로 볼 때 소음, 쓰레기, 미세먼지 등을 포함하는 ‘생활환경’ 이슈와 관련한 민원이 상대적으로 증가 추세가 있었다. ‘생활환경’ 에서는 2015년까지는 ‘공사소음, ‘층간소음’, ‘교통소음’, ‘공장소음’ 등의 다양한 소음 문제의 해결을 요구하는 민원이 대다수 였지만, 2016년 이후는 미세먼지 이슈가 등장하면서 미세먼지가 가장 높은 빈도수를 보였다. 특히 ‘미세먼지’의 경우 ‘아이’들의 건강에 대한 우려와 더불어 관련 대책을 요구하는 민원이 많았다. ‘건설 및 가축 폐기물’ 및 ‘의료 및 사업장 폐기물’ 에서는 처리, 분리수거, 재활용 등에 관련된 내용이 많았으며, 특히 부가가치가 높은 건축 폐기물에 대한 ‘순환 골재’ 등에 대한 인식 개선이 필요한 것으로 나타났다. ‘환경영향평가’에서는 2018년 ‘소규모 환경영향평가’의 수요가 급격하게 증가하였으며, ‘폐수’에서는 폐수(배출시설), 수질 등과 관련된 민원이 꾸준히 나타나고 있었고, 각종 축산폐수 등으로 인한 ‘지하수’에 대한 내용이 증가하는 추세를 보였다. ‘유해화학물질’ 에서는 설치검사, 안전검사, 설치검사, 영업허가, 취급시설, 신고대상 등에 내용이 많았고, 대기오염물질 및 배출시설’에서는 대기배출시설, 배출허용기준, 방지시설, 자가측정, 악취배출 허용 및 해당 여부 등의 내용이 많았다. 세종특별자치시에서는 ‘소음’, ‘악취’와 관련한 민원이 많았다. 신도시의 특성상 각종 주거시설 및 상업시설의 소음과 먼지로 인한 민원이 다수 발생한 것으로 보인다. 따라서 소음의 원인을 추적하고 적시에 대응하는 동시에, 도로변에서 발생하는 소음을 막기 위한 방음벽 설치 등의 정책적 지원이 필요할 것으로 사료된다. 악취 문제에 대한 대책도 필요하다. 비료, 쓰레기악취, 축사악취 등으로 인한 악취가 다수 발생하고 있으므로 이에 대한 대처가 필요하다. 또한 단지 내, 아파트, 상가, 그리고 특히 버스정류장 등에서 자주 발생하는 쓰레기 문제에 대응하기 위한 정책 및 전기차 충전소 설치, 및 보조금 지급에 관련한 문제에 대해서도 보다 건설적인 대책이 필요해 보인다. 환경정책의 최종 수요자는 국민이므로, 이들이 해결을 요구하는 환경이슈를 다양한 경로로 파악하는 것이 중요하다. 민원은 환경 텍스트 중 시민들의 실제 생활과 관련성이 높은 환경문제의 시각을 반영하고 있어 좋은 정책수립의 근거를 찾을 수 있을 것으로 판단된다. 현재 시민 대다수가 많은 환경문제 에서도 미세먼지 이슈에 촉각을 곤두세우고 있다. 그런 한편으로 실제 민원에서는 이 외에도 공사소음, 쓰레기, 악취 등의 문제에 대한 해결을 요구하는 비중이 높은 것으로 나타나 이에 대한 적극적인 대응이 필요한 실정이다. 미세먼지는 단기간에 해결할 수 있는 문제가 아니며 국내의 문제해결과 더불어 국제적인 협력을 필요로 한다. 반면에 소음, 쓰레기, 악취 등은 충분한 논의를 통해 규제, 피해보상, 단속강화 등이 이루어진다면 그 피해를 줄일 수 있을 것으로 보인다.

      • 환경정책연구에서 데이터 활용성 강화를 위한 기초 연구

        진대용,김도연,강선아 한국환경정책평가연구원 2019 한국환경정책평가연구원 기초연구보고서 Vol.2019 No.-

        ■ 연구의 주요 내용 ○ 연구의 필요성 및 목적 - ICT 기술의 발달과 함께 다양한 환경 분야의 데이터 축적으로 인해 데이터를 기반으로 정책 연구를 수행할 수 있는 환경이 조성되었음. 하지만 아직 연구 과정에서 다양한 데이터를 (재)생산 및 활용하고 있음에도 데이터에 대한 관리 및 공유를 통해 연구 데이터의 재활용 및 융합 시너지 효과를 발휘하지는 못하는 상황이어서 연구 데이터의 활용성 강화 및 체계적인 관리를 위한 연구가 필요한 상황임. 따라서 본 연구에서는 환경정책연구에서 데이터 활용과 관련된 주요 이슈를 정리하고, 데이터 중심의 연구를 활성화하기 위한 단기·중기·장기적 관점의 최소한의 필수 로드맵을 제시하였음 ■ 정책 제안 ○ 정책 수립 과정에서 보다 적극적인 데이터 활용이 필요함, 특히 스몰 데이터는 분석 없이 데이터 자체가 중요한 경우가 많아 데이터의 관리 및 공유가 매우 중요하다고 판단됨 ○ 축적된 빅데이터의 적극적인 활용 및 연구의 활성화를 통해 기존에는 활용하지 못했던 데이터를 정보로 변환하여 활용함으로써 환경정책 수립을 보완할 필요가 있음 ○ 단기적으로는 데이터 활용성 강화를 위한 관리 및 활용 체계를 구축하기 위한 방안(데이터 수집, 데이터 저장소 구축, KEI에 적합한 데이터 관리(공유) 계획, 데이터 활용성 평가기준 도입 등)을 고려할 필요가 있음 ○ 중기적으로는 데이터 저장소를 중심으로 주요 데이터 수집 및 연구 데이터와 산출물을 축적 및 활용함으로써 데이터 기반 융합 연구의 활성화를 도모함 ○ 장기적으로는 데이터 기반 환경정책 개발(의사결정 지원)을 위한 플랫폼 구축을 통해 연구 데이터 및 산출물 서비스, 이를 통한 환경정책 제안 및 활용 사례 축적이 필요함

      • Data Science 기반 기후변화 대응 지원 플랫폼 구축을 위한 전략 마련 연구(Ⅱ)

        진대용,표종철,조윤랑,한국진,김도연 한국환경연구원 2021 기후환경정책연구 Vol.2021 No.-

        Ⅰ. 서론 □ 연구 필요성 및 목적 ○ 전 지구적 이상기후 및 자연재해 발생 등 기후변화 현상의 심화는 자연환경뿐만 아니라 인간 활동 영역에까지 다양하게 영향을 미침 ○ 최근 우리나라는 국제 사회와 공조하여 2050 탄소중립(net-zero) 목표를 선언하고, 기후변화 대응에 적극 나서고 있음 ○ 기후변화는 온실가스를 감축하는 완화(mitigation) 연구와 피해 및 위험을 최소화하는 적응(adaptation) 연구로 구분할 수 있으나, 기후변화 원인은 복합적이기 때문에 상호 보완적인 정책이 필요함 ○ 2018년 과학기술정보통신부는 국가 R&D 추진 과정에서 축적되는 연구데이터 관리·공유를 위해『연구데이터 공유·활용 전략』을 수립한 바 있으며, 본격적으로 데이터 집중형 과학 (data-intensive science) 시대가 도래함 - 하드웨어 발전, 고성능 네트워크 등 장비의 발달로 많은 연구데이터를 생산하기 때문에 다양한 연구데이터 관리는 효과적인 연구수행의 필수적 요소가 됨 ○ 본 연구는 기후변화를 데이터 중심으로 연계하여 대응하는 것으로, 기후변화 연구를 ‘데이터 사이언스(Data Science)’로 전환하는 것임 - 데이터 사이언스는 다양한 형태의 데이터로부터 실제 현상을 이해하고 유용한 지식을 도출하는 과정을 총칭함 - 정보통신기술(ICT), 위성 데이터, 기상 재해석 데이터 등 생성되는 데이터양이 점차 증가함에 따라 이를 연계·활용하기 위한 관련 데이터 확보가 중요해짐 ○ 기후변화 대응을 위한 데이터는 다양한 기관에 산재해 있는 데다 환경데이터 분류 표준 체계가 부재한 탓에 데이터 활용에 제약 요소가 많으며, 이를 효율적이고 편리하게 활용하는 방안 마련이 시급함 □ 연구 범위 ○ 기후환경 데이터의 현황분석, 데이터관리계획(DMP)의 실행체계 구축 및 운영, 기후환경 데이터 플랫폼 구축전략과 차별화된 데이터 제공 서비스를 위한 방안을 마련함 - 위성 중심의 기후환경 응용데이터 현황 및 기후변화 완화 부문의 데이터 조사를 통해 기후변화 대응을 위한 완화-감축 부문의 데이터 인벤토리를 작성하고자 함 - 기후환경 데이터 관리의 실질적 이행체계 구축을 위한 연구데이터 범위 설정 및 DMP 도입과 연구데이터 리포지터리(IDR)를 중심으로 한 KEI형 데이터 관리 추진체계를 구축하고자 함 - 구축된 기후환경 데이터 인벤토리 및 관리체계를 토대로 환경정책연구에 활용 가능한 기후환경 데이터 서비스 제공 방안을 모색하고자 함 ㆍ 본 과제에서 기후환경 데이터는 기후변화 대응을 위한 완화 및 적응과 관련된 공개 데이터로 한정함 ㆍ 누적된 다양한 데이터가 단일 연구과제에서만 활용되는 것을 방지하고, 데이터의 공유 및 활용성을 극대화하고자 함 - 기후환경 데이터 플랫폼 구축을 위한 설문조사와 데이터 공유·활용에 관한 법·제도를 검토하고, 기후변화 데이터를 중심으로 한 정책연구의 현실적 방안을 제시하고자 함 □ 연구 내용 및 방법론 ○ 2차 연도 연구는 주요 환경 관계기관의 온실가스 감축데이터를 중심으로 구축·보완하고, 기존 인벤토리 고도화를 추진하고자 함 - 기후환경 데이터 중 위성데이터 산출물과 기상청의 기상·기후 데이터 현황 조사를 통해 기후변화 대응 데이터 범위 확대 가능성을 살펴봄 ○ KEI 연구데이터 관리 실행체계 마련 및 구축을 위한 연구데이터 정의 및 관리 필수요소를 도출하고자 함 ○ KEI 기후환경 데이터 플랫폼 구축전략 마련을 위한 전문가 의견수렴 및 조사된 연구데이터 관리체계 내용을 기반으로 KEI 기후환경 데이터 플랫폼 구축 로드맵을 마련하고자 함 ○ 향후 KEI형 데이터 플랫폼으로 확장하기 위해 수집된 기후변화 대응 데이터의 메타정보를 연구데이터 리포지터리 시스템에 시범적으로 업로드하고, 데이터 마인드맵 시범 서비스를 통해 정책활용도를 제고하고자 함 Ⅱ. 기후환경 데이터 인벤토리 고도화 □ 국내 기후환경 응용 데이터 현황 ○ 기후변화는 강수, 운량, 온도뿐만 아니라 식생분포, 토지분포 등에도 큰 영향을 미치며, 이에 대응하려면 일차적인 자료 확보가 적절히 이루어져야 함 ○ 국외에서는 미국 항공우주국(NASA)과 유럽 우주국(ESA)을 필두로 대기오염기체와 기후 변화 유발기체, 에어로졸, 식생지표 변화 등 다양한 영역을 관찰할 때 위성 자료를 사용함 ○ 국내에서도 통신해양기상위성(COMS)의 후속으로 정지궤도복합위성을 발사하고, 위성 관측을 통해 생산된 자료를 기후변화 대응 정책의 기초자료로 활용하고 있음 ○ 대표적인 국내 위성으로는 천리안해양관측위성, 천리안위성 2A호, 천리안위성 2B호 등이 있음 - 천리안해양관측위성은 적조, 해빙, 해무, 해양투기모니터링, 해사채취활동, 미세먼지 등에 활용됨 ㆍ 주요 산출물로는 용존유기물, 엽록소, 총 부유물질, 적조지수, 육상식생지수 등 총 13종의 데이터를 생산함 - 천리안위성 2A호는 천리안해양관측위성과 비교하여 다양한 관측이 가능하며, 기상재해의 감시 및 대비가 가능함 ㆍ 생산하는 기상산출물은 총 52종으로 구름탐지, 오존량, 강우강도 등 23종의 기본산출물과 산불탐지, 식생지수, 식생률, 지표면 반사도 등 29종의 부가 산출물을 생산함 - 천리안위성 2B호는 해양환경과 생태계를 관측하고, 한반도 밖의 대기오염물질 등을 감시하여, 기후변화 대응 및 미세먼지 감시를 위한 자료를 제공함 ㆍ 주요 산출물로는 대기보정, 고유광특성, 대기산출물, 해색산출물, 해양산출물, 육상 산출물 등 총 26종의 데이터를 생산함 □ 기후변화 대응 관련 데이터 현황 ○ 기후변화 대응은 온실가스를 감축하거나 흡수하는 완화(mitigation) 정책과 기후변화 피해를 저감하는 적응(adaptation) 정책의 두 가지 측면을 모두 고려해야 함 ○ 기후변화 대응을 위한 에너지, 발전, 온실가스 배출 등 기후변화 완화 데이터 현황조사를 통해 기후변화 완화와 적응정책을 연계하고자 함 ○ 기후변화 완화(온실가스 감축) 부문 데이터는 크게 에너지 통계, 국가 온실가스 인벤토리, 기타 연계 및 활용 가능한 데이터로 구분할 수 있음 - 국가에너지 통계종합정보시스템에서는 에너지 밸런스 및 국가에너지 수급 관련 통계를 비롯해 에너지통계 작성 규정에 따른 관련 기관의 통계자료를 연계·통합하여 제공함 - 국가 온실가스 인벤토리에서는 기후변화 대응을 위해 국내 온실가스 배출원·흡수원 및 배출량·흡수량 파악을 위한 데이터를 제공함 - 기타 데이터로는 민·관·학계의 배출량 산정 분석 지원과 온실가스 인벤토리 연계를 위한 교통/수송 및 전력 데이터 등이 제공됨 ○ 기후변화 적응 부문 데이터는 국가기후변화적응센터(KACCC)에서 운영 중인 시스템 내에 구축된 데이터를 기반으로 기후환경 데이터 인벤토리를 구축함 - 대표적인 기후변화 적응 시스템인 부문별 기후변화 영향 및 취약성 통합평가 모형(MOTIVE)과 기후변화 취약성 평가도구(VESTAP)에서는 기후변화 적응을 위한 취약성 평가 데이터를 제공함 ○ 기상청에서 관측·제공하는 각종 기상관측 자료, 방재기상정보 등은 기후변화의 미래예측과 대응정책 수립과 같은 다양한 분야에서 기초자료로 활용됨 - 기후변화 시나리오는 미래 기후변화로 인한 영향평가 및 피해를 최소화하는 연구의 분석 자료로 활용할 수 있으며, 이는 기후변화 대응 및 적응대책 수립·지원을 위한 필수적인 정보로 활용됨 Ⅲ. 기후환경 데이터 관리 실행체계 구축 □ KEI 연구데이터 관리 개요 ○ 2019년 데이터관리계획(DMP: Data Management Plans) 규정이 시행되며 국내 연구 데이터를 공유하고 활용하기 위한 노력이 활발히 이루어지고 있음 - 주요 선진국을 중심으로 국가연구개발사업 과제의 연구데이터 보존 및 재사용의 성공적 사례가 나오고 있으며, 오픈 데이터 활동이 전 세계적으로 확산하고 있음 - 「국가연구개발사업의 관리 등에 관한 규정」에서 연구데이터와 데이터 관리계획을 정의하고, 국가연구개발 사업 수행 시 DMP 제출 요구를 규정하여 국가 차원의 연구데이터 관리 근거를 마련함 ○ 연구데이터를 관리하고 서비스하기 위한 핵심 요소로는 DMP 작성지원, 데이터 파일 정리, 데이터 저장, 데이터 공유 및 접근, 데이터 인용, 데이터 관리교육으로 구분할 수 있음 □ 연구데이터의 수집 및 관리 ○ 연구데이터는 연구개발과제 수행 과정에서 실시하는 각종 실험, 관찰, 조사 및 분석 등을 통하여 산출된 사실 자료로서 연구 결과의 검증에 필수적인 데이터임 - 연구데이터는 연구 과정에서 생성되는 모든 데이터를 지칭하기 때문에 메일이나 기술 보고서 등과 같은 연구 기록과 구별해야 함 - 지속적 연구 활동 지원 및 연구 결과물 보존·공유를 위해서는 연구자가 소속된 연구 기관과 연구자가 활동하는 커뮤니티에서 연구 수행 과정에서 산출되는 데이터 관리가 필요함 ○ DMP란 연구 프로젝트 도중이나 종료 후에 프로젝트를 통해 생산·수집된 연구데이터가 어떻게 관리·공유되는지 기술하는 공식 문서를 의미함 - 데이터 수집 전에 DMP를 통해 충실한 데이터 설명이 가능하고, 이는 데이터에 대한 상세 내용을 기억하기 위한 연구자의 노력이 불필요하게 하며 데이터 재사용을 가능케 함 ○ DMP는 연구 라이프 사이클에 맞추어 연구계획 단계부터 데이터 생산, 수집, 관리, 보존 및 폐기, 출판, 재사용 등의 모든 과정에서 발생하는 행위임 ○ KEI 기후환경 데이터 플랫폼을 개발하려면 연구데이터 라이프 사이클을 도출하고, 이에 관한 세부 내용을 확정하는 것이 중요함 □ 연구데이터 관리 시스템 구축 ○ 데이터 리포지터리는 오픈소스로 개발되어 공개된 소프트웨어를 활용할 수 있으며, 대표적으로 DSpace와 NaRDA가 있음 - DSpace는 웹기반 인터페이스 제공을 통해 파일 제출이 쉽고 다양한 파일 수용이 가능하며, 하나의 기관을 넘어 대규모, 다분야 리포지터리로 확장이 가능함 - NaRDA는 한국과학기술정보연구원(KISTI)에서 개발·보급하는 연구데이터 리포지터리이며, 연구자의 데이터 관리 활동 주기를 고려하여 설계 및 구현됨 ㆍ NaRDA는 DMP 제출양식을 작성하고, 이를 게시 및 공유할 수 있음 ㆍ 연구 수행 중의 관리 단계에서는 연구 수행을 위한 데이터를 자유롭게 업로드·다운로드 할 수 있으며, 데이터 설명을 기술할 수 있음 ㆍ 마지막 단계에서는 연구 결과물 공유를 위한 연구데이터 등록이 가능하며, 이를 위해 메타데이터 추출 및 DOI 부여 기능을 제공함 ○ 연구데이터는 메타데이터와 원천데이터로 구성되며, 메타데이터는 데이터를 설명하는 자료로 데이터 검색 시스템에서 활용되는 색인 요소임 ○ 메타데이터란 데이터에 대한 속성을 기술하고 컨텍스트(context) 및 데이터 품질 정보를 제공하며, 다른 객체나 데이터의 특징을 문서화한 것을 일컬음 □ 연구데이터의 보존 및 공유 ○ 디지털 연구데이터를 보존하는 경우 다양한 편익이 발생하며, 보존을 위해서는 인적·물적 자원이 필요함 - 데이터 보존을 위해서는 해당 정보를 수집할 방법을 시스템화하여 제공하고, 보존 및 출판을 위한 영구식별자(DOI, ARK, UUID 등)가 부여되어야 함 ㆍ 가장 많이 쓰이는 영구식별자는 DOI로, KISTI에서 발급하는 DOI prefix를 이용해 데이터를 출판하는 기관이 suffix를 추가하여 데이터를 출판할 수 있음 ○ 데이터 출판과 관련하여 연구자의 의지가 반영될 수 있도록 하고, 이때 내부 및 외부 공유 범위 설정과 연구자의 요구 수준을 표현할 수 있는 화면 및 기능 설계가 필요함 ○ 연구자의 데이터 리터러시 능력 향상을 통해 효과적인 연구데이터 활용이나 공유, 재사용을 기대할 수 있으며, 연구데이터 공유와 재사용 활성화를 위해 데이터 공개에 대한 보상체계가 마련되어야 함 □ 연구데이터 구축 서비스 사례 및 시사점 ○ 한국지질자원연구원(KIGAM)은 연구데이터의 관리체계 부재로 인해 중복 연구가 이루어진다는 사실을 인지하고, 지질 자료 저장소 GDR을 개발하여 운영 중임 - GDR은 데이터 접근 제어 기능과 외부 연동 데이터에 DOI를 발급하고, 연구소 최초로 사업계획서에 DMP 양식을 포함하는 제도를 시행함 ○ 한국한의학연구원(KIOM)은 한의약 연구데이터 리포지터리(KMDR)를 구축하고, 이를 운영 중임 - KMDR은 한의약 분야 연구데이터의 체계적인 관리 및 공유를 위한 정보 시스템으로 데이터 관리 지원, 활용 제고를 통해 효율적인 연구수행 지원을 목적으로 구축됨 - 외부 위협으로부터 연구데이터 보호를 위한 암호화 모듈 적용과 DMP 작성 및 관리 기능을 연계하여 전 주기적인 연구데이터 관리가 가능함 ○ 국립산림과학원은 「국립산림과학원 연구사업 관리 규정」(예규 제307호)의 일부 개정 (2019.2.11)을 통하여 연구데이터 관리 의무화 조항을 신설함 - 데이터 기반 융·복합 산림과학연구 수행 지원을 위한 적극적인 연구데이터 관리 도모 및 참여 의식 고취를 목적으로 포상계획을 수립함 ○ 연구데이터 관리와 거버넌스 체계를 만들려면 연구자와 경영진 인식이 긍정적으로 변화 될 수 있도록 지속적인 교육이 필요하며, 선행 기관과 지속적 협력이 중요함 □ KEI 연구데이터 활용·관리 체계 정립 ○ 환경정책연구는 데이터 생산 사례가 적고, 사회·자연과학의 융·복합적인 연구 형태로 인해 과학기술계에서 운영 중인 DMP 및 연구데이터 리포지터리 시스템을 적용하는 데 한계가 있음 ○ 주요 기관의 데이터 분류 현황을 토대로 KEI 연구데이터는 데이터 종류 및 형식과 데이터 생산 방법에 따라 분류함 - 데이터 종류 및 형식(지표·지수, 정책 DB, 측정·관측, 시뮬레이션, 문헌, 전문가의견, 발표자료·정책문서, 기타 등) - 데이터 생산 방법(내부-생산, 내부-가공, 외부-생산, 외부-가공 등) ○ KEI는 연구데이터의 유실 방지 및 보존, 지속가능한 환경정책 수립, 데이터 연계를 통한 다학제 간 융·복합 연구체계 마련, 증거 기반의 정책 의사결정 지원 등을 위해 연구데이터의 체계적인 관리가 필요함 - 데이터 성과 관리를 통한 연구성과 관리 효율화와 연구성과 확산 제고, 데이터 기반의 연구 협력 생태계 조성을 위해 2022년 기본과제 제안 시(2021년 6월 시행) DMP를 도입함 - 원내 최초로 적용된 DMP를 효율적으로 운영하고자 연구데이터는 환경(정책) 연구 과정에서 활용된 자료 또는 결과로 나타난 주요 연구 산출물로 정의함 ○ 본 연구에서는 연구데이터 리포지터리를 구축하고 인트라넷 로그인 연동, 메타데이터 등록, DMP-IDR 연계 방안 마련 등을 통해 DMP 중심 데이터 관리체계를 마련함 Ⅳ. KEI 기후환경 데이터 플랫폼 구축전략 □ KEI 기후환경 데이터 플랫폼 구축 개요 ○ 데이터 플랫폼 구축을 통해 다양한 연구데이터를 공유하고 활용하고자 노력 중이며, 국가 차원의 연구데이터 활용 촉진과 융합연구 및 오픈 사이언스 등 선진 연구환경을 조성함 ○ 데이터는 다양한 분야에서 기하급수적으로 생산되고 있으나 이에 대한 소유권 문제, 정보공개 문제 등이 여전히 산재해 있음 - 데이터를 융·복합적으로 활용하고 각계각층에서 공동 활용하기 위한 법·제도는 미흡한 실정임 - ‘데이터 3법’과 「데이터기반행정법」 등의 개정 및 시행으로 데이터 산업 활성화 기반이 마련되고 있으나 중복 규제 등의 문제가 발생할 가능성이 큼 ○ 본 연구에서는 기후환경 연구데이터 관리와 플랫폼 구축전략 마련을 위해 정보 접근성 및 서비스 측면과 연구데이터 관리 측면에 관한 법·제도 현황을 정리함 - 데이터 이용 및 활용에 관한 주요 법·제도로는 「환경정책기본법」, 「전자정부법」, 「국가정보화기본법」, 「공공데이터의 제공 및 이용 활성화에 관한 법률」, 「지능정보화 기본법」, 「데이터기반 행정법」, 「정보통신융합법」, 「국가연구개발사업의 관리 등에 관한 규정」, 「정보통신망법」 등이 있음 ○ 먼저 검토가 필요한 사항인 연구데이터 관리 측면의 데이터 이용 및 활용에 관한 법·제도 개선 필요사항을 도출함 - 「국가연구개발사업의 관리 등에 관한 규정」에 (연구)데이터 관리 권고 조항 추가와 「데이터기반 행정법」에 기관메타시스템 및 IDR 시스템 구축 권고가 필요함 □ KEI 기후환경 데이터 플랫폼 구축전략 수립 ○ 현재 빅데이터 플랫폼 사업이 활발히 진행되고 있으나 다수의 플랫폼에서 기후환경정책 연구 수행에 활용 가능한 데이터 획득에는 여전히 어려움이 있음 ○ 유사 사업과 차별성을 두고 다양한 플랫폼과 연계 방안을 마련하고자 환경 분야 연구를 수행한 각 매체의 전문가들을 대상으로 설문조사를 실시함 - 기후환경 데이터 플랫폼 전략 수립과 데이터 기반의 환경정책연구를 발굴, 향후 KEI형 데이터 플랫폼으로 확장을 위한 거시적 관점의 전략 수립을 위한 기초 자료를 수집함 - 설문은 데이터 이용 및 활용, KEI 기후환경 데이터 플랫폼 구축, 데이터 기반 정책연구 수요 등 3가지 주제로 구분하여 진행함 ㆍ 기후환경 데이터 활용 목적 및 애로사항 유무, 데이터 품질 요소 및 특성에 관한 설문과 향후 플랫폼에서 제공해야 할 데이터 및 서비스와 기타 제안사항 등 의견수렴을 통해 향후 플랫폼 구축 방향성을 수립함 ○ 기후변화 대응을 위한 기후환경 데이터 현황조사, 연구데이터 관리체계 마련 등을 통해 환경 분야 정책연구의 데이터 활용·연계의 ‘통로’ 역할을 수행하기 위한 전략을 수립함 - 연구 간 융합연구 수행 및 시너지 효과 창출을 위한 전략과 지속가능한 정책연구 수행 등 핵심 가치 창출 요구에 대응하고자 로드맵을 마련함 - KEI 연구데이터 활용·관리 로드맵(안)은 데이터 관리 및 활용을 위한 ① 기후환경 데이터 허브 구축, ② 기후환경 데이터 활용체계 전환, ③ 데이터 활용제도 개선 등 목표를 크게 세 가지로 설정하고, 세부 추진 필수요소를 도출함 ㆍ 기후환경 데이터 허브 구축(인프라 구축, 주요 데이터 연계) ㆍ 기후환경 데이터 활용체계 전환(환경데이터 협업 네트워크 구축, 참여형 환경정책을 위한 데이터 체계 구축, 데이터 활용체계 구축) ㆍ 데이터 활용제도 개선(데이터 활용제도 개선, 데이터 관리체계 적용, 데이터 관리 고도화) ※ KEI 연구데이터 활용·관리 로드맵의 세부 내용은 <그림 4-14>~<그림 4-16> 참조. Ⅴ. KEI 기후환경 데이터 제공 서비스 구축 □ KEI 기후환경 데이터 제공 서비스 개요 ○ 기후환경 데이터 인벤토리를 기반으로 데이터 제공 서비스 방안을 마련하고, 기후환경 정책 이슈에 대한 의사결정 지원을 위한 서비스를 제공하고자 함 - KEI에서 기존에 구축한 데이터와 타 기관에서 제공하는 기후환경 관련 플랫폼 데이터로 범위를 설정하고, 이를 토대로 기후환경 데이터 제공 서비스 방안을 마련함 ○ 본 연구는 키워드 중심으로 정책과 데이터를 연계하여 정책연구 시 데이터 활용과 접근성이 개선되도록 하는 방안을 제시함 - 분야별 키워드 선정의 다양화를 통해 사용자에 대한 맞춤형 데이터를 제공하는 방안을 제시함 □ KEI 기후환경 데이터 제공 서비스 방안 ○ 연구데이터를 연구자들이 효율적으로 활용하기 위한 실질적인 방안이 필요하며, 주요 데이터의 메타정보 정리를 통해 서비스를 제공하는 방안을 마련함 ○ 본 연구는 원내외 기후환경 데이터의 현황분석을 통해 DMP를 작성하고, 이를 연계하여 메타데이터 작성 및 DB화하여 연구데이터 리포지터리 시스템에 시범적으로 제공함 - 다양한 기후환경 데이터의 정보 제공을 통해 정책문제 이해 및 의사결정의 근거로 활용하도록 함 - 데이터의 정책 활용성을 높이려면 메타데이터에 데이터의 종류, 매체 정보, 연관 키워드를 포함하여 제공하도록 함 ○ 기후환경 데이터의 정책 활용을 높이기 위한 검색 서비스 마련을 위해 관련 키워드를 저장한 키워드 사전 및 관련 알고리즘을 구축함 ○ 본 연구는 기후변화 데이터에 대한 접근성을 높이기 위해 카테고리 및 키워드 빈도수를 중심으로 데이터를 분류하여 제공하는 마인드맵 서비스를 제안함 - 마인드맵 형태로 데이터를 제공할 때는 ‘검색어’를 중심으로 연관된 데이터를 추출하고, 이를 카테고리별로 분류하여 제공함 ㆍ 데이터명, 데이터 키워드, 데이터 설명, 데이터 원자료명 등 메타데이터를 검색키워드가 연결하여 마인드맵을 구성할 데이터 범위를 우선적으로 선별함 ㆍ 1차 분류 기준은 기후변화 적응 부문, 2차 분류는 부문별 세부주제로 설정하고, 3차 분류는 데이터에 포함된 키워드 빈도수를 중심으로 묶어 제공하는 방식의 마인드맵을 구성함 □ 기후환경 정책-데이터 연계 서비스 방안 ○ 다양한 경로로 데이터 연관 키워드를 충분히 부여하여 연결고리를 만드는 방안을 제시함 - KEI 원내 보고서 수집을 통한 연관 키워드 부여와 주요 환경 이슈별로 활용되는 데이터에 키워드를 부여함 - 텍스트 데이터의 내용 및 성격 등에 따라 키워드 관리 범위 설정이 필요하며, 정책공급자 또는 수요자 입장의 텍스트로 범위를 설정하고 관련 키워드를 부여하는 방안을 고려함 Ⅵ. 결론 및 정책 제언 □ 결론 ○ 본 연구는 기후환경 분야의 데이터 사이언스(Data Science) 대응 플랫폼 전략 구축을 통해 데이터에 기반하여 기후변화 대응을 강화하고, 디지털 전환의 기틀을 마련하기 위한 시범 연구임 ○ 1차 연도 연구에서는 분야별 기후변화 적응에 활용이 가능한 KEI 및 주요 외부기관의 데이터 현황을 조사하고, 기후변화 취약성 평가에 활용하기 위한 추가적인 데이터를 제안함 ○ 2차 연도 연구에서는 기존 적응데이터와 함께 최근 기후변화 연구에 활용도가 높은 응용데이터인 위성 데이터 내용을 포함함 ○ 또한 온실가스 감축 및 기후변화 완화에 활용할 수 있는 산업·수송·가정 등의 분야와 관련된 데이터를 추가로 조사하고, 이를 통합하여 인벤토리를 구축함 ○ 기후환경 데이터 인벤토리 구축을 통해 기후변화 대응을 위한 연구수행 시 관련 데이터를 효율적으로 제공하여 데이터 활용성을 높일 수 있을 것으로 기대됨 ○ 기후환경 데이터를 중심으로 구축한 연구데이터 관리체계를 보완하고, 데이터 관리 및 수집을 위해 타 기관 사례를 조사하여 기본적인 요소들로 연구데이터 관리체계 초안을 작성함 ○ 원내 연구데이터 활용 사례, 데이터 범위 및 DMP 양식 구축 사례 검토, 연구 수행 프로세스 등을 고려하여 DMP 중심의 연구관리체계를 마련함 ○ 본 연구에서는 기후환경 데이터 관리·활용을 위한 DMP 마련과 메타데이터 템플릿 구축 및 보완, DMP 및 연구데이터 제출 프로세스, 데이터 형태 등을 고려하여 KEI에서 실질적으로 활용 가능한 형태의 데이터 관리 실행체계를 구축함 ○ 특히 기후변화 대응 정책 중 하나로 적응 분야 연구 지원을 위해 각 데이터에 대한 부문별 세부 주제를 설정하고, 관련 키워드, 데이터 설명, 데이터 출처 등 해당 데이터의 정보를 제공하기 위한 메타데이터를 구축함 ○ 데이터 기반의 정책 지원을 위해서는 어떤 문서를 기반으로 키워드를 설정할 것인가에 대한 고민이 필요하며, 언론, 정책 관련 문서 등 관련 이슈 및 중요사항을 파악할 수 있는 텍스트를 설정하는 것이 핵심이라 할 수 있음 ○ 기후변화에 대응하고자 기후환경 데이터의 현황을 분석하고 연구데이터 관리 및 실행체계를 마련하였으며, 실제 데이터를 어떻게 제공할 수 있는지를 현실적인 접근 전략으로 제시함 □ 연구의 한계점 및 보완사항 ○ 장기적으로 환경 분야 전체를 포괄하는 뛰어난 플랫폼 구축과 함께 다양한 사용자의 요구를 수용할 수 있는 데이터세트 구축이 필수적임 ○ 데이터 기반 정책연구를 실현하려면 정책연구에 실질적으로 활용 가능한 데이터가 무엇이고, 이를 어떻게 구축할 것인지를 깊이 있게 고민하고 연구수행 결과를 데이터화하여 의미 있는 성과물로 관리하는 노력이 지속적으로 필요함 ○ KEI 기후환경 데이터 플랫폼을 구축하는 로드맵을 마련했으나 이 로드맵을 이행하는 데는 많은 예산과 인력 등의 자원이 필수적이며, 데이터의 공유문화와 플랫폼이 필요하다는 공감대가 형성되어야 함 ○ 전반적인 환경정책연구에서 정책 수립 및 이행에 필요한 데이터세트 구축 사업을 활성화하는 것과 데이터 성과물 영역의 확대 및 구축된 데이터의 활용도를 높이기 위한 실질적인 데이터 협업체계를 마련하는 것이 필요함 Ⅰ. Introduction □ Necessity and purpose of the study ○ The intensification of climate change phenomena such as abnormal weather conditions and natural disasters affects not only the natural environment but also human activities in various ways. ○ Recently, Korea has pledged to reach net-zero emissions by 2050 in cooperation with the international community and has been actively responding to climate change. ○ Climate change can be divided into mitigation efforts to reduce greenhouse gas and adaptation efforts to minimize damage and risk. However, since climate change occurs due to multiple causes, complementary policies on both efforts are needed. ○ In 2018, the Ministry of Science and ICT established the “Strategy for Sharing and Utilization of Research Data” to manage and share research data accumulated during the promotion of national R&D projects, and the era of data-intensive science is coming in earnest. - The development of equipment such as hardware and high-performance networks has produced a great deal of research data, and the management of various research data is an essential element for effective research performance. ○ This study aims to promote the climate change response focusing on data, which means to convert climate change research into one that is based on data science. - “Data Science” is a generic term for the process of understanding actual phenomena and deriving useful knowledge from various types of data. - As more data such as data from information and communication technology (ICT), satellite data, and meteorological reinterpretation data are generated, it is important to secure relevant data to link and utilize them. ○ Data for climate change response are scattered across various organizations and there are many constraints in terms of data utilization due to the absence of a standard system for classifying environmental data. Thus, it is urgent to come up with measures to utilize data efficiently and conveniently. □ Scope of the study ○ Analyze the current status of climate environment data, establish and operate an implementation system of the data management plan (DMP), and prepare a strategy for establishing a climate environment data platform as well as a plan for providing differentiated data services - Prepare a data inventory in the mitigation & reduction sector to respond to climate change based on the status of satellite-centered climate environment application data and data survey in the climate change mitigation sector - Define the scope of research data and introduce a data management plan (DMP) for establishing a practical implementation system for climate environment data management, and establish the KEI-type data management promotion system centered on research data repository (IDR) - Seek ways to provide climate environment data services that can be used for environmental policy research based on the established climate environment data inventory and management system ㆍ Climate environment data is limited to public data related to mitigation and adaptation to respond to climate change in this project. ㆍ This study aims to prevent the use of various accumulated data in a single research project only and maximize the sharing and utilization of data. - Review the laws and systems related to data sharing and utilization, as well as surveys for establishing a climate environment data platform, and suggest realistic plans for policy research centered on climate change data □ Content and methodology ○ In the second year of the study, building and supplementing the greenhouse gas reduction data in major environmental organizations and promoting the advancement of the existing inventory are planned. - This study examines the possibility of expanding the scope of climate change response data based on the satellite data outputs and the status of meteorological and climate data collected by the Korea Meteorological Administration among climate environment data. ○ This study seeks to derive the essential elements for defining and managing research data for the preparation and establishment of the KEI research data management system. ○ This study aims to develop a roadmap for constructing the KEI climate environment data platform based on research data management systems investigated and expert opinions. ○ To expand the above platform and make it the KEI-type data platform in the future, we plan to upload the collected meta-information of climate change response data to the research data repository system on a trial basis, and improve policy utilization through the data mind map trial services. Ⅱ. Advancement of the Climate Environment Data Inventory □ Current status of domestic climate environment application data ○ Climate change greatly affects not only precipitation, cloud amount, and temperature, but also vegetation distribution and land distribution, and to respond to these, primary data needs to be secured. ○ Overseas, satellite data are being used for observation in various areas, such as air-polluting gases, climate change-causing gases, aerosols, and vegetation index changes, led by the National Aeronautics and Space Administration (NASA) and the European Space Agency (ESA). ○ In Korea, a geostationary complex satellite was launched following the Communications Oceanic and Meteorological Satellite (COMS), and the data produced through the satellite observation are used as basic data in developing climate change response policies. ○ Korea’s representative satellites include the Geostationary Ocean Color imgaer (GOCI), Chollian Satellite, Geostationary Korea Multi-Purpose Satellite-2B, and GEO-KOMSAT-2A. - The GOCI is used to monitor red tide, sea ice, sea fog, marine dumping, marine sand mining activities, fine dust, and so on. ㆍ As the major outputs, 13 types of data are produced, including the data on dissolved organic matter, chlorophyll, total suspended matter, red tide index, and terrestrial vegetation index. - Geostationary Satellite 2B observes the marine environment and ecosystem, monitors air pollutants outside the Korean Peninsula, and provides data for responding to climate change and monitoring fine dust. ㆍ A total of 26 types of data are provided, including atmospheric correction, unique optical characteristics, atmospheric data, sea color data, ocean data, and land data. - Compared to the GOCI, GEO-KOMSAT-2A Satellite is capable of various observations, and it is possible to monitor and prepare for meteorological disasters. ㆍ A total of 52 types of meteorological data are produced, 23 types of which being basic ones including cloud detection, ozone amount, and rainfall intensity, and 29 types being additional ones including forest fire detection, vegetation index, vegetation rate, and surface reflectance. □ Current status of climate change response data ○ Responding to climate change should be considered in terms of both mitigation policies (reducing or absorbing greenhouse gases) and adaptation policies (reducing damage from climate change). ○ This study aims to link climate change mitigation policies and adaptation policies by examining the current status of climate change mitigation data such as energy, power generation, and greenhouse gas emissions. ○ Data in the climate change mitigation (greenhouse gas reduction) sector can be largely divided into energy statistics, the national greenhouse gas inventory, and other related and usable data. - The Korea Energy Statistical Information System links and integrates statistics related to energy balance and national energy supply and demand, as well as statistical data from related organizations in accordance with the regulations on preparing energy statistics. - The national greenhouse gas inventory provides data to identify domestic greenhouse gas emission sources, sinks, and the amount of emissions and absorption to respond to climate change. - Other data include traffic/transport and electricity data to support the emission calculation and analysis in the public and private sectors as well as academic world and to link greenhouse gas inventories. ○ The climate change adaptation sector builds the climate environment data inventory based on the data established in the system operated by the National Climate Change Adaptation Center (KACCC). - Vulnerability assessment data for adaptation to climate change are provided by the integrated assessment model for climate change impact and vulnerability by sector (MOTIVE) and climate change vulnerability assessment tool (VESTAP), which are representative climate change adaptation systems. ○ Various weather observation data and disaster prevention meteorological information observed and provided by the Korea Meteorological Administration are used as basic data in various fields, such as in predicting the future of climate change and establishing response policies. - Climate change scenarios can be used for analysis in impact assessment due to future climate change and research on minimizing the damage, and it is used as essential information for establishing and supporting climate change response and adaptation measures. Ⅲ. Establishment of a Climate Environment Data Management System □ Overview of KEI research data management ○ Efforts to share and utilize domestic research data are actively pursued following the implementation of the regulations on Data Management Plan (DMP) in 2019. - There are successful cases of data preservation and reuse from national R&D projects in major advanced countries, and open data activities are spreading around the world. - Research data and data management plans are defined in the Regulations on the Management of National Research and Development Projects. The basis for managing research data at the national level is established by stipulating the requirement to submit DMP when conducting national R&D projects. ○ Core elements for managing and providing research data can be divided into supporting DMP preparation, data file organization, data storage, data sharing and access, data citation, and data management education. □ Research data collection and management ○ Research data is factual data calculated through various experiments, observations, investigations, and analysis conducted in the course of conducting R&D tasks, and is essential for the verification of research results. - Research data refers to all data generated in the research process, so it must be distinguished from research records such as e-mails or technical reports. - In order to support continuous research activities and to preserve and share research results, it is necessary to manage the data generated during the research process in the research institute to which the researcher belongs and the community in which the researcher is active. ○ DMP refers to an official document describing how research data produced and collected through a research project is managed and shared during or after the research project. - DMP allows faithful data description before data collection, which eliminates the need for researchers to make efforts to memorize details about data and allows data reuse. ○ Research data management is an act that occurs in all processes, from the research planning stage to data production, collection, management, preservation and disposal, publication, and reuse in accordance with the research life cycle. ○ For the development of the KEI climate environment data platform, it is important to identify the research data life cycle and confirm the details. □ Establishment of a research data management system ○ Data repository is developed as an open source and can utilize open software, and DSpace and NaRDA are representative examples. - DSpace makes it easy to submit files and accommodates a variety of files by providing a web-based interface, and it can be expanded to a large-scale, multi-disciplinary repository beyond one institution. - NaRDA is a research data repository developed and disseminated by the Korea Institute of Science and Technology Information (KISTI), designed and implemented in consideration of the cycle of researchers’ data management activities. ㆍ On NaRDA, users can fill out DMP submission forms, post and share them. ㆍ In the stage of conducting research, data for research can be freely uploaded and downloaded, and data description can be provided. ㆍ In the last stage, research data can be registered for sharing research results, and for this purpose, metadata extraction and DOI grant functions are provided. ○ Research data consists of metadata and source data, and metadata is an index element used in data retrieval systems to describe data. ○ Metadata describes the properties of data, provides context and data quality information, and it refers to the documentation of the characteristics of other objects or data. □ Preservation and sharing of research data ○ When digital research data is preserved, various benefits can be generated and preservation of data requires human and material resources. - For data preservation, a method to collect the relevant information should be systematically provided, and there should be given a permanent identifier (DOI, ARK, UUID, etc) for preservation and publication. ㆍ The most commonly used permanent identifier is DOI, and organizations that publish data using the DOI prefix issued by KISTI can publish data by adding a suffix. ○ In relation to data publication, it is necessary to reflect the will of the researcher, and it is also necessary to set the ranges for internal and external sharing and design frames and functions that can express the level of the researcher’s demand. ○ Effective use, sharing, and reuse of research data can be expected by improving the data literacy ability of researchers, and a compensation system for data disclosure should be prepared to promote research data sharing and reuse. □ Research data construction service cases and implications ○ The Korea Institute of Geoscience and Mineral Resources (KIGAM) has been operating GDR, a geological data repository, recognizing that duplicate research is being conducted due to the absence of a management system for research data. - GDR is the first repository that issues DOIs for data access control functions and data linked to external data, and implements a system that includes the DMP form in the business plan. ○ The Korea Institute of Oriental Medicine (KIOM) has been operating the oriental medicine research data repository (KMDR). - KMDR is an information system for systematic management and sharing of research data in the field of oriental medicine, established for the purpose of supporting efficient research performance through data management support and enhancement of utilization. - By linking the encryption module application for the protection of research data from external threats and DMP creation and management functions, it is possible to manage the entire period of research data. ○ The National Institute of Forest Science newly established a provision on the obligatory management of research data through a partial revision (February 11, 2019) of the “Regulations on Research Project Management of the National Institute of Forest Science (Regulation No. 307).” - It established a reward plan to promote active research data management and raise awareness on the participation to support data-based convergence forest science research. ○ In order to create a research data management and governance system, continuous education is required so that the perception of researchers and management can change in a positive way, and continuous cooperation with leading institutions is important. □ Establishment of the KEI research data utilization and management system ○ There are few data production cases in environmental policy research, and applying the DMP and research data repository system operated in the science and technology field has limitations due to the integrated and complex format of social and natural science research. ○ Based on the data classification status of major institutions, KEI research data is classified according to types and formats of data and data production methods. - Types and formats of data (indicator/index, policy database, measurement /observation, simulation, literature, expert opinion, presentation materials /policy document, etc) - Data production methods (internal-produced, internal-processed, external -produced, external-processed, etc) ○ KEI needs to systematically manage research data in order to prevent its loss, establish sustainable environmental policies, prepare a multidisciplinary convergence research system through data linkage, and support evidencebased policy decision-making. - DMP was introduced (implemented in June 2021) when research projects for 2022 were proposed to improve the efficiency of research performance management through data performance management, facilitate the dissemination of research results, and create a data-based research cooperation ecosystem. - For the efficient operation of the first DMP applied in the institute, research data is defined as data used during the environmental (policy) research process or major research outcomes. ○ This study aims to prepare a DMP-centered data management system by establishing a research repository, linking intranet accounts to the repository, registering metadata, and preparing plans to connect DMP and IDR. Ⅳ. KEI Climate Environment Data Platform Construction Strategy □ Overview of KEI climate environment data platform construction ○ Efforts are underway to share and utilize various research data through the establishment of a data platform, promoting the use of research data at the national level, and creating an advanced research environment for convergence research, open science, and so on. ○ Data is being produced exponentially in various fields, but there are still issues related to the ownership and disclosure of information. - There is a lack of appropriate legislation in terms of integrating and using data and using them jointly across sectors. - The foundation is being laid for data industry revitalization through the revision and enforcement of the “Three Data Privacy Acts” and the “Act on the Promotion of Data-based Administration” but there is a high possibility of problems such as overlapping regulations occurring. ○ This study summarizes the current status of laws and systems related to information access and services and research data management to manage climate environment research data and prepare a platform construction strategy. - The main laws and systems related to data use and utilization include the Framework Act on Environmental Policy, Electronic Government Act, Framework Act on National Informatization, Act on Promotion of the Provision and Use of Public Data, Framework Act on Intelligent Informatization, Act on the Promotion of Data-based Administration, Special Act on Promotion of Information and Communications Technology and Vitalization of Convergence Thereof, Regulations on the Management of National Research and Development Projects, and the Act on Promotion of Information and Communications Network Utilization and Information Protection, etc. ○ First, we drew out the requirements for improvement from the current laws and systems related to the use and utilization of data in terms of research data management. - It is necessary to add a clause recommending (research) data management to the Regulations on the Management of National Research and Development Projects and to recommend in the Act on the Promotion of Data-based Administration that institutions establish metasystems and IDR systems be constructed. □ Establishment of the KEI Climate Environment Data Platform Construction Strategy ○ Currently, big data platform projects are being actively carried out, but there are still difficulties in acquiring data that can be used for climate environment policy research on multiple platforms. ○ A survey was conducted among experts in various media who conducted environmental policy research in order to establish a plan to connect various platforms differentiated from those of similar projects. - We collected basic data to develop macroscopic strategies for building a climate environment data platform construction strategy, planning data-based environmental research projects, and expanding the established platform in the future to make it the KEI-type data platform. - The questionnaire was divided largely into three main themes: data use and utilization, KEI climate environment data platform establishment, and data-based policy research demand. ㆍ The direction for construction is set based on the purpose of using climate environment data, whether there are any difficulties, data quality factors and characteristics, the opinions collected on data and services that should be provided in the platform, and other suggestions. ○ We established strategies that can make the platform serve as a “channel” for data utilization and linkage in environmental policy research by conducting a survey on the current status of climate environment data to respond to climate change and preparing a research data management system. - A roadmap to respond to the demands for creating core values was prepared, such as conducting convergence research, conducting strategic research for synergy, and conducting sustainable policy research. - The KEI research data utilization and management roadmap (draft) sets three main goals for data management and utilization and elicits detailed essential elements for promotion: ① establishment of a climate environment data hub, ② conversion of the climate environment data utilization system, and ③ improvement of the data utilization system. ㆍ Establishment of a climate environment data hub (builing an infrastructure, data linkage) ㆍ Conversion of the climate environment data utilization system (building an environmental data collaboration network, a data system for participatory environmental policy, and a data application system) ㆍ Data utilization system improvement (data utilization system improvement, data management system application, data management advancement) ※ For details of the KEI research data utilization and management roadmap, refer to < Figure 4-14 >~< Figure 4-16 >. Ⅴ. Establishment of the KEI Climate Environment Data Provision Services □ Overview of the KEI Climate Environment Data Provision Services ○ Based on the climate environment data inventory, we intend to prepare a data provision service plan and provide services to support decision-making on climate environment policy issues. - We set the scope with the data established by KEI and the platform data on the climate environment provided by other organizations, through which we prepared a plan for providing climate environment data. ○ In this study, we propose a method to improve data utilization and accessibility in policy research by preparing keyword-oriented policies and data linkage plans. - Providing customized data to users by diversifying keywords by field is proposed. □ Plan for providing KEI climate environment data ○ It is necessary to come up with a practical plan for researchers to use research data efficiently, and to provide a service by organizing the meta-information of major data. ○ In this study, the DMP is prepared based on the analysis of the current status of the climate environment data inside and outside the institute, which is connected to create metadata and provided as the pilot data on the research data repository system. - We provide various climate environment data that can be used as a basis for understanding policy issues and making decisions. - In order to improve the utilization of data in policy making, types of data, media information, and related keywords should be included in the metadata. ○ In order to develop a search engine to enhance the policy utilization of climate environment data, a keyword dictionary and related algorithms were built with related keywords stored. ○ To enhance access to climate change data, we propose a service in the form of a mind map that classifies and provides data by category and keyword frequency. - When providing a mind map, related data is extracted centered on ‘search words’ and classified by category. ㆍ Metadata such as name, keyword, and description of data as well as name of data source are matched with search keywords to preferentially select the range of data that will be used in mind mapping. ㆍ The criteria for primary and secondary classification are the climate change adaptation sector and sub-categories by sector, respectively. The tertiary classification consists of a mind map that provides keywords in bundles based on the frequency included in the data. □ Plan for providing a service linking climate environment policy with data ○ We suggest establishing links by giving sufficient amounts of relevant keywords to data through various routes. - Extract relevant keywords from KEI research reports and assign them to each database of major environmental issues - It is necessary to set the scope for keyword management depending on the content and nature of text data, and consider setting the limits to texts reflecting the positions of policy providers or demanders and assigning related keywords. Ⅵ. Conclusion and Policy Recommendations □ Conclusion ○ This study is a pilot study to strengthen data-centered responses to climate change and lay the foundation for digital transformation by establishing a data-science response platform strategy in the field of climate environment. ○ In the first-year study, the current status of data from KEI and other major organizations that can be used for climate change adaptation by sector was investigated, and additional data that can be used in climate change vulnerability assessment was proposed. ○ The second-year study includes the satellite data which are widely used in recent climate change research along with the existing adaptation data. ○ In addition, data in sectors such as industry, transportation, and household that can be used for greenhouse gas reduction and climate change mitigation are additionally investigated, and an inventory is built by integrating them. ○ It is expected that data utilization will be improved with the establishment of a climate environment data inventory with which it is possible to efficiently provide relevant data when conducting research on climate change response. ○ The draft of the research data management system was prepared with basic elements by supplementing the research data management system which focuses on climate environment data and investigating case studies on data management and collection by other institutions. ○ A DMP-centered research management system was prepared in consideration of in-house research data utilization cases, data scope, the review of DMP format construction cases, and research promotion process. ○ This study establishes a data management system that can be practically used in KEI in consideration of DMP preparation for climate environment data management and utilization, metadata template construction and supplementation, DMP and research data submission process, data format, and so on. ○ In particular, as an example of climate change response policy, detailed topics for each data sector are set to support research in the field of adaptation, and metadata is established to provide information on the data such as related keywords, data descriptions, and data sources. ○ To support for data-based policy, it is necessary to think about which document we should choose to extract keywords and the key is to set texts based on which we can identify related issues and important matters such as media reports and policy-related documents. ○ It analyzes the current status of climate environment data to respond to climate change, prepares a research data management and execution system, and presents a realistic approach strategy for how to provide actual data. □ Limitations and points for improvement ○ In the long term, it is necessary to make an effort to build a data set that can accommodate the needs of various users along with building an excellent platform that covers the entire environmental field. ○ In order to realize data-based policy research, in-depth consideration on what data can be practically used for policy research and how to build it, and continuous efforts to manage research results in databases and preserve them as meaningful outcomes are required. ○ To implement the roadmap for developing the KEI climate environment data platform, a large amount of resources including budget and human resources are essential; also, the implementation should be based on the consensus on the need for a data-sharing and a platform for it. ○ In overall environmental policy research, it is necessary to prepare a practical data cooperation system to expand the area of data outcomes and increase the utilization of the established data as well as promoting data set establishment projects necessary for policy making and implementation.

      • 환경 디지털 뉴딜 구현을 위한 AI 기반 환경 감시 체계 구축

        진대용,표종철,김도연,조윤랑,한국진 한국환경연구원 2021 기본연구보고서 Vol.2021 No.-

        Ⅰ. 서 론 □ 연구의 필요성 ㅇ 환경(정책)분야에서 AI 기술 활용은 그린 뉴딜과 디지털 뉴딜 연결에 주체적인 가교역할을 할 수 있지만 그 역할을 충분히 수행하지 못하고 있음 ㅇ 환경 분야의 데이터를 AI 기술을 중심으로 체계적이고 종합적으로 활용하기 위한 전략구축이 필요한 상황임 ㅇ ‘AI 기반 환경 감시 체계’ 구축을 위해서는 환경변화탐지, 자연재해 분석, 매체별 오염 발생패턴 분석 등 사례구축이 우선적으로 필요하며 이를 통해 필요한 요소 도출 및 프로세스 설계가 필요함 □ 연구의 목적 ㅇ AI 및 XAI 복합적 활용을 통한 AI 기반 환경 자동 모니터링 및 대응을 위한 주요 사례를 구축하고 이를 토대로 ‘AI 기반 환경 감시 체계’ 구축 전략을 제시함 Ⅱ. 선행연구 □ 환경정책연구에서 AI 연구 활용 범위의 확대 ㅇ 기존 의사결정 방법론의 한계를 다수의 파라미터로 구성된 AI 모델로 개선 가능 ㅇ 환경연구에서도 AI 방법론의 활용이 확대 중임 - 수치, 이미지, 영상 등 다양한 형태의 데이터를 변수로 활용 가능하며 예측, 분류, 검출, 변화탐지 및 영향력 분석 등이 가능함 - AI는 성능 측면에서 높은 정확도를 나타내지만, 복잡한 모델 구성으로 인해 설명력이 낮은 문제가 존재함 □ 설명 가능한 인공지능(XAI: eXplainable AI)의 등장으로 예측과 동시에 영향력이 큰 요인을 확인하여 의사결정을 위한 양적 자료로 활용 가능성 확대 ㅇ 블랙박스(Black-Box) 구조로 되어 있는 인공지능 알고리즘의 투명성과 신뢰성 확보를 위해 XAI 연구가 활발해지는 추세임 - 2017년 미 방위고등연구계획국(DARPA: Defense Advanced Research Projects Agency)에서 발표한 설명 가능 인공지능 프로젝트인 XAI를 시작으로 설명 가능한 인공지능의 기술 연구가 본격적으로 전개 중임 ㅇ XAI 분석 연구는 대기오염, 수질오염, 토양오염 등의 환경오염 문제뿐만 아니라 생태계 분야 등 다양한 환경 분야에서 적용되고 있음 - XAI 중에서 LIME(Local Interpretable Model-agnostic Explanations), SHAP(SHapley Additive exPlanation), Grad-CAM(Gradient-Class Activation Map) 등의 모형이 주로 활용되고 있음 □ IoT, 드론, 무인이동체 등 다양한 애플리케이션 및 기기를 통해 데이터 수집이 가능해져 환경 빅데이터가 축적되고 있으며 AI 적용 연구가 확대되는 추세임 ㅇ 환경분야에서 생성되는 이미지 및 영상 데이터는 기후, 환경오염(대기, 수질, 토양, 소음 등) 등 다양한 분야에 관련되어 있음 - AI 기반 예측, 분류 및 결측 데이터 보간 연구 등이 활발히 수행 중임 - 예측연구뿐만 아니라, XAI 기반 예측에 영향력이 큰 요인들을 제시하여 의사결정을 위한 양적 자료로 활용 가능성 확대 Ⅲ. AI 기반 산지 변화 탐지 1. AI 기반 산지 변화 탐지 연구의 개요 □ GIS와 원격탐사 기술을 이용한 산지 변화에 대한 실태 조사, 의심지 도출 및 후속 조치와 같은 대응이 이루어지고 있지만, 산지 변화의 조기 탐지 수행을 통한 피해지역의 조기 대응과 피해 축소가 필요함 □ 따라서 본 연구는 딥러닝 기술을 이용한 산지 변화 탐지에 대한 가능성을 제안함 2. 국내외 산림지도 현황 □ 국내외 산림지도 공급 현황 ㅇ 국토정보 플랫폼(국토지리정보원), 산림공간포탈서비스(산림청), AI 허브 산림수종 항공이미지 자료(한국지능정보사회진흥원) 등 ㅇ UCI Machine Learning Repository(미국), Skyscape dataset(독일 항공우주 센터), Semantic Change detection dataset(중국 우한대학교) 등 3. AI 기반 산지 변화탐지 입력자료 구성 및 모델 구성 □ AI 모델 입력자료 구성 ㅇ AI 허브 국토환경데이터에서 산림수종 항공이미지를 활용함 ㅇ 항공영상을 128×128로 세분화하여 한 영상당 16장의 이미지로 구성하고, RGB 항공영상 정보의 정규화를 수행함 ㅇ 라벨링 데이터는 산림과 비산림으로만 구분하기 위해 바이너리 어노테이션(binary annotation)을 수행하였고, 판독 불가의 라벨이 포함된 항공 이미지는 제외함 ㅇ 수도권 지역의 학습 이미지 총 1만 6,000장과 검증 이미지 총 1,600장을 AI 모델 입력자료로 활용함 ㅇ 산지 변화 탐지 성능 테스트를 위해 카카오 지도(Kakao Map)의 동 지역 다(多) 시기 테스트 이미지 데이터셋(data set)을 구성함 □ AI 모델의 구조 ㅇ 이미지 분할(Image segmentation)에 특화된 U-Net 딥러닝 모델 구조를 적용 ㅇ 기훈련된 U-Net 딥러닝 아키텍처의 레이어 구성과 하이퍼 파라미터를 파인튜닝(fine-tuning) 하여 산지 변화 탐지 학습을 수행 4. AI 모델 산지 변화탐지 결과 및 활용방향 □ U-Net 모델의 훈련 및 검증 결과는 산림과 비산림 지역을 잘 구분하였고, 실제 라벨링 지역과 유사한 패턴을 보이는 것을 확인함 □ 훈련된 U-Net 모델에 카카오 지도의 동 지역 다(多) 시기 이미지 적용 시 산지의 변화를 잘 구분하는 것을 확인하여, 산지 변화 탐지에 대한 딥러닝 모델의 활용 가능성을 확인함 Ⅳ. AI 기반 기후·대기오염과 코로나19 상관관계 분석 1. AI 기반 기후·대기오염과 코로나19 상관관계 분석 연구개요 □ 기후변화가 코로나19의 확산에 직접적인 영향을 미친다는 증거는 없으나, 관련 논의는 지속적으로 진행 중인 상황임 □ 2020년 서울시를 대상으로 기후 및 대기오염과 코로나19의 상관관계 분석을 수행하고, 기후 및 대기오염 인자와 코로나19 확진 사이의 관계에 대해 모의한 AI 모형 구축 가능성을 검토함 2. 기후·대기오염과 코로나19 상관관계 관련 선행연구 검토 □ 최신 국내외 연구사례 분석 결과, 국가별 결과가 상이하며 기후 및 대기오염 변수가 코로나19에 직접적인 영향을 미친다고 보기에는 어려운 것으로 사료됨 ㅇ 코로나19 사태 이후 기후 및 대기오염 영향 연구가 활발히 진행 중임 - 메르스, 사스, 코로나19 등 감염병은 계절적 패턴을 보이며 기온, 습도 데이터를 활용하여 예측 가능성을 검토함 - 유럽에서는 코로나19로 인한 사망에 이산화질소(NO<sub>2</sub>)가 중요한 요소인 것으로 추정하였으며, 인도에서는 코로나19로 에어로졸 광학깊이(AOD)가 20년 만에 최저 수준으로 나타남 3. 기후·대기오염과 코로나19 상관관계 분석 및 결과 □ 2020년도 서울시 중심 기후 및 대기오염과 코로나19 상관관계 분석 시범 연구 사례 도출 ㅇ 코로나 관련 확진자 및 사망자 수, 기후 및 대기오염 데이터 수집을 통한 학습 데이터셋 구축 ㅇ 계절적 요인을 제외하기 위한 시기별(구간별) 스피어만(Spearman), 켄달(Kendall) 상관관계 분석 수행 - 전체기간 분석 결과 기온 변수가 코로나19 확진자 수와 높은 상관성을 나타냄 - 하지만 기온 변수의 코로나 시기별 상관계수 부호와 값이 크게 바뀌어 결과에 일관성 문제가 있음을 확인 ㅇ 분석 결과 한계점을 확인하였으며, 향후 분석 시 정책, 사회활동 변수 추가 필요 - 코로나19 확진자 수를 추정할 수 있는 직접적인 관련 입력변수(정책, 인구 이동 등)를 추가하여 분석 수행 필요 - 분석대상이 되는 기간이 2020년 1개 연도로, 데이터 축적을 통해 이를 늘릴 필요가 있음 Ⅴ. AI 기반 침수 흔적 탐지 1. AI 기반 침수 흔적 탐지 연구 개요 □ 오픈데이터(Open Data)를 활용하여 AI 기반 도심 침수 흔적 탐지 체계 구축 연구를 수행함 □ GIS 기반 공간 데이터 전처리, 파이썬 기반 전처리 데이터의 AI 모델 입력자료 구축, 기계학습 모델 구축을 통한 침수 흔적 탐지 학습 및 활용한 입력 데이터 중 침수 탐지에 중요한 인자 추정 □ 침수 취약 지도 작성과 중요 인자 파악 및 분석, 기후변화시나리오 데이터를 적용한 미래 침수 취약지역 예측 및 분석 수행 2. AI 기반 침수 흔적 탐지 입력자료 및 모델 구성 □ AI 모델 입력자료 구성 ㅇ 환경 빅데이터 플랫폼, 기상정보포털, 그리고 환경공간정보서비스를 통한 수문분석도, 지형분석도, 기후변화 시나리오 데이터, GIS 데이터를 활용함 ㅇ 취득한 공간 데이터의 수도권 지역으로 공간적 범위 일원화, 래스터화 및 적층을 통한 입력자료 구성을 진행함 ㅇ 랜덤 포레스트 모델 훈련을 위해 침수위선상 침수 범위의 150지점을 훈련데이터로, 50지점을 검증데이터로 사용함 □ AI 모델의 구성 ㅇ 앙상블 학습 방법을 활용하는 대표적인 기계학습 모델인 랜덤 포레스트(Random Forest) 모델 구성과 학습을 통한 수도권 지역 침수 흔적 탐지 성능 평가를 진행함 ㅇ 침수 흔적 탐지 결과에 대한 입력자료의 민감도 분석을 위해 랜덤 포레스트 모델의 변수 중요도(Variable importance)를 추정함 3. AI 모델 침수 흔적 탐지 성능 및 검증 □ 랜덤 포레스트 모델 침수 흔적 탐지 성능 평가 ㅇ 랜덤 포레스트로 학습한 침수 흔적 범위와 측정된 침수 흔적 범위와 유사한 결과를 확인함 ㅇ 훈련된 모델을 수도권 전역에 적용한 수도권 지역 침수 취약 지도를 통해 한강 수변 중심으로 침수 취약도가 높음을 확인함 4. 기후변화 시나리오를 통한 침수 흔적 예측 □ RCP 8.5 시나리오 적용을 통한 침수 흔적 변화 예측 ㅇ 미래의 RCP 시나리오를 훈련된 랜덤 포레스트 모델에 적용하여, 강수량 변화에 따른 수도권 지역 침수 흔적 범위 변화를 확인함 ㅇ 기후변화 시나리오에 따른 AI 기반 도심 침수 피해 예측 등의 활용을 기대함 Ⅵ. AI 기반 미세먼지 발생패턴 분석: 고농도 사례를 중심으로 1. AI 기반 미세먼지 발생패턴 분석 연구 개요 □ AI 기반 고농도 미세먼지 발생패턴 분석 연구의 필요성 ㅇ 우리나라의 미세먼지 농도는 관련 정책의 수립 및 적극적인 이행으로 전반적으로 감소하는 추세임 ㅇ 하지만 고농도 미세먼지 현상은 계속해서 나타나고 있고, 지속기간이 길어지는 사례는 여전히 존재하며, 국민들의 미세먼지에 대한 불안감은 아직까지 해소되지 않은 상태에서 환경에 대한 인식 및 관심이 높아짐에 따라, 관련 정책이 늘어나고 있음 ㅇ 미세먼지 발생 패턴분석을 위한 AI 모형의 구축을 수행하고 활용방안을 제시함 2. AI 기반 미세먼지 발생패턴 분석 입력자료 및 모델 구성 □ AI 모델 입력자료 구성 ㅇ 에어코리아, 기상정보포털 등을 통한 대기질, 기상·기후자료, 외부요인(중국 대기질) 자료를 활용함 ㅇ 2017~2019년 충남 지역을 대상으로 하였으며, 대기측정망을 기준으로 데이터를 재구성함 □ AI 모델 구성 ㅇ 부스팅 기반 방법을 활용하는 대표적인 기계학습 모델인 XGBoost 모델 구성 및 학습을 통해 미세먼지 추정 모형 구축을 진행 3. AI 기반 고농도 미세먼지 발생패턴 분석모델 성능 및 활용 가능성 검토 □ 미세먼지 추정 성능 테스트 ㅇ 테스트 데이터에 대해 구축된 모형에서 추정값과 실측값을 비교했을 때 대부분의 경우 경향을 추적할 수 있음을 확인함 ㅇ 하지만 고농도 미세먼지 대해서는 추정이 잘되지 않는 부분들이 일부 존재하였으며, 이 부분은 향후 학습 데이터의 증가 및 관련 변수들의 추가선정을 통해 보완할 수 있을 것으로 사료됨 □ 미세먼지 발생패턴 분석 결과 ㅇ 구축된 모형에 PDP 및 SHAP 방법론을 적용하여, 미세먼지 농도 추정에 대한 모델의 판단 근거를 도출할 수 있음을 확인함 ㅇ 미세먼지 발생패턴의 핵심인자를 파악하고, 주요 사례별로 모형값 결정에 대한 입력 변수의 기여도 분석 사례를 제시함 □ AI 기반 고농도 미세먼지 발생패턴 모형의 활용 가능성 검토 ㅇ 대기오염물질, 기상·기후 요인, 중국 대기질 데이터 등의 활용을 통해 PM<sub>2.5</sub>를 추정하는 AI 모형 구축이 가능함 ㅇ SHAP값은 구축한 AI 모델의 출력값에 의존적인 모형이며, 구축된 모형의 특성에 종속된다는 한계가 있음 ㅇ 출력된 결과는 입력변수와 출력변수의 패턴 분석을 통해 상관관계를 체계화하는 것에 가까우며, 인과관계를 보장하지 않는 한계가 있음 ㅇ 그럼에도 AI 모형으로 입력되는 변수들의 PM<sub>2.5</sub> 추정에 샘플 단위로 영향력을 제시할 수 있음 ㅇ 향후 전문가들과의 논의를 통해 미세먼지 농도 추정에 대한 기여도의 정합성을 검토하여, 신뢰도 높은 정량평가모델로 개선할 필요가 있음 Ⅶ. 결론 및 정책 제언(학술적 성과) □ 환경 디지털 뉴딜을 위한 AI 기반 환경분야 연구사례 제시 ㅇ AI 기술을 중심으로 환경 변화 탐지 사례(산지 변화 탐지), 자연재해 분석 사례(침수탐지 및 예측), 감염병 분석 사례(기후 및 대기인자와 코로나19 상관분석, 매체별 환경오염 분석 사례(미세먼지 발생패턴 분석)의 환경분야 활용 사례를 제시 ㅇ 수치, 이미지, 지리정보 등 다양한 데이터를 입력변수로 활용 가능하며, 연구목적에 따라 관심변수의 추정 및 예측, (이미지) 변화 분석, 변수의 영향력 분석 등에 활용할 수 있는 가능성을 제시함 ㅇ XAI 모형을 통해 구축된 모델의 값 출력에서 영향력이 큰 요인들을 제시하여, 의사결정을 위한 양적 자료로 활용하기 위한 방안을 제시함 □ AI 기반 감시 체계 구축을 위한 필수 요소 및 활용방안 ㅇ 다수 환경분야에 대한 실제 AI 적용을 통해, AI 기반 감시 체계 구축을 위한 필수요소 및 기본적인 모형 구축 및 분석 과정을 정립함 ㅇ AI 기반 감시 체계의 필수요소는 데이터 구축(데이터 수집 또는 생산) ⇒ AI 모형구축 ⇒ AI 모형 기반 분석 및 감시 실시 ⇒ 결과 도출 및 정책 근거자료 확보의 과정으로, 이를 통해 AI 기반 감시 체계 구축 가능 ㅇ 지속적으로 활용 가능한 환경감시 체계 구축을 위해서는 실시간 또는 주기적 자동 데이터 수집이 필수적임 ㅇ AI 모형을 구축한 뒤 모형 출력 결과를 활용 및 고려하지 못한 부분에 대한 모형 업데이트를 수행하는 등의 선순환 체계 구축 필요 ㅇ 모형 구축 및 결과 해석의 과정에서 전문지식과의 정합성이 확보되면, 향후에는 지속적(자동)으로 결과를 도출하여 환경 이슈 대응방안 수립 시 과학적 정책 근거 자료를 제시함으로써 감시 체계의 역할을 수행할 것으로 기대함 □ 후속 과제 제안 ㅇ 정밀하고 실용성 높은 분석을 위해서 고해상도의 시·공간 데이터 구축이 필요하고 구축된 데이터의 질에 따라 결과 및 활용 범위가 달라지기 때문에, 데이터 구축이 필요한 영역에 대한 검토, 목적에 맞는 고해상도 데이터 생산을 위한 연구 수행을 제안함 ㅇ 매체별 오염, 자연재해 분석 등 AI 및 XAI 모델을 구축하고, 도출된 결과를 토대로 전문가와의 정합성 검토, 물리적 모델링 및 시뮬레이션 결과 등과 비교분석을 비롯해 관련 내용을 합리적으로 반영하기 위한 연구 필요 Ⅰ. Introduction □ Research background ㅇ Use of AI technology in the environmental (policy) sector can perform an independent role as a bridge between Green New Deal and Digital New Deal, but it fails to sufficiently fulfill its role ㅇ There is a need to establish strategies to systematically and comprehensively use data in the environmental sector with focus on AI technology ㅇ To build an ‘AI-based environmental monitoring system’, it is necessary to first develop cases such as environmental change detection, natural disaster analysis, and pollution occurrence pattern analysis by media type, through which necessary elements must be derived and processes designed □ Research objective ㅇ To develop major cases for automatic AI-based environmental monitoring and response through combined use of AI and XAI and provide strategies to build an “AI-based environmental monitoring system” based on the above Ⅱ. Literature Review □ Expanding the application scope of AI studies in environmental policy research ㅇ Limitations of existing decision-making methodologies can be overcome with AI models comprised of multiple parameters ㅇ Application as environmental studies using AI methodologies is being expanded - Various forms of data such as numbers, images, and videos can be used as variables, allowing prediction, classification, detection, change detection, and impact analysis - AI shows high accuracy in terms of performance, but there is the issue of low explanatory power due to complicated model compositions □ With the emergence of explainable AI (XAI), factors with a huge impact can be predicted as well as validated, which can be used as quantitative data for decision making ㅇ XAI studies are conducted actively to ensure transparency and reliability of AI algorithms in a black box structure - Starting with the explainable AI project XAI announced by the Defense Advanced Research Projects Agency (DARPA) in the U.S. in 2017, technological research on explainable AI is being developed ㅇ Studies analyzing XAI are applied to various fields of the environment such as ecosystem in addition to environmental pollution problems such as air pollution, water pollution, and soil pollution - XAI models mostly used include local interpretable model-agnostic explanations (LIME), SHapley Additive exPlanation (SHAP), and Gradient-weighted Class Activation Mapping (Grad-CAM) □ Data can be collected using various applications and devices such as IoT, drones, and unmanned vehicles, thereby accumulating environmental big data and activating studies applying AI ㅇ Image and video data created in the environmental sector are related to various fields such as climate and environmental pollution (air, water quality, soil, noise, etc.) - Studies are actively conducted on AI-based prediction, classification and interpolation of missing values - In addition to prediction research, factors with a huge impact on XAI-based prediction are presented, which can be used as quantitative data for decision making Ⅲ. AI-based Mountain Land Change Detection 1. Overview of research on AI-based mountain land change detection □ Measures are taken using GIS and remote sensing technology such as factual surveys on mountain land changes, derivation of suspicious sites, and other follow-up measures, but there is a need for early response and decrease of damages through early detection of mountain land changes □ Therefore, this study raises the possibility of mountain land change detection using deep learning technology 2. Forest maps in Korea and overseas □ Supply of forest maps in Korea and overseas ㅇ National Geographic Information Platform, (National Geographic Information Institute), Forest Space Portal Service (Korea Forest Service), AI Hub aerial photographs of forest tree species data (National Information society Agency), etc. ㅇ UCI Machine Learning Repository (U.S.), Skyscape dataset (German Aerospace Center), Semantic Change detection dataset (Wuhan University in China), etc. 3. AI-based mountain land change detection input data and model composition □ AI model input data ㅇ Aerial photographs of forest tree species are used from AI Hub national land environment data ㅇ Aerial videos are subdivided into 128 x 128, organizing each video with 16 images and normalizing the information of RGB aerial images ㅇ For labeling data, binary annotation is performed to classify into just forests and non-forests, and aerial photographs including illegible labels are excluded ㅇ Total 16,000 images for learning and 16,000 images for validation in the capital area are used as AI model input data ㅇ The same area multi-period test image datasets on Kakao Map are formed to test the performance of mountain land change detection □ Structure of the AI model ㅇ The U-Net deep learning model structure specialized for image segmentation is applied ㅇ The layer composition of trained U-Net deep learning architecture and hyper parameters are fine-tuned to perform mountain land change detection learning 4. Results and application of AI model mountain land change detection □ The training and validation results of the U-Net model well divided forests and non-forests and showed a similar pattern as actual labeling areas □ Mountain land changes are well distinguished when applying the same area multi-period test images on Kakao Map to the trained U-Net model, which proved the applicability of deep learning models in mountain land change detection Ⅳ. Correlation Analysis of AI-based Climate/air Pollution and COVID-19 1. Overview of research in correlation analysis of AI-based climate/air pollution and COVID-19 □ There is no evidence that climate change has a direct impact on the spread of COVID-19, but related discussions are continuously being made □ Correlation analysis of climate/air pollution and COVID-19 in Seoul was conducted in 2020, and the possibility of building an AI model simulating the relationship between climate/air pollution factors and COVID-19 was reviewed 2. Literature review on correlation between climate/air pollution and COVID-19 □ After analyzing the latest research cases in Korea and overseas, the results vary among nations and proved that there is no evidence that climate and air pollution variables have a direct impact on COVID-19 ㅇ Studies are actively conducted on the impact of climate and air pollution since the COVID-19 pandemic - Infectious diseases such as MERS, SARS, and COVID-19 show a seasonal pattern and can be predicted using temperature and humidity data - NO<sub>2</sub> was proved to be a key element of death from COVID-19 in Europe, and AOD in India turned out to be the lowest in 20 years due to COVID-19 3. Correlation analysis of climate/air pollution and COVID-19 and results □ A pilot study was conducted on correlation analysis of climate/air pollution and COVID-19 at the heart of Seoul in 2020 ㅇ Learning datasets are built by collecting confirmed cases and deaths of COVID-19, and climate and air pollution data ㅇ Spearman and Kendall correlation analyses were conducted on each section to exclude seasonal factors - The results showed that temperature was a variable highly correlated with the number of confirmed cases of COVID-19 - As a result, the correlation coefficient of temperature in each section changed significantly, proving that there is little relevance ㅇ The results proved the limitations and raised the need to add policy and social activity variables for future analysis - Must conduct analysis by adding directly related input variables (policy, population mobility, etc.) that can estimate the number of confirmed cases of COVID-19 - Must increase the analysis period by accumulating data to 1 year of 2020 Ⅴ. AI-based Inundation Trace Detection 1. Overview of research on AI-based inundation trace detection □ Research is conducted on building an AI-based urban inundation trace detection system using open data □ Preprocessing GIS-based spatial data, building AI model input data of Python-based preprocessing data, learning inundation trace detection by building machine learning and deep learning models, and estimating key factors of inundation detection among input data used □ Developing a flood susceptibility map, identifying and analyzing key factors, and conducting prediction and analysis of future flood susceptible areas applying climate change scenario data 2. AI-based inundation trace detection input data and model composition □ AI model input data ㅇ Hydrology map, topographic map, climate change scenario data, and GIS data are used on Environment Big Data Platform, Open MET Data Portal, and Environmental Space Information Service ㅇ Input data is formed by unifying, rasterizing, and stacking the spatial scope to the capital area of spatial data obtained ㅇ For random forest model training, 150 points of inundation scope in 2010 are used as training data, and 50 points as validation data □ Structure of the AI model ㅇ Inundation trace detection performance in the capital area is evaluated by composing and learning the random forest model, which is a typical machine learning model using the ensemble learning method ㅇ Variable importance of the random forest model was estimated to analyze the sensitivity of input data in inundation trace detection results 3. AI model inundation trace detection performance and validation □ Performance evaluation of the inundation trace detection using the random forest model ㅇ Similar results were found between the inundation trace scope learned by random forest and the inundation trace scope measured in 2010 ㅇ High flood susceptibility was verified around the waters of Hangang River through the flood susceptibility map of the capital area applied to all capital areas of the trained model 4. Inundation trace prediction through climate change scenario □ Inundation trace change prediction by applying the RCP 8.5 scenario ㅇ Change in the inundation trace range in the capital area is verified by change in precipitation by applying the future RCP scenario to the trained random forest model ㅇ Expected to be used in AI-based urban inundation damage prediction according to climate change scenarios Ⅵ. AI-based Particulate Matter (PM) Occurrence Pattern Analysis: Focusing on High Concentration Cases 1. Overview of research on AI-based PM occurrence pattern analysis □ Need for research on AI-based PM occurrence pattern analysis ㅇ PM concentrations in Korea are decreasing overall with establishment and active implementation of related policies ㅇ However, there is an ongoing phenomenon of high concentration PM that still lasts long, and the nation’s anxiety over PM is not yet resolved, and there are more and more related policies and interest due to the expansion of environmental awareness ㅇ Building an AI model and providing application plans for PM occurrence pattern analysis 2. AI-based PM occurrence pattern analysis input data and model composition □ AI model input data ㅇ Air quality and weather/climate data on Air Korea and Open MET Data Portal are used, as well as external factors (air quality in China) ㅇ Research is conducted on Chungnam in 2017-2019, with data restructured based on the air quality monitoring network □ Structure of the AI model ㅇ The XGBoost model, which is a typical machine learning model using the boosting technique, is developed and the PM estimation model is built through learning 3. Review of performance and applicability of the AI-based high concentration PM occurrence pattern analysis model □ PM estimation performance test ㅇ Comparing the estimated and measured values of the model built on test data, the trend was traced in most cases ㅇ However, some cases of high concentration PM were not estimated well, which can be supplemented later by increasing learning data and additionally selecting related variables □ PM occurrence pattern analysis results ㅇ It has been proved that the grounds for model judgment about PM concentration estimation can be derived by applying PDP and SHAP to the built model ㅇ Key factors of PM occurrence patterns are identified, and analysis cases on contribution of input variables in determining model values for each case are provided □ Review of the applicability of the AI-based high concentration PM occurrence pattern model ㅇ Can build an AI model estimating PM<sub>2.5</sub> using air pollutants, weather/ climate factors, and China’s air quality data ㅇ SHAP values have limitations in that they are dependent on the output values of the AI model built and subordinate to the characteristics of the model built ㅇ The output results are closer to systemizing the correlation through pattern analysis of input and output variables without guaranteeing the causal relations ㅇ Nonetheless, the AI model can have an effect at the sample level in PM<sub>2.5</sub> estimation of variables ㅇ By discussion with experts in the future, it is necessary to review the consistency in contribution to PM concentrations and improve into a highly reliable quantitative evaluation model Ⅶ. Conclusions and Policy Suggestions (Academic Outcomes) □ Case studies on AI-based environment for environmental Digital New Deal ㅇ This study presented cases used in the environmental sector with focus in AI technology, such as environmental change detection (mountain land change detection), natural disaster analysis (inundation control and prediction), infectious disease analysis (correlation analysis of climate/air factors and COVID-19) and environmental pollution analysis by media type (PM occurrence pattern analysis) ㅇ All kinds of data such as numbers, images, and geographical information can be used as input variables, and can be applied in estimating and predicting variables of interest, analyzing (image) changes, and analyzing variable impact depending on the research purpose ㅇ Presenting ways to use as quantitative data for decision making by providing factors with a great impact in obtaining values of the model built through the XAI model □ Essential elements and application plan to build an AI-based monitoring system ㅇ Essential elements, basic models, and analysis processes are established to build an AI-based monitoring system through many actual cases of AI application in the environmental sector ㅇ The essential elements of the AI-based monitoring system are building data (collecting or producing data) ⇒ building an AI model ⇒ analyzing and monitoring based on the AI model ⇒ deriving outcomes and securing policy grounds ㅇ Automatic real-time or regular data collection is essential for building a sustainably applicable environmental monitoring system ㅇ It is necessary to build a virtuous cycle of deriving and using data produced by building an AI model as the results and updating the model for parts not considered ㅇ By securing consistency with expert knowledge in the process of building the model and interpreting the results, the monitoring system will be able to fulfill its role by deriving continuous (automatic) results and providing scientific grounds and policy grounds when establishing measures to resolve environmental issues □ Suggestion of follow-up tasks ㅇ For precise and highly practical analysis, it is necessary to build high-resolution temporal and spatial data; thus, this study suggests review of fields that need data building and research on high-resolution data production fit for the purpose by setting the results and application scope of data quality ㅇ There is a need for research that rationally reflects and comparatively analyzes the results of consistency review with experts, physical modeling, and simulation based on building of AI and XAI models such as pollution by media type and natural disaster analysis

      • 기후환경 이슈 분석을 위한 텍스트 마이닝 활용방안 연구

        진대용 ( Daeyong Jin Et Al. ),강성원,최희선,한국진,김도연 한국환경정책평가연구원 2018 기후환경정책연구 Vol.2018 No.-

        본 연구는 환경 텍스트 데이터를 활용하여 주요 기후환경 이슈를 분석하기 위한 텍스트 마이닝 방법론의 활용방안을 탐색하였다. 환경 이슈를 분석하기 위해 활용할 수 있는 환경 텍스트들을 파악하고 각 텍스트에 대해 텍스트 마이닝 또는 빅데이터 분석 방법론을 활용하여 어떤 결과를 도출할 수 있는지 파악 및 점검하였다.먼저 텍스트 마이닝의 개념을 정의하고 환경(정책)연구에서 텍스트 마이닝 기법들의 활용 현황을 파악하였다. 텍스트 마이닝은 텍스트 데이터로부터 의미 있는 정보를 추출하는 과정이 다. ICT의 발전과 비정형 텍스트 분석을 위한 다양한 텍스트 마이닝 방법론이 등장함에 따라 대용량의 텍스트 데이터들로부터 과거의 주요 이슈를 파악하고 이들의 동향을 분석하여 미래 주요 이슈들의 동향에 대한 예측하는 연구가 다양한 분야에서 수행되고 있고 의미 있는 결과를 도출하고 있다. 환경(정책)연구에서도 텍스트 마이닝을 활용하여 연구 결과를 도출하고 있다. 하지만 다양한 분석을 통해 여러 관점에서 결과를 도출하는 과정의 중요성보다 결과 분석 및 해석에 초점이 맞춰져 있고, 연구를 수행하는 과정에 활용된 데이터나 소스코드 등은 다시 활용되지 않아 데이터 분석 연구의 장점을 충분히 발휘하지 못한 부분이 있다. 본 연구에서는 텍스트 마이닝의 강점인 데이터 분석의 자동화와 지속적인 활용성 측면을 극대화하기 위해 노력을 하였다. 본 연구에서는 이 목표를 달성하기 위해 다양한 환경 텍스트 데이터 수집 및 분석 기능을 포함시킨 환경 텍스트 분석 프레임워크를 구축하였으며, 모든 소스코드를 공개하고 데이터 분석에 익숙하지 않은 사용자를 위해 주요 기능을 웹 서비스 형태로 구현하였다.다음으로는 구축된 환경 텍스트 분석 프레임워크를 활용하여 환경 텍스트 데이터의 수집 및 분석을 수행하였다. 먼저 네이버 환경뉴스, 환경부 보도자료, 환경부 e-환경뉴스, 환경백서 데이터를 수집하는 알고리즘을 구축하고 주기적으로 크롤링을 수행하여 데이터 서버에 저장하도록 하였다. 또한 이를 바로 데이터 분석에 활용하여 최신 데이터를 분석할 수 있도록 하였다.본 연구에서는 기후환경 이슈에 대한 분석을 집중적으로 수행하였는데, 각 텍스트 데이터를 분석하여 개별 결과를 도출하였다. 환경 전체 분야를 보았을 때 ‘미세먼지’, ‘폭염’, ‘친환경’, 등의 키워드가 상대적으로 증가세를 보이고 있었으며, ‘기후변화’ 키워드의 경우에는 전체적으로 줄어드는 경향을 보이고 있었다. 이는 ‘기후변화’라는 키워드보다는 ‘기후변화’ 중 재난/재 해(폭염, 한파 등)와 같은 세부현상메 대한 기사가 많아졌고, ‘기후변화’ 키워드를 포함하지 않는 문서가 많아진 것에 기인한 것으로 판단된다. 세부적으로 네이버 환경뉴스의 경우 전반적으로 기후변화에 관련 정보 및 피해(폭염, 한파, 홍수 등)에 관련된 이슈들을 많이 포함하고 있어 전반적인 기후환경 이슈 분석에 유용함을 확인할 수 있었다. 네이버 환경뉴스에서 ‘기후 변화’의 근본적인 내용인 지구온난화현상이나 온실가스 감축 등과 같은 내용이 시간이 지날수록 줄어들고 최근에는 ‘폭염’, ‘가뭄’, ‘한파’ 등과 같은 세부현상들의 키워드를 포함하는 문서가 상대적으로 많아지는 추세를 보이고 있었다. 환경부 보도자료 및 e-환경뉴스에서는 기후변화 세부현상(폭염, 한파, 폭설 등) 하나하나에 대해 거의 다루고 있지 않았으며, ‘기후변화’라는 큰 틀에서 정책 논의나 앞으로의 방향에 대한 내용들을 포함하고 있어서 기후변화에 있어 근본적인 내용에 대한 이슈 및 흐름을 파악할 수 있는 장점이 있었다. 환경백서의 경우 키워드의 수는 많지 않았지만 ‘미세먼지’, ‘폭염’ 등 최신 주요 키워드들이 뚜렷하게 나타나고 있고, 다른 문서들과 달리 기후변화 키워드는 계속 증가하는 추세를 보이고 있어 실제 기후변화 문제 해결을 위한 많은 정책 논의가 있는 것으로 보인다.본 연구에서 활용한 LDA, Word2Vec 문장단위 키워드 분석, 문서단위 키워드 분석, 키워드 네트워크 분석, 문서 요약 등의 방법론은 앞으로 다양한 환경 텍스트에 포함된 이슈 발굴 및 분석에 유용하게 활용될 것으로 보인다. 또한 구축된 환경 텍스트 분석 프레임워크 및 웹 서비스를 활용할 수 있는 방안을 기술하였고, 연구 결과를 분석하여 도출된 결과를 활용한 환경 정책 사례를 제시하였다.본 연구의 결과물은 향후 환경 정책연구자들이 관련 정책을 수립할 때 데이터에 기반한 근거로 활용할 수 있으며, 앞으로 보다 다양한 텍스트 분석을 통해 민간, 언론, 환경연구자, 정책 공급자 등 다양한 관점을 고려한 정책 수립에 기여할 것으로 기대한다. In this study, we look at the application of text mining methodology to analyze major climatic environmental issues using environmental text data. We investigate environmental texts that can be used to analyze environmental issues and for each text, we understand and check what results could be derived.First, we define the concept of text mining and understand the usage of it in environment (policy) research. Text mining is the process of extracting meaningful information from text data. With the advance of ICT technology and various text mining methodologies for unstructured text analysis, research to identify trends in major issues from large-scale text data and to analyze trends in order to predict trends in future major issues is being conducted across various fields and has meaningful results. However, the focus is on the results analysis and interpretation rather than on the importance of the process of deriving the results from various perspectives through various analyses. Data and source code used in the process of research are not reused, so some of the advantages of data analysis is not fully demonstrated. In this study, we tried to maximize the automation and continuous utilization of data analysis, which is the strength of text mining. In this study, we constructed an environment text analysis framework that includes various environmental text data collection and analysis functions for all users who are unfamiliar with data analysis. We have released all the source code and implemented the key functions as a web service so that users who are not familiar with data analysis can use it.Next, we collected and analyzed environmental text data using the built environment text analysis framework. We constructed an algorithm to collect data from Naver environment news,Ministry of Environment press releases, Ministry of Environment e-environment news, environmental white papers and periodicals. Its crawls the data and stores it on the data server. In addition,the data is used to enable analysis of the latest data.Next, we constructed algorithms for analyzing the environmental text data, and results of the analysis were derived from this. As a result, keywords such as 'fine dust’,'heat waves’, and ’environmentally friendly1 had relatively increased, while the keyword 'climate change' showed a tendency to decrease overall. This seems to be due to a lot of articles about the detailed phenomena of ’climate change1 such as 'heat waves’,and ’cold waves' rather than the keyword 'climate change’. In detail, Naver’s environmental news includes a lot of issues related to climate change information and detailed phenomena (heat, cold wave, flood, etc.), and is useful for analyzing overall climate environment issues. The content for ’global climate change’,such as the phenomenon of global wanning and greenhouse gas reduction, has decreased over time. On Naver environmental news,the fundamental content for climate change, such as global warming and greenhouse gas reductions, declined over time and in recent years, there have been a relatively large number of documents containing keywords related to detailed phenomena such as 'heat waves’, ’drought’ and ’cold waves’. The Ministry of Environment’s press release and the Ministry of Environment e-environment news did not cover every detail of climate change phenomenon (heat,cold waves, heavy snow, etc.). It includes policy discussions and the future direction on the major trend of climate change, so it has an advantage in understanding the issues and flow of fundamental content in climate change. In the case of environmental white papers, the frequency of keywords is not high, but the latest important keywords such as ’fine dust’ and 'heat waves’ are showing an increasing trend. Unlike other documents, the keyword of ‘climate change9 is also continuously increasing. There appears to be a lot of policy discussion on climate change issues in the environmental white papers.Methodologies utilized in this study such as LDA, Word2Vec, sentence-based keyword analysis, document-based keyword analysis, keyword network analysis, and document summarization can be used to identify and analyze various climate issues in the future. In addition, we described how to utilize the built environment text analysis framework and web service, and presented environmental policy examples using the results of the analysis.Based on this research, environmental policy researchers are expected to be able to establish policies based on data, and contribute to the establishment of policies that take into account various perspectives such as private citizens, the media, environmental researchers, and policy providers through various text analyses.

      • 환경 빅데이터 분석 및 서비스 개발 Ⅳ

        강성원,진대용,홍한움,고길곤,임예지,강선아,김도연 한국환경정책평가연구원 2020 사업보고서 Vol.2020 No.-

        Ⅰ. 서론: 연구의 필요성 및 목적 ❏ 정책수요 파악, 정책 시의성 평가, 정책 유효성 평가에 사용할 수 있는 ‘환경정책 모니터링 시스템(가칭)’ 구축 ㅇ 환경정책 모니터링 시스템: 기계학습의 장점인 예측의 정교함 및 실시간 데이터 수집-분석-결과 갱신 가능성을 환경정책 연구에 접목 ㅇ 환경오염 통합예측 알고리즘, 실시간 환경 텍스트 분석 알고리즘, 질문중심 데이터베이스 3개 분석도구로 구성 - 환경오염 통합예측: 다양한 환경오염물질 오염도 예측 주기적 반복 - 실시간 환경 텍스트 분석: 환경 텍스트 정보추출 및 감성분석 주기적 반복 - 질문중심 데이터베이스: 주요 환경이슈 목록 - 이슈 관련 데이터 분석을 연계하여 주기적으로 결과 실시간 업데이트 ㅇ 정책수요 파악: 환경오염 예측 알고리즘의 예측치, 환경정책 수요자 텍스트 분석 결과, 환경이슈기반 데이터 분석 결과를 사용하여 환경정책 개입이 필요한 부문을 파악 ㅇ 정책 시의성 평가: 민간 텍스트 분석 결과와 환경정책 생산자 텍스트 분석 결과를 비교하여 정책 공급자의 대응이 정책 수요자의 관심과 조응하는지 여부를 진단 ㅇ 정책 유효성 평가: 환경오염 예측 알고리즘의 정책 시행 전 예측치와 시행 후 실측치, 정책시행 전후 질문중심 데이터맵 분석 결과, 정책시행 전후 민간 텍스트 감성분류 결과 비교 ❏ 2020년 연구목표: ‘환경정책 모니터링 시스템’ 의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구내용을 확장 ㅇ 1기 (2017~2019년) 연구의 성과를 계승하면서 기계학습 방법론의 약점인 모형의 복잡성 및 인과관계 분석기능 부족을 해소하는 방향으로 연구 확장 - 1기 ‘기계학습 방법론’ 적용 연구 → 2기 ‘대용량 데이터’를 이용한 환경정책 연구 - 방법론: 1기 ‘기계학습’ → 2기 기계학습 + 전통적 통계학 기법(Frequentist/Bayesian) ㆍ모형의 단순화: 개별 변인이 분석 결과에 미치는 영향력 분석 기능 강화 ㆍ중장기 예측이 가능한 연구, 인과분석이 가능한 연구 추구 ❏ 연구내용: 환경정책 모니터링 시스템 구성요소 연구 4건, 개별연구 2건 수행 ㅇ 환경정책 모니터링 구성요소: 기존 구성요소의 방법론 및 분석 대상 확대 - 환경오염 예측 (2건): ‘미세먼지 고농도 현상 발생확률 추정’/‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’ - 환경 텍스트 분석: ‘환경 텍스트 감성 분석기 구축 및 활용’ - 질문 중심 데이터베이스: ‘기후변화 이슈 분석 및 질문중심의 데이터맵 도출’ ㅇ 개별연구: 수용체 연구 1건, 신재생에너지 연구 1건 추진 - 수용체 연구: ‘대기오염이 COPD 환자 사망에 미치는 영향’ - 신재생 에너지 연구: ‘태양광 발전 발전량 예측 알고리즘 구축’ Ⅱ. 미세먼지 고농도 현상 발생확률 추정 ❏ 서울지역 25개 측정소 초미세먼지 오염도가 ‘매우 나쁨’(76 이상)이 될 경우를 예측하는 Qunatile Regression 기반 통계모형 개발 ㅇ Qunatile Regression 모형을 Extreme value가 많은 자료에 적합하게 조정 - Extreme Conditional Qunatile Regression Model + Variable Selection (LASSO) ❏ 서울시 대기질 및 기상 정보를 이용하여 2015~2020년 봄 4시간 평균(1일 6개 시간대) PM<sub>2.5</sub> 오염도 예측 ㅇ 설명변수: 동시간대 및 1시간 이전 CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> 오염도, 강수량, 온도, 습도, 풍향, 풍속/1시간 이전 PM<sub>2.5</sub> 오염도 ㅇ 2015/01/01~2018/03/04 자료로 추정한 모형으로 2018/03/04~2020/05/29 예측 ❏ 측정소에 따라 Sensitivity 88.9%~100.0%을 달성하면서 False Positive는 6.0% ~17.1%로 억제 ㅇ Sensitivity = 매우 나쁨 예측/실제 매우 나쁨, False Positive = 매우 나쁨 예측/실제 나쁨 이하 측정 ㅇ 강동구(88.9%)를 제외한 24개 측정소에서 Sensitivity 90% 이상 ❏ RandomForest, Supporting Vector Machine, GRU 대비 11.3%p Sensitivity 향상 ㅇ 강서구 예측의 Sensitivity RandomForest(65%) < SVM(73.3%) < GRU(81.0%) < 본 연구 구축 모형(92.3%) ❏ 동시간대 CO 오염도, O<sub>3</sub> 오염도, PM<sub>10</sub> 오염도, 풍향, 1기 전 초미세먼지 오염도가 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 증가하는 경향 발견 ❏ 동시간대 강우량 및 풍속, 1기 전 강수량 및 풍속이 높을 경우에는 초미세먼지 매우 나쁨 발생 확률이 하락하는 경향 발견 Ⅲ. Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측 ❏ PM2.5 농도에 영향을 미치는 기상 및 공간정보 데이터를 반영하는 Graph-GRU 알고리즘 개발 ㅇ 과거 정보(temporal data)와 공간정보(spatial data)를 함께 활용할 수 있는 3차원 학습데이터세트 구축 - 예측대상: 남한지역 측정소 포함 0.125° × 0.125° Grid (12.5km × 12.5km)의 3-Hour PM<sub>2.5</sub> 오염도 평균값 - 입력자료: 대기오염 오염도, 기상, 고도 ㆍtraining set: 2015/01/01~2015/12/31 ㆍvalidation set: 2016/01/01~2016/12/31 ㆍtest set: 2017/01/01~2017/12/31 ㅇ 알고리즘: Graph - GRU 알고리즘 활용 - Node attribute: 기상 및 지리정보, 대기오염 - Edge attribute: 측정소 간 미세먼지 오염물질 배출량의 영향 ㆍ거리, 풍속, 풍향을 반영한 ‘영향’ 평가 함수 적용 - Adjacency Matrix: 거리: 300km, 고도: 1200m 미만 threshold 값 설정 ❏ 3시간~72시간 이후 표준제곱근오차 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup>로 억제 ㅇ 과거 정보 표준제곱근오차 축소 효과는 0.12μg/m<sup>3</sup>, 공간정보 표준제곱근오차 축소 효과는 0.16μg/m<sup>3</sup> Ⅳ. 환경 텍스트 감성분류기 구축 및 활용 ❏ 환경 SNS 데이터 수집 - 감성분석 - 결과 발신을 주기적으로 반복하는 ‘환경 텍스트 감성분류기’ 구축 ㅇ 2018~2019년 개발 기후변화 감성분류기를 환경 전 분야로 확장-준지도 학습을 이용하여 수집한 학습 데이터 14만 건을 추가하여 감성분류 정확도 제고 ㅇ 감성분류 결과의 추이를 시각화 하여 확인할 수 있는 web 기반 user interface 제공 ❏ 준지도 학습을 이용하여 학습 데이터를 기존 5만 건에서 18만 건으로 확대하여 감성 분류 정확도 제고 ㅇ 학습데이터 추가: 환경 SNS 텍스트 650만 건을 수집하고 기존 기후변화 감성분류기에 적용하여 긍정/부정 확률이 매우 높은 자료 14만 건을 추출 ㅇ 성능 향상: 기존 data 분류 정확도 1%p(78.7% → 79.7%) 향상 ❏ 환경정책 분야별 감성분류 Precision 66%~92%, Recall 73%~81% 달성 ㅇ Precision = 실제 부정/부정 판정, Recall(Sensitivity) = 부정 판정/실제 부정 ㅇ 폐기물 분야는 Precision, Recall이 모두 낮아서 지도학습을 통한 정확도 제고 필요 ❏ 기간, 검색어를 특정하여 구분한 SNS 데이터의 감성분류 결과를 실시간으로 확인할 수 있는 web 기반 user interface를 구축 ㅇ ‘부정’ 감성의 SNS 데이터로부터 키워드 빈도 및 네트워크를 추출하여 ‘부정’ 감정의 원인을 파악할 수 있는 기능을 부여 Ⅴ. 기후변화 이슈 분석 및 질문중심의 데이터맵 도출 ❏ 위계별로 정리한 기후변화 이슈와 각 이슈 관련 데이터 분석을 연계하고 데이터 분석 결과를 실시간으로 업데이트 하는 데이터맵 구축 ㅇ 텍스트 분석에서 이슈를 도출하는 이슈 선정 모듈과 데이터를 연계하는 데이터 분석 모듈을 구축 ❏ 이슈 선정 모듈: 기후변화 관련 텍스트 수집 → 주제 추출 → 질문 식별 → 질문 구조화 수행 ㅇ 텍스트: 2012~2019년 연구보고서/고위공직자 연설문/보도자료/국회회의록 /국회기후변화포럼/Dbpia논문 국문 초록/네이버 신문(12개 일간지) ㅇ 주제추출: 상관토픽모형(CTM)을 사용한 10개 주제식별 및 주제 간 관계 도출 ㅇ 질문식별: 텍스트 랭크(TextRank)로 추출한 중요 문장을 정제하여 개별 질문 도출 ㅇ 질문 구조화: 개별 질문을 주제에 할당하고 주제 간 관계를 반영하여 질문을 구조화 - 주제 간 관계: 상관토픽 모델링 상관계수, 동적 시간 와핑(dynamic time warping) 시계열 패턴 유사도, 전문가 설문조사 반영 - 5개 범주로 재분류: 기후변화 공동대응/기후변화 적응/온실가스 감축/에너지와 환경/도시환경과 시민 ❏ 데이터 분석 모듈: 명제화 된 이슈에 대한 정보를 제공할 수 있는 data source와 분석모형 연계 ㅇ 관련 자료의 실시간 update가 가능하도록 자료 원천과 직접 연계하는 방식을 사용 ㅇ 시계열 자료의 절대 추세 및 계절변동 조절 추세 분석 Ⅵ. 대기오염이 COPD 환자 사망에 미치는 영향 ❏ 사망 전 1년, 5년 간 대기오염 노출이 COPD 환자 사망위험에 미치는 영향 분석 ㅇ 분석대상: 2009~2018년 전국 40세 이상 COPD 환자 ㅇ 분석기법: Kriging과 Cox Proportional Hazard model - Kriging을 사용하여 측정소 오염도 자료로부터 읍면동 오염도 추정 ❏ 국민건강보험공단 맞춤형 DB와 대기오염 측정 데이터를 결합하여 데이터 생성 ㅇ 환경오염 관련 독립변수: event 발생/종료 1년 전, 5년 전 거주지 평균 PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> 오염도 - PM<sub>10</sub>: 일평균, O3: 일별 최고 8시간 평균, NO<sub>2</sub>: 일평균 (O<sub>3</sub>, NO<sub>2</sub>의 경우 ppb를 ㎍/m3으로 변환) ㅇ 개인 특성 관련 독립변수: 성별, 연령, 소득, 동반질환지수, COPD 외래중증악화, BMI, 흡연 ㅇ 종속변수: 사망을 1, 생존을 0으로 표기한 사망 여부 ❏ 사망 전 1년, 5년 간 O<sub>3</sub> 오염도가 높은 지역에서 산 COPD 환자는 사망위험이 소폭 증가하였음을 확인 ㅇ Hazard Ratio of O<sub>3</sub>: 1.003(1년), 1.004(5년) Ⅶ. 딥러닝 기반 태양광발전량 예측 ❏ 기상정보를 활용하여 영암 F1 발전소 태양광발전량 예측 LSTM 알고리즘 개발 ㅇ 1시간, 12시간 평균 낮 시간대 발전량을 예측: 주기성이 심한 비정상(non-stationary) 시계열 ❏ 1시점 이전 태양광발전량 및 기상정보를 입력자료로 사용 ㅇ 기상정보: 목포 기상관측소 시간별 기온, 강수량, 습도, 일사량, 전운량 ㅇ 2017.1.1~2019.6.30 자료 중 2017.1.1~2018.6.30 자료를 학습자료로 사용하여 모형을 추정하고 2018.7.1~2019.6.30 자료를 예측 ❏ RNN 기반 LSTM 알고리즘을 사용하여 모형을 구축하고 직전 3시점 이동평균(Moving Average) 및 ARIMA 모형과 예측력 비교 ❏ 1시간 예측 평균제곱근오차를 표준편차의 36.9%, 12시간 평균 예측 평균제곱근오차는 표준편차의 51.1%로 억제 ㅇ 직전 3시점 이동평균 예측오차/표준편차의 71%, ARIMAX 예측오차/표준편차의 45% 수준으로 예측오차/표준편차를 억제 Ⅷ. 연구성과 및 정책적 시사점 ❏ 연구성과: 환경정책 모니터링 시스템 구성요소 구축 및 신규 성과 축적 ㅇ 환경오염 종합예측 시스템 구성요소 확대 및 심화 - 환경오염 종합예측 알고리즘: 설명 가능성을 보완하고 예측 시차를 연장하여 활용 가능성을 제고 ㆍ‘미세먼지 고농도 발생확률 추정’: coefficient estimation이 가능하면서 예측성과가 Deep Learning 모형과 경쟁력 있는 Quantile Regression 모형을 개발 ㆍ‘Graph-GRU 모형을 이용한 초미세먼지 오염도 추정 및 예측’: 12시간 예측오차를 2019년 개발 CNN 기반 모형의 1시간 예측오차와 유사한 7.64g/m<sup>3</sup>로 유지 - 실시간 환경 텍스트 분석 알고리즘: 환경 전 분야 실시간 SNS 감성 분석 및 부정 감성 원인 분석 가능 - 질문중심 데이터맵: 미세먼지에 이어 기후변화로 적용 범위를 확대 - 정책 현황 파악 상황판 기능 ㅇ 3개 알고리즘, 1개 질문중심 데이터맵 신규 구축 - 초미세먼지 고농도 현상 예측 Quantile Regression 모형, 초미세먼지 오염도 예측 Graph-GRU 모형, 태양광발전량 예측 RNN 모형/기후변화 Data Map ㅇ 텍스트 분석 인프라 확장: 실시간 환경 텍스트 분석 Web Interface 개발 ❏ 정책적 시사점: 환경정책 모니터링 기능을 강화하였고 대기오염 건강위험을 정량화하였으며 신재생에너지 발전 인프라의 기초를 제공 ㅇ 환경정책 모니터링 기능 강화: 정책 현황 파악 및 선제적 정책개입 관련 정보 제공 기능 강화 - 실시간 환경 텍스트 분석: 국민 감성이 부정적인 환경정책 분야를 실시간으로 파악 가능 - 기후변화 질문중심 데이터맵: 기후변화 현황 실시간 파악 기능 제공 - ‘기후변화 상황판’ 기능 - 초미세먼지 오염도 예측의 시차를 연장하고 기초적 인과분석 기능 확보 ㆍGraph-GRU 모형: 예측 시차를 연장하여 선제적 정책 개입이 가능한 시차를 확보 ㆍQuantile Regression 모형: 향후 오염원 및 정책 관련 Data를 추가하면 정책영향 분석 도구로 활용 가능 ㅇ 대기오염 장기노출의 건강위험을 정량화 하여 대기오염 억제정책의 정량적 편익 도출 근거 마련 ㅇ 태양광발전량 예측 기능을 강화하여 신재생에너지 발전에 필요한 스마트 그리드 구축 인프라 제공 Ⅰ. Background and Aims of Research ❏ We continue to build up ‘Environmental Policy monitoring System’ dedicated to periodically identify environmental policy needs and assess timeliness and effectiveness of environmental policy as we did last year ㅇ Environmental Policy monitoring System apply prediction accuracy and real-time data collection-analysis-diffusion capability of Machine learning to environmental policy research ㅇ Our ‘Environmental Policy monitoring System’ consists of three components: ‘Deep Learning Based Pollution Prediction algorithm’, ‘Real Time Environmental Text Analysis algorithm’, ‘Issue Based Database’ - Deep Learning Based Pollution algorithm: Periodically update various pollution prediction - Real Time Environmental Text Analysis algorithm: Periodically summarise environment related text data and sentiment analysis ㆍText summary: abstract keywords and keyword network from texts produced by environmental policy provider and environmental policy consumers ㆍSentiment analysis: Real-time collection and sentiment analysis of SNS related to all subfield of environment - Issue Based Database: Key environmental issue network connected with data analysis for each issue updating real-time ㅇ Policy need Identification: Detect environment policy areas and regions in need of intervention from the predictions of ‘Deep Learning Based Pollution Prediction algorithm’, the text analysis results of ‘Real Time Environmental Text Analysis algorithm’, and the data analysis results of ‘Issue Based Database’ ㅇ Timeliness assessment: check if the temporal pattern of keywords analysis result on policy provider text and the temporal pattern of keywords analysis results on policy consumer are consistent ㅇ Effectiveness assessment: Check Pollution improvement, SNS Sentiment improvement, and Environmental Issue improvement after policy execution ❏ In 2020, we tried to improve interpretability of ‘Environmental Policy monitoring System’ ㅇ While utilizing the advantage of deep learning we found in period 1(2017~2019), we tried to reduce complexity and strengthen interpretability ㅇ In period 1, we focused on ‘apply everything related to big data analysis to Environment policy research’ From 2020, we are going to focus on ‘Environmental Policy Research using large scale data’ ㅇ Regrading methodology, we stick to machine learning in period 1. From 2020, we are going to be more flexible and try to include traditional frequentist and Bayesian statistical methods ㆍWe are going to use simpler models to improve our understanding on feature importance ㆍWe are going to build models capable of longer -term prediction and models with more interpretability ❏ In 2020, we build four algorithms for ‘Environment Policy Monitoring System’ and perform two independent researches ㅇ For ‘Environment Policy Monitoring System’, we expand the methodology and scope of previous components - We added two fine particle estimation algorithms in `Fine particle high concentration event prediction’ and ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’ - In ‘Environmental text sentiment analysis algorithm’, we expanded sentiment analysis of environment related SNS to all subfield of environment - In ‘Climate change issue based database’, we constructed new issue based database on climate change ㅇ On two important issues that cannot be integrated to ‘Environment Policy Monitoring System’, we did independent research - In ‘The impact of air pollution long-term exposure to mortality of COPD patients’,we estimated the effect of long-term exposure of air pollution on the death risk of COPD patients using NHI (National Health Insurance) Data - In ‘Solar electricity generation prediction’, we constructed an RNN based algorithm predicting solar electricity generation of F1 power plant Ⅱ. Fine Particle High Concentration Event Prediction ❏ We built a quantile regression based prediction algorithm to predict ‘extremely bad(76+)’ event of PM<sub>2.5</sub> in 25 air pollution monitoring station in Seoul ㅇ We adjusted quantile regression model to analyze data with extreme values - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. - We applied LASSO variable selection method to Extreme Conditional Quantile Regression Model ❏ We predicted 4 hour average(6 periods per day) PM<sub>2.5</sub> pollution in Seoul using air pollution data and weather data ㅇ For independent variables, we used contemporary and 1 time earlier CO, SO<sub>2</sub>, NO<sub>2</sub>, O<sub>3</sub>, PM<sub>10</sub> pollution, rainfall, temperature, humidity, wind strength, wind direction and 1 time earlier PM<sub>2.5</sub> pollution ㅇ We train our model with data from Jan. 1st. 2015 to Mar. 4th. 2018 and test with data from Mar. 4th. 2018 to May. 29th. 2020 ❏ We were able to achieve 89.0%~100.0% Sensitivity while limiting False Positive at 6.0%~17.1%, depending on the station. ㅇ Except for Gandonggu(88.9%), our algorithm achieve sensitivity higher than 90% ❏ The sensitivity of our model was higher by more than 11.3%p, compared to the sensitivity of models based on random forest, supporting vector machine and GRU ㅇ Sensitivity of Ganseogu: our algorithm 92.3% > GRU 81.0% > SVM 73.3% > RandomForest 65% ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution increases when contemporary CO, O<sub>3</sub>, PM<sub>10</sub> pollution, wind direction and 1 time ahead PM<sub>2.5</sub> pollution. ❏ The probability of ‘extremely bad’ event of PM<sub>2.5</sub> pollution decreases when contemporary and 1 time ahead rainfall, windspeed increases Ⅲ. PM<sub>2.5</sub> Estimation and Prediction Using Graph-GRU Algorithm ❏ We built Graph-GRU albright utilizing weather and geography information to prediction PM<sub>2.5</sub> pollution ㅇ We construct a 3 dimension dataset consists of temporal and spatial data - Our dependent variable is 3 hour average PM2.5 concentration of 0.125° × 0.125° Grid (12.5km x 12.5km) containing air-pollution monitoring stations in South Korea - Our independent variables are weather data, air pollution data and height data ㆍWe trained our model with data from Jan. 1st. 2015 to Dec. 31th. 2015, validated with data from Jan. 1st. 2016 to Dec. 21th. 2016, and tested with data from Jan. 1st. 2017 to Dec. 21th. 2017, ㅇ We used Graph-GRU algorithm - For node attributes, we used weather data, spacial data, and air pollution data - To measure edge attributes, we constructed a function evaluating impact of air pollutant emission between air pollution monitoring stations ㆍThis function evaluates impact of air pollutant emission between air pollution monitoring stations using distance, wind speed, and wind direction - For adjacency Matrix, we used threshold of distance of 300km or height of 1,200m ❏ RMSE of our model in 3 hour~72 hour prediction was 4.05μg/m<sup>3</sup> ~ 11.49μg/m<sup>3</sup> ㅇ Temporal information reduced RMSE by 0.12μg/m<sup>3</sup>, and spacial information reduced RMSE by 0.16μg/m<sup>3</sup> Ⅳ. Environmental Text Sentiment Analysis Algorithm ❏ ‘Environmental text sentiment analysis algorithm’ periodically performs collection-analysis-result distribution on SNS text regarding environment ㅇ We expanded climate change sentiment analysis algorithm we build in 2018~2019 to all subfield of environments, and trained with new 140 thousands SNS text training data labeled by semi-supervised learning to improve accuracy ㅇ We constructed web based user interface to visualize sentiment analysis results over time ❏ To improve accuracy, we increase the size of our training data from 50 thousand to 180 thousand using semi-supervised learning ㅇ We collected 6.5 million SNS text, and applied 2018~2019 version climate change sentiment analysis algorithm. We collected 140 thousands cases with high positive/negative sentiment score, which we added to training data. We kept 10 thousand cases for testing ㅇ With this new training data, the accuracy of sentiment analysis improved by 1%p: From 78.7% to 79.7% ❏ Sensitivity of our newly trained model was 66~92%, and Recall of our newly trained model was 73%~81%, according to subfield ㅇ ‘Waste’ field had the lowest Sensitivity and Recall. This field needs supervised learning approach to improve overall accuracy ❏ We built web based user interface to visualize sentiment analysis results with user option of keyword search and period choice ㅇ Our user interface also abstract keyword network of SNS of negative sentiment, which should give insights on the cause of negative sentiment Ⅴ. Climate Change Issue Based Database ❏ We built a datamap on Climate change consists of hierarchically organized climate change issue network and data analysis linked to each issue in the network. This datamap is capable of real-time data analysis update ㅇ We build issue collection module to extract issues from text data and data analysis module to link data analysis with extracted issues ❏ Issue collection module execute ‘Climate change text collection → Topic Extraction → Issue Identification → Issue Network Organization’ process ㅇ Text Collection: Reports from government sponsored research institutes/ Formal speeches from higher-ranking official/Press Release from government/Assembly meeting transcripts/Materials from Climate Change From in Assembly/DBpia academic paper abstracts/NAVER paper articles of 12 major papers from 2012 to 2019 ㅇ Topic Extraction: Apply Correlated Topic Model to extract 10 topics and correlation between topics ㅇ Issue Identification: Derive issues from key sentences extracted from TextRank algorithm ㅇ Issue Network Organization: Assign each issue to topics and organize issues according to the relationship between topics - We deduced relationship between topics combining three sources of informations - (1) Correlation coefficient from Correlated Topic Model (2) Similarity of time series frequency pattern from Dynamic Time Warping (3) Specialist Survey - We re-categorized 10 CTM topics into 5 Categories: Climate Issue cooperation/Climate Change adaptation/Greenhouse Gas Reduction /Energy and Environment/Urban Environment and Citizen ❏ Data analysis module attach data source and data analysis result to each issue in Climate Change Issue Network - We linked each data analysis to data source so that we can update data analysis in real-time Ⅵ. The Impact of Air Pollution Long-Term Exposure on the Mortality of COPD Patients ❏ We estimate the impact of 1-year and 5-year air pollution exposure on the mortality of COPD patients ㅇ We analyzed medical data of COPD patients older than 40 diagnosed from 2009 to 2018 ㅇ We used kriging to convert air pollution monitoring station data to small local district (Up. Myun.Dong) data and applied Cox Proportional hazard model to small local district data ❏ We combined NHI(National Health Insurance) individual patient data and air-pollution monitoring station data ㅇ For air pollution exposure variable, we used 1-year and 5 year average of small local district PM<sub>10</sub>, O<sub>3</sub>, NO<sub>2</sub> pollution - For PM<sub>10</sub> and NO<sub>2</sub>, We used daily average. For O<sub>3</sub>, we used average of maximum 8 hours for each day (We converted the unit of O<sub>3</sub> and NO<sub>2</sub> from ppb to ㎍/m3) ㅇ From NHI individual medical data, we obtained gender, age, income percentile, CCI, COPD exacerbation, smoking status ㅇ For dependent variable, we used dummy variable assigning 1 for death and 0 for survival ❏ We found that COPD patients exposed higher O<sub>3</sub> 1-year or 5-year had higher risk of death ㅇ Hazard ratio of 1 year O<sub>3</sub> exposure was estimated as 1.003. Hazard ratio of 5 year O<sub>3</sub> exposure was estimated as 1.004 Ⅶ. Solar Electricity Generation Prediction ❏ We developed an LSTM algorithm predicting electricity generation of Yung -am F1 solar power plant ㅇ We predicted hourly electricity generation and 12 hour average of electricity generation. The electricity generation was non-stationary time-series ❏ For independent variables, we used electricity generation and weather data with 1 lag ㅇ For weather data, we used hourly temperature, rainfall, humidity, solar insolation, Total Cloud amount from Mokpo weather monitoring station ㅇ We used data from Jan. 01.2017 to Jun. 30. 2018 for training, and data from Jun. 30. 2018 to Jun. 30. 2019 for testing ❏ We built and RNN based LSTM algorithm and compared RMSE with ARIMA model and 3-lag moving average ❏ The RMSE of our model was 36.9% of standard deviation in 1 hour prediction and 51.1% in 12 hours average prediction ㅇ The RMSE to standard deviation of our model was 71% of the RMSE to standard deviation ratio of 3-lag moving average, and 45% of RMSE to standard deviation of ARIMA model Ⅷ. Conclusion and Suggestions ❏ Summarizing, we improved ‘Environmental Policy Monitoring System’ and added some new results ㅇ We supplemented and improved components of ‘Environmental Policy Monitoring System’ - ‘Deep Learning Based Pollution Prediction algorithm’: We improved interpretability and extended prediction lag ㆍ ‘Fine particle high concentration event prediction’: We built a Quantile regression model which can produce coefficient estimates for independent variables and is capable of prediction as accurate as machine learning algorithm ㆍ ‘PM<sub>2.5</sub> estimation and prediction using Graph-GRU algorithm’: We achieved 7.64g/m<sup>3</sup> 12 hour prediction RMSE, which is equivalent to 1 hour prediction RMSE of our CNN based algorithm in 2019 - ‘Real Time Environmental Text Analysis algorithm ’: We expanded realtime sensitivity analysis and keyword network abstraction of negative sentiment for all environmental policy subfield - ‘Issue Based Database’: We improve policy monitoring scope from fine particle issue (2019) to climate change (2020) ㅇ We developed three new algorithms and one new issue based database - Fine particle high concentration event prediction quantile regression model, PM<sub>2.5</sub> pollution prediction Graph-GRU model, RNN based Solar electricity generation prediction algorithm/ climate change datamap ㅇ We expanded scope of environmental text analysis: Real-time environmental text analysis web interface ❏ For policy application, we strengthen environmental policy monitoring capability, quantify the health risk of air pollution, and provided items for the infrastructure of renewable energy ㅇ Environmental Policy monitoring: We improved policy need identification and information generation for precautionary policy intervention - Now our ‘Real Time Environmental Text Analysis algorithm’ is capable of identifying subfield of environment regarding which general public has negative sentiment. - Now our ‘Climate Change datamap’ is capable of real-time assessment of climate change issues - Now our ‘Deep Learning Based Pollution Estimation algorithm’ is capable of extending prediction lag of PM<sub>2.5</sub> and providing basic causality analysis for high concentration event of PM<sub>2.5</sub> ㆍGraph-GRU extended prediction lag. We can use this time for preventive policy intervention ㆍQuantile Regression model can be used policy evaluation tool by extending control variables and policy related variables ㅇ We provided quantified risk of air pollution on COPD patients, which can be used to quantify benefits of air-pollution reduction policy ㅇ We provided solar electricity generation prediction algorithm, which can be used for renewable energy smart-grid infrastructure

      • 딥러닝을 활용한 해양오염 예측도구 개발 및 적용 연구 (Ⅰ)

        김태윤,진대용,이어진,권경환 한국환경정책평가연구원 2020 기본연구보고서 Vol.2020 No.-

        Ⅰ. 연구의 배경 및 목적 ㅇ 해양에서 다양한 개발사업이 이루어지고 있으며 개발로 인한 환경적 영향을 예측·평가하여 저감방안을 마련하고 있음 ㅇ 복잡한 해양환경적 특성으로 인해 개발사업이 해양환경에 미치는 영향을 파악하는 데는 한계가 있음 ㅇ 해양환경 정보화플랫폼의 자료, 위성자료, 기존의 수치모형에서 계산된 방대한 물리적 자료를 딥러닝 기술에 적용하여 해양오염 예측 도구를 개발하고자 함 Ⅱ. 국내외 현황 및 사례 분석 ㅇ 해양 분야에서 딥러닝을 활용한 연구를 예측(결측치 보정 포함) 및 분류 연구로 구분하여 정리함 ㅇ 해양 분야가 아닌 타 분야에서 딥러닝을 활용한 연구도 정리함 Ⅲ. 연구 방법론 1. 해양환경자료 ㅇ 해양환경, 해양생태, 해양보호구역, 해양환경정보지도, 폐기물해양배출, 해양쓰레기, 해역이용영향평가 등과 관련된 다양한 자료를 제공하는 해양환경정보포털(MEIS)의 자료를 검토함 ㅇ 2010년부터 천리안 위성(COMS: Communication, Ocean and Meteorological Satellite)을 통하여 해양관측을 수행하고 있으며, 위성으로부터 제공되는 자료를 조사함 2. 수치모형 ㅇ 해양의 유동, 지형, 파랑, 수질까지 다양한 영역의 해양환경 변화를 파악할 수 있는 수치모형 중에 연안역에서 널리 사용되는 Delft3D를 소개함 3. 딥러닝 모델 ㅇ 딥러닝 알고리즘은 입력 데이터의 형태에 따라 활용할 수 있는 모형이 다르기 때문에 주요 모형에 대해서만 설명함 ㅇ 딥러닝 모형이 사용된 연구 사례를 소개함 Ⅳ. 적용 및 검증 1. 파랑 예측 ㅇ 딥러닝의 적용 사례연구로서 외해에서 장기간 관측된 파랑 및 기상자료와 딥러닝 기법을 활용하여 해안역 인근의 일 년간의 파랑을 예측함 ㅇ 60km 이상 이격된 해역의 기상정보와 파랑정보를 활용하여 해안가 인접지역의 파랑 자료를 간접적으로 추정할 수 있음 2. 농도 확산 ㅇ 파랑 예측 사례는 단일지점의 자료를 이용하여 추정값을 산출하였다면 금번 사례연구는 공간적 자료를 활용하여 딥러닝 기법의 효율성을 검증함 3. 실해역 적용 ㅇ 연구해역에서 시공간적인 물리 인자를 생성하기 위하여 수치모형을 구동하고 위성관측자료를 활용하여 용존 유기물질, 클로로필-a, 총부유물질, 수중 가시거리에 대한 공간 자료를 생성함 ㅇ CNN 모형을 활용하여 딥러닝 모형을 구축하고 클로로필-a를 추정함 Ⅴ. 결론 및 제언 ㅇ 다양한 분야에 적용되고 있는 딥러닝 기술을 활용하여 연안역에서 플랑크톤 시·공간적 변화를 예측하는 도구를 개발함 ㅇ 개발된 예측모형에 대한 정확도 및 신뢰성을 높이기 위하여 추가적인 연구 및 분석이 필요함 ㅇ 딥러닝 예측 기술의 추가적인 개발은 기존 기술과 함께 시너지 효과를 발생시켜 환경정책계획 수립에 기여할 수 있음 Ⅰ. Aims and Purposes of the Research ㅇ Various development projects in the coastal areas have been carried out, and mitigation methods to reduce their impact on the environment have been under development based on the prediction and evaluation. ㅇ There are many limitations in understanding the impacts of development projects on the marine environment. ㅇ We intend to develop a marine pollution prediction tool by applying data from the Marine Environment Information System (MEIS), satellite data, and physical data calculated from the numerical model to deep learning technology. Ⅱ. Domestic and Foreign Status and Case Analysis ㅇ Deep learning studies applied in the marine field were classified and organized into prediction (including missing value correction) and classification studies. ㅇ Deep learning research conducted in fields other than the marine field is also briefly summarized. Ⅲ. Methods 1. Marine environment data ㅇ Data from the MEIS which provides various data related to the marine environment, marine ecology, marine protected areas, marine environment information map, and marine waste discharge were investigated. ㅇ Satellite data produced through the Communication, Ocean and Meteorological Satellite (COMS) operated since 2010 were reviewed. 2. Numerical model ㅇ Delft3D, widely used in coastal areas, is described as a numerical model that simulates changes in the marine environment such as hydrodynamics, sediment transport, waves, and water quality. 3. Deep learning model ㅇ In regard to deep learning models, only the main models are explained because the models that can be used are different depending on the type of input data. ㅇ We introduced research cases to which deep learning models are applied. Ⅳ. Application and Verification 1. Wave prediction ㅇ As a case study of the application of the deep learning model, the waves for a year near the coastal area were predicted using the deep learning model. ㅇ It is possible to indirectly estimate the wave data adjacent to the coast using the meteorological and wave information from the open sea 60 km away. 2. Diffusion experiment ㅇ In the case of wave prediction, the model predicted waves using data from a single point, but this case study showed that the deep learning model is also effective for spatial data prediction. 3. Application to actual sea areas ㅇ Using a numerical model for the study area, spatial and temporal physical data were generated. In addition, data on dissolved organic matter, chlorophyll-a, total suspended sediment, and visibility were generated from satellite ocean color observations. ㅇ A deep learning model was constructed using the CNN technique and chlorophyll-a was estimated. Ⅴ. Conclusion and Suggestion ㅇ A tool for predicting plankton changes in coastal areas was developed using deep learning technology ㅇ Further research and analysis are required to increase the accuracy and reliability of the developed prediction tool in this study ㅇ Additional development of deep learning prediction tool can contribute to establishing effective environmental policy plans by generating synergies with existing tools

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼