RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 기계학습과 네트워크를 이용한 수학교육 연구의 메타분석

        오세준 서울대학교 대학원 2023 국내박사

        RANK : 248703

        이 연구는 수학교육 연구에 대한 메타분석 연구로 수학교육 논문에 초점을 맞추었다. 이 연구의 목적은 수학교육에서 영향력 있는 논문을 식별하고, 영향력 있는 논문의 메타정보와 연구 주제를 파악함으로써 향후 수학교육 연구 분야에 발전적인 시사점을 제공하는 것에 있다. 연구대상으로는 국내외 수학교육 학술지 29종 24,575편의 논문을 선정하였으며, 과학계량학의 관점으로 ‘영향력 있는 연구’를 ‘수학교육 네트워크 중심성 지수 상위 5% 이내 논문’으로 정의하였다. 수학교육 네트워크 중심성 지수 상위 5% 이내 논문을 식별하는 기계학습 모델을 설계하며 상위 5% 이내 논문 식별에 영향을 미치는 중요한 요인이 무엇인지 분석하고, 상위 5% 이내 논문이 다루고 있는 토픽을 분석하였다. 이와 같은 연구를 통해 도출된 결과는 다음과 같다. 첫째, 본 연구는 7종의 기계학습 분류모델에 24,575편의 논문 메타정보로부터 산출한 데이터를 입력하여, 각 모델에 대해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등의 예측 유효성을 평가하였다. 그 결과 7개의 기계학습 분류모델 중에서 랜덤포레스트를 통해 설계한 모델의 정확도, 정밀도, 재현율이 다른 7개의 기계학습 모델보다 높고 안정된 결과를 보였으며, 이를 통해 랜덤포레스트 모델이 최적의 분류모델인 것을 확인하였다. 랜덤포레스트 분류모델에 논문 메타정보를 입력하여 수학교육의 영향력 있는 논문을 식별하였다. 상위 5% 이내의 논문이 게재된 학술지를 조사한 결과 Journal for Research in Mathematics Education(이하 JRME) 25.66%, Educational Studies in Mathematics(이하 ESM) 22.12%, Zentralblatt für Didaktik der Mathematik(이하 ZDM) 8.46%, Journal of Mathematics Teacher Education(이하 JMTE) 5.8%, Journal of Mathematical Behavior(이하 JMB) 5.51% 순으로 정리할 수 있었으며, 수학교육 학술지의 영향력을 질적으로 평가했던 선행연구들과 유사한 결과를 도출할 수 있었다. 인공지능의 변인 중요도 지수를 통해서 확인한 영향력 있는 논문 식별에 중요한 독립변인으로는 ‘논문 네트워크 중심성 지수’, ‘피인용횟수’, ‘논문의 평균 피인용횟수의 변화량’, ‘학술지의 h-index의 변화량’, ‘저자의 논문을 인용한 연구자의 수’ 등 순으로 나타났다. 특히 ‘논문 네트워크 중심성 지수’는 출판 당해연도 19.6%, 출판 1년 후 16.6%, 출판 2년 후 15.74%로 출판 연도에 상관없이 15% 이상이었으며, ‘논문 네트워크 중심성 지수’와 관련된 독립변인의 3개년도 값을 모두 합하면 50% 이상의 중요도를 보였다. 이는 ‘논문, 저자, 학술지 등이 포함된 전체 수학교육 네트워크’ 중 ‘논문으로만 구성된 네트워크’가 영향력 있는 논문을 식별할 때 가장 중요한 요인임을 알 수 있었다. 둘째, 수집된 수학교육 논문의 초록을 토픽 모델링을 활용하여 분석하였다. 그 결과 수학교육 논문은 9개의 토픽으로 분류할 수 있었다. 연구결과 ‘수학교육 이론적 토대’를 다루는 토픽은 수학교육 연구에서 높은 비중을 차지하고 있는 연구 주제였다. 한편 수학교육 연구 중 ‘수학 교실 교수·학습 과정’과 ‘교사교육’을 다루는 토픽은 1980년에는 그 비중이 높지 않았지만, 시간이 지나면서 꾸준히 증가하는 추세를 보인 것으로 나타났다. 본 연구에서는 토픽별로 수학교육 전체에서 다루는 비율과 영향력 있는 논문에서 다루는 비율을 비교 분석하였다. 그 결과 영향력 있는 논문에서 다루는 비율이 높은 토픽은 2∼3년 후 수학교육 연구 전체에서 다루는 비율이 높아지는 현상을 관찰하였다. 반대로 영향력 있는 논문에서 다루는 비율이 낮은 토픽은 수학교육 연구 전체에서도 다루는 비율이 지속적으로 낮아지는 모습을 보였다. 이에 영향력 있는 논문의 토픽을 분석하면 2∼3년 후 수학교육 연구에서 활발히 다루게 되는 토픽을 예측할 수 있으며, 이를 토대로 수학교육 연구 전체에서 ‘사회적 관점’, ‘대학 수학교육’ 관련 토픽을 다루는 비율이 점차 증가할 것으로 예상할 수 있다. 본 연구결과를 통해 다음과 같은 시사점을 얻을 수 있었다. 첫째, 수학교육 연구의 영향력을 식별할 때 수학교육 네트워크를 형성하고 기계학습 모델을 활용하는 것이 수학교육 전문가 의견과 일치하는 경향을 보였다. 2017년부터 2021년 사이의 피인용횟수의 합은 International Journal of Science and Mathematics Education(이하 IJSME) 947회, JRME 563회로 피인용횟수만으로 학술지의 영향력을 평가한다면 IJSME가 JRME보다 높은 평가를 받을 것이다. 이는 수학교육 전문가 의견으로 학술지의 영향력을 평가하여 JRME가 최고 등급인 ‘high’, IJSME가 3번째 등급인 ‘medium high’를 받았던 과거 연구와 차이를 보인다. 하지만 본 연구에서 설계한 기계학습 모델이 예측한 영향력 있는 논문의 학술지 비율은 JRME 25.66%, IJSME 5.51%로 수학교육 전문가 의견과 유사하다고 볼 수 있다. 다시 말해 수학교육 전문가들이 직접 논문을 읽고 질적으로 평가한 것과 유사한 결과를 기계학습 모델을 설계하여 구현할 수 있는 것이다. 이는 본 연구의 결과를 활용하면 대규모 인원과 시간이 필요했던 수학교육 연구의 영향력 평가를 효율적으로 실시할 수 있다는 시사점을 얻을 수 있다. 둘째, 본 연구는 영향력 있는 논문으로 식별되기 위한 중요한 변인과 토픽을 분석하였다. 영향력 있는 논문으로 분류 받기 위해서는 ‘논문 네트워크에서 중심성 지수’가 중요한 것을 확인하였고, 영향력 있는 논문에서 다루는 토픽은 몇 년 후 수학교육 연구 전체에서 다뤄지는 현상을 확인하였다. 이는 신진연구자들이 영향력 있는 논문을 쓸 때 도움을 제공해 줄 수 있다. 먼저 신진연구자들은 영향력 있는 상위 5% 논문에서 다루는 토픽의 비율을 확인하고 앞으로 수학교육 연구에서 많이 다루게 될 주제를 선정할 수 있다. 그리고 이 토픽의 영향력 있는 저자, 학술지를 확인하여 글을 읽고, 학술대회에 참가하며, 공동저술을 할 기회가 있다면 적극적으로 참여하여 네트워크 관계를 형성할 필요가 있다. 이는 본 연구에서 확인한 PageRank로 계산되는 ‘논문 네트워크의 중심성 지수’를 증가시키기 위한 노력이 될 것이다. 이 연구는 수학교육 연구에 대한 대규모(24,575편의 논문) 메타분석을 실시하였다는 점과 지금까지 각각 수행되었던 수학교육 연구에 대한 메타분석의 두 가지 연구(‘연구의 영향력 평가’, ‘연구 동향 분석’)를 하나로 통합하여 분석하고 새로운 시사점을 발견하였다는 점에서 의의가 있다. 또한, 생명공학 연구의 영향력을 예측하기 위해 설계한 선행연구의 기계학습 모델과 비교하면 입력데이터의 차원을 141차원에서 8차원으로 줄이며 효율적인 모델을 설계하였지만, 성능에서는 큰 차이가 없었다는 점에서 가치가 있다. This study focused on mathematics education papers as a meta-analysis study on mathematics education research. The purpose of this study is to identify impact papers in mathematics education and to provide developmental implications for future mathematics education research fields by identifying meta-information and research topics of impact papers. 24,575 papers of 29 domestic and foreign mathematics education journals were selected for the study, and 'impact research' was defined as 'papers within the top 5% of the Mathematics Education Network Centrality Index' from the perspective of Scientometrics. A machine learning model was designed to identify papers within the top 5% of the Mathematical Education Network Centrality Index, and important factors influencing the identification of papers within the top 5% were analyzed, and topics covered by papers within the top 5% were analyzed. The results derived through such a study are as follows. First, this study evaluated the predictive effectiveness of accuracy, precision, and recall for each model by inputting data calculated from 24,575 paper meta-information into seven machine learning classification models. As a result, among the seven machine learning classification models, the accuracy, precision, and recall of the model designed through Random Forest were higher and more stable than those of other machine learning models, confirming that the random forest model is the best classification model. Impact papers in mathematics education were identified by inputting thesis meta information into the random forest classification model. As a result of surveying journals with papers in the top 5% of the world, Journal for Research in Mathematics Education(JRME) 25.66%, Educational Studies in Mathematics(ESM) 22.12%, Zentralblatt fakr Didaktik der Mathematical(ZDM) 846%, Journal of Mathematics Teacher Education(JMTE) 5.8%, Journal of Mathematical Behavior( JMB) 5.51% were organized in order, and results were similar to those of previous studies that qualitatively evaluated the impact of mathematics education journals. The influential independent variables identified through the AI variable importance index were 'the paper network centrality index', 'the number of citations', 'the average number of citations', 'the amount of h-index changes in academic journals', and 'the number of researchers citing the author's paper'. In particular, the "paper network centrality index" was 19.6% for the year of publication, 16.6% for one year after publication, and 15.74% for two years after publication, and the three-year values of independent variables related to the "paper network centrality index" were more than 50%. This showed that the "network consisting only of papers" was the most important factor in identifying impact papers among the "total mathematics education network including papers, authors, and journals." Second, the abstract of the collected mathematics education papers was analyzed using topic modeling. As a result, mathematics education papers could be classified into nine topics. As a result of the study, the topic dealing with the "the theoretical foundation of mathematics education" was a research topic that occupies a high proportion in mathematics education research. Meanwhile, among mathematics education studies, topics dealing with "teaching and learning processes in math classrooms" and "teacher education" were not high in 1980, but showed a steady increase over time. In this study, the ratio of the overall mathematics education covered by each topic and the ratio covered by impact papers were compared and analyzed. As a result, it was observed that the proportion of topics covered in impact papers increased in the entire mathematics education research two to three years later. Conversely, topics with a low rate of coverage in impact papers showed that the rate of coverage continued to decrease in the overall mathematics education research. Analyzing the topics of impact papers can predict topics that will be actively covered in math education research in two to three years, and based on this, it can be expected that the proportion of topics related to "social perspective" and "university math education" will gradually increase. Through the results of this study, the following implications were obtained. First, when identifying the impact of mathematics education research, forming a mathematics education network and using a machine learning model tended to be consistent with the opinions of mathematics education experts. The sum of the number of citations between 2017 and 2021 is 947 for International Journal of Science and Mathematics Education(IJSME) and 563 for JRME, IJSME will be evaluated higher than JRME if the impact of the journal is evaluated only by the number of citations. This is different from past studies in which JRME received the highest grade of "high" and IJSME received the third grade of "medium high" by evaluating the impact of academic journals with the opinions of math education experts. However, the proportion of impact papers predicted by the machine learning model designed in this study was 25.66% for JRME and 5.51% for IJSME, which can be seen as similar to the opinions of math education experts. In other words, a machine learning model can be designed and implemented with results similar to those that mathematics education experts read and qualitatively evaluated. This can have implications that using the results of this study, it is possible to efficiently evaluate the impact of mathematics education research that required a large number of people and time. Second, this study analyzed important variables and topics to be identified as impact papers. In order to be classified as an impact paper, it was confirmed that the 'centrality index in the paper network' was important, and the topics covered in the impact paper were covered throughout the study of mathematics education a few years later. This can help early career researchers write impact papers. First, early career researchers can check the proportion of topics covered in the top 5% of impact papers and select topics that will be covered a lot in future mathematics education research. And if there is an opportunity to check the impact author of this topic, to read, participate in academic conferences, and co-author, it is necessary to actively participate and form a network relationship. This will be an effort to increase the 'centrality index of the thesis network' calculated by PageRank identified in this study. This study is significant in that it conducted a large-scale meta-analysis of mathematics education research (24,575 papers) and analyzed and found new implications by integrating two meta-analysis of mathematics education research ('Evaluation of impact of Research' and 'Research Trend Analysis'). In addition, compared to the machine learning model of previous studies designed to predict the impact of biotechnology research, it is valuable in that it designed an efficient model by reducing the dimension of input data from 141 dimensions to 8 dimensions, but there was no significant difference in performance.

      • 기계학습 알고리즘을 이용한 현황지목 분류에 관한 연구 : UAV 영상 활용을 중심으로

        신하나 청주대학교 2020 국내석사

        RANK : 248703

        본 연구의 주된 목적은 UAV 영상과 기계학습 알고리즘을 이용하여 보다 효율적이고 신뢰성 있는 현황지목 식별방법을 제시하는 것이었다. 이러한 연구목적을 달성하기 위해 본 연구는 다음의 연구 방법을 이용하였다. 첫째, UAV 촬영 대상지를 선정하여 그 지역에 대한 영상 취득을 하였다. 둘째, 위에서 취득한 UAV 영상에 대하여 객체 기반 영상 분류를 실시하였다. 셋째, 분류된 객체와 영상을 중첩하여 현황지목 분류를 위한 Training 데이터를 추출하였고, 6개의 기계학습 알고리즘을 이용하여 Training 데이터를 분류하고 성능을 비교하였다. 넷째, 6개의 기계학습 알고리즘으로부터 얻은 래스터 자료와 법정 지목의 일치율 분석을 위해 연속지적도의 지목을 기반으로 한 래스터화 작업이 시도되었다. 다섯째, 마지막으로 Grid to Grid 방식을 이용하여 일치율 분석을 하였다. 영상처리는 Pix4D를 이용하였고, 자료 처리 및 분석은 QGIS, SAGA GIS 프로그램을 이용하였다. 자료 분석방법은 1차 분류인 현황지목 분류에 있어 6개의 기계학습 알고리즘별 성능 평가를 위해 분류의 정확도를 나타내는 Kappa 지수를 비교하였다. 둘째, 법정 지목과 현황지목의 일치도 분석을 위해 Kappa 및 Overall Accuracy를 비교하여 지목별, 기계학습 알고리즘별 정확성 검증을 실시하였다. 분석 결과 K-Nearest Neighbor의 알고리즘이 현황지목 분류에 있어서 가장 높은 신뢰도가 있는 것으로 나타났다. 또한 Decision Tree, Support Vector Machine, Random Forest, Naive Bayes 순으로 신뢰도가 높았으나 Artificial Neural Network은 낮은 신뢰도를 보여주었다. 둘째, 법정 지목과 현황지목 일치율 분석에 있어서는 Support Vector Machine이 가장 높은 신뢰도를 보여주었다. 또한 K-Nearest Neighbor, Decision Tree, Random Forest, Naive Bayes 등도 법정 지목과 현황지목 일치율 분석에 있어서 비교적 높은 신뢰도를 보여주었으나 현황지목 분류에서와 마찬가지로 Artificial Neural Network은 낮은 신뢰도를 보여주었다. 본 연구의 한계와 향후 연구 과제는 다음과 같다. 첫째, 본 연구는 기계학습 알고리즘을 이용하여 농촌지역의 현황지목만을 분석하였을 뿐이다. 따라서 동일한 알고리즘을 이용하여 도시지역의 현황지목을 분류한다면 다른 결과가 도출될 수 있을 것이다. 둘째, 만약에 UAV 영상분석에 있어서 다른 기계학습 알고리즘을 시용했다면 전혀 다른 결과를 도출했을 수도 있다. 본 연구에서는 여러 가지 기계학습 알고리즘 중에서 단지 6개의 알고리즘만을 사용하였다. 따라서 Sharkrf나 Sharkkm 와 같은 다른 기계학습 알고리즘을 이용한다면 본 연구의 결과와는 다른 결과를 도출할 수도 있을 것이다. 셋째, 과수원의 경우 임야와 구분이 어렵다는 점이다. 임야와 과수원의 경우 유사한 특성을 지니고 있기 때문에 OBIA를 이용하여 이들 간의 차이를 구분하기는 어렵다. 따라서 이러한 한계를 극복하기 위해서는 현황지목을 분류하는 데 있어서 OBIA뿐만 아니라 또한 Pixel 기반의 분류 기법이 동시에 이용되어야만 할 것이다. The primary purpose of this study was to propose a more efficient and reliable method for identifying land use categories using UAV images and machine learning algorithms. To achieve this purpose, this author used the following research methods. First, the UAV filming site was selected to acquire the image of the area. Second, object-based image classification was performed on the UAV images acquired above. Third, we extracted the training data for classifying the current category by superimposing the classified objects and pictures, and organizing the training data using six machine learning algorithms and comparing the performances. Fourth, a rasterization task based on the classification of continuous cadastral maps was attempted to analyze the agreement rate between the raster data obtained from the six machine learning algorithms and the legal land use categories. Fifth, we examined the concordance rate using the Grid to Grid method. Pix4d was used for image processing, and QGIS and SAGA GIS programs were utilized for data processing and analysis. The Kappa index, which represents the accuracy of classification, was compared to evaluate the performance of six machine learning algorithms. Second, Kappa and Overall Accuracy were compared to analyze the accuracy of each category and machine learning algorithm. As a result, the K-Nearest Neighbor algorithm has the highest reliability in the classification of the current category. Besides, decision trees, SVM, Random Forest, and Naive Bayes showed high reliability, but Artificial Neural Network showed low reliability. Second, SVM showed the highest reliability in analyzing the statutory and current status agreement rates. Also, K-Nearest Neighbor, Decision Tree, Random Forest, Naive Bayes showed relatively high reliability in the analysis of legal and existing category agreements, but artificial neural network showed low reliability. The limitations of this study and future research are as follows. First, this study only analyzes the current land use categories of rural areas using machine learning algorithms. Therefore, if we classify the existing land use categories of urban areas using the same algorithms, different results may be obtained. Second, if different machine learning algorithms were used in UAV image analysis, totally different results could be obtained. In this study, only six algorithms were used among the various machine learning algorithms. Thus, using other machine learning algorithms such as Sharkrf or Sharkkm may yield different results. Third, in the case of orchards, it is difficult to distinguish them from forestry. Because forests and orchards have similar physical characteristics, it is difficult to differentiate between them using OBIA. Therefore, to overcome these limitations, not only OBIA but also pixel-based classification techniques should be used simultaneously in classifying the current land use categories.

      • 실데이터를 활용한 기계학습 기반의 배전선로 부하예측에 관한 연구

        김준혁 성균관대학교 일반대학원 2022 국내박사

        RANK : 248703

        근래 분산전원과 전기자동차의 등장으로 인하여 전력계통의 해석난이도가 급증하여 전통적인 계통해석 방법으로는 활용 측면의 한계가 명확해짐에 따라, 기계학습을 활용한 계통의 부하예측 및 해석이 필수적으로 고려되고 있다. 특히, 배전계획 업무의 경우 미래부하 예측값을 기준으로 업무 의사결정이 수립되므로, 높은 활용성이 기대된다. 만일 기계학습을 활용하여 배전계통의 부하예측이 수행된다면, 정밀한 부하예측으로 배전계획의 신뢰도와 정확도를 개선할 수 있을 것이다. 또한, 현행 방식과는 달리 시계열로 예측된 부하 값 분석을 통하여 최대부하를 산정한다면, 이 과정에서 경제성 및 정책 등의 고려사항들을 반영할 수 있으므로 배전계획을 포함한 여러 업무의 효율을 향상할 수 있을 것으로 기대된다. 다만, 이처럼 기계학습을 접목하여 배전계통의 부하를 예측 및 활용하기 위해서는 두 가지가 전제되어야 한다. 첫 번째로 기계학습을 위한 고품질의 학습 데이터가 필요하다. 기계학습은 비정상 데이터로 학습 데이터가 오염되는 경우, 예측 부하 값의 정확도를 보장할 수 없다는 문제점을 가진다. 이러한 이유로 배전계통에서 운영상의 목적으로 빈번하게 발생하는 부하절체를 적절히 탐지하여야 한다. 이는 부하절체에 의한 배전선로 부하의 일시적인 급증 또는 급감이 부하예측에 반영되는 경우 예측결과의 정확도 및 신뢰도에 악영향을 줄 수 있기 때문이다. 둘째는 합리적인 모델의 개발이 필요하다. 실제 활용을 염두하여 부하예측 모델을 개발하는 경우, 우리나라의 모든 배전선로가 대상이므로 특성이 상이한 어떤 배전선로에 적용하더라도 신뢰할 수 있는 예측결과를 도출할 수 있어야 한다. 즉, 단일 예측모델을 모든 선로에 적용할 수 있으면서도 그 예측결과가 적정한 신뢰도 및 정확도를 가져야 한다. 기존의 연구들은 부하예측의 측면에서 배전계통 운영상의 목적으로 발생하는 부하절체를 고려하는 데 한계를 보이는 실정이며, 예측의 측면에서도 고품질 데이터가 전제되는 스마트 홈, 스마트 빌딩 등 작은 규모 또는 데이터 정밀도에 대한 중요도가 희석될 수 있는 도시 및 국가 등 대규모 단위의 예측이 주를 이루고 있다. 본 연구에서는 앞서 기술한 바와 같이 전처리 측면에서 부하예측의 정확도에 큰 영향을 미칠 수 있는 부하절체를 기계학습 기반으로 탐지하는 방법을 개발하였고, 대표성을 지니는 데이터를 구축하기 위하여 군집화(Clustering) 기법을 적용하였으며, 확보된 데이터를 기반으로 대규모 배전선로의 부하예측에 적합한 하이브리드 예측모델을 제시 및 검증하였다. 제안한 기계학습 기반의 전처리 및 부하예측 방법을 통하여 기계학습을 이용한 부하예측, 더 나아가 배전계통 관련 주요 업무 중 하나인 배전계획 측면에서의 활용 타당성을 분석하였으며, 그 결과 기존 방식에 의하여 야기될 수 있는 인적오류 등의 문제를 최소화하면서 배전계통 투자계획의 효율성을 개선하는 합리적 의사결정에 활용될 수 있음을 확인하였다. 또한, 본 연구의 경우 기존의 연구들과는 달리 실제 활용성을 염두에 두어 대규모 배전선로를 대상으로 부하절체를 탐지하고 부하예측을 수행하였으며, 그 결과를 실제 업무에 적용하여 제안 방법의 타당성을 검증하였기에, 향후 배전계획을 위시한 전력 현장에서 기계학습 기법의 활용성 및 적정성을 검토하기 위한 토대로 활용될 것으로 기대한다. Interest in machine learning has been increasing rapidly in recent years, and various studies have been conducted to graft machine learning technologies in each industry. In the field of power system, various studies are also carried out in combination with machine-learning based methods, and in particular, a lot of research is carried out to forecast power system electric loads. Especially, the utilization of machine learning-based load forecasting methods can become very important, in terms of distribution system related works, as it is difficult to analyze distribution systems considering the DGs and/or EVs. If the machine learning method is applied to the load forecasting of the distribution systems, the reliability and accuracy of the distribution system state estimation and investment plan, including distribution system planning, can be improved using precise forecasting electric loads by learning the history of the electric loads and analyzing the pattern of the loads. However, in order to forecast and utilize the loads of the distribution system by incorporating machine learning, two things must be premised. First, high-quality training data is needed. Since machine learning analyzes patterns through training data and forecasts future loads, the accuracy of forecasted load values cannot be guaranteed if training data is contaminated with abnormal data such as noise, spike, and even load transfers. Second, it is necessary to develop a rational model. Since the distribution planning deals with all the distribution lines in Korea, reliable forecasting results should be produced no matter which distribution lines have different characteristics. In this study, a method of detecting loads transfer based on machine learning that could have a significant impact on the accuracy of loads forecasting in order to secure high quality data in the aspect of pre-processing was developed. And a clustering technique was applied to build representative data and to develop forecasting model for loads of distribution lines. Through the proposed pre-processing and loads forecasting methods based on machine learning and statistical-based method, the feasibility of the use of the machine learning models in terms of the actual distribution system related works was analyzed. The results of this study are expected to be used as a basis for analyzing the usability and appropriateness of machine learning techniques for power systems including distribution planning.

      • 박막 인장 시험을 위한 영상 기반의 3D CNN 기계학습 변형률 측정

        민현규 부산대학교 대학원 2020 국내박사

        RANK : 248703

        제조 산업의 발전에 따라 제품이 소형화되고, 경량화 되며, 박막 소재를 사용하는 제품의 신뢰성에 대한 관심이 커지고 있다. 신뢰할 수 있는 제품을 설계 하기 위해서 제품에 적용되는 소재의 기계적 특성을 정확하게 평가해야 한다. 그러므로 기계적 특성을 얻기 위한 인장 시험이나 피로 시험을 통해 얻은 실험 데이터가 반드시 필요하다. 하지만, 체적 소재에 대한 실험 방법은 많이 연구된 반면, 박막 소재에 실험 방법은 아직 연구 단계에 있다. 특히 체적 소재에서 적용했던 변형률 측정 방법은 박막 소재에 적용하기 어렵다. 체적 소재는 접촉 식 변위 측정 센서를 직접 부착하여 측정할 범위를 정확하게 측정할 수 있는 반면 박막 소재는 접촉 식 변위 측정 센서에 의해 마이크로/나노 단위의 소재 특성에 영향을 줄 수 있기 때문이다. 따라서 박막 소재에 대해 정확한 기계적 특성을 얻기 위해서는 소재에 영향을 주지 않는 비 접촉 식 측정 방법 중 하나인 영상 기반의 변형 측정 방법을 적용하여 변형이 발생하는 부분을 직접적으로 측정해야한다. 대표적인 영상 기반의 변형 측정 방법인 영상 상관 기법은 변형 측정 문제에 적용하기 위해 최적의 파라미터를 선정해야 한다. 그렇기 때문에 영상 상관 기법은 최적의 파라미터를 찾기 위해 실험을 반복해야 하며 파라미터에 따라 변형 추정 성능이 달라지는 단점을 가진다. 이러한 한계를 극복하기 위해 본 연구에서는 새로운 영상 기반의 변형 측정 방법으로 컨볼루션 신경망(CNN)을 이용한 학습 기반의 변형 측정 방법을 제안한다. 제안한 방법은 연속적으로 얻은 영상에 대해 적용하기 위해 공간 정보에 대한 학습이 가능한 2차원 컨볼루션 신경망 대신에 3차원 컨볼루션 필터를 적용하여 공간적 정보뿐만 아니라, 시간적 정보도 함께 학습이 가능한 새로운 비 접촉 변형 측정 방법이다. 또한, 본 연구에서는 인장 시험을 수행하며 동시에 고배율의 시편 표면 영상을 획득할 수 있는 시험기를 구성하고, 인장 시험을 위한 마이크로 단위의 박막 시편을 제작하였다. 시험기를 이용하여 박막 소재에 대한 인장 시험을 직접 수행하고, 인장 시험 동안 얻은 영상에 대해서 비 접촉 변형 측정 방법인 영상 상관 기법과 학습 기반의 변형 측정 방법을 이용하여 변형을 추정하고 각 방법으로 얻은 추정 결과로부터 얻은 변형률을 이용하여 기계적 특성을 얻고 각 방법에 따른 기계적 특성을 비교하였다. 실험 결과를 통해 영상 기반의 변형 추정 방법이 박막 소재에 대한 변형률을 정확하게 측정한다는 것을 증명하였다. 또한, 기계학습 기반의 변형 측정 방법은 기존의 영상 상관 기법보다 다양한 문제에 대해서도 높은 추정 성능을 보여준다.

      • 기계학습을 활용한 지도 일반화 개선 방안 연구 : 건물과 도로객체의 선택적 삭제를 중심으로

        이재은 서울대학교 대학원 2020 국내박사

        RANK : 248703

        Currently, 1:25,000 digital maps in Korea are created by editing 1:5,000 digital maps. This editing is a process of making a small-scale map from a large-scale map, and in this process, a map generalization technique is inevitably applied. In the past, the generalization of maps has been mainly based on a geometric generalization method, which is generalized using geometric features of objects, or a rule-based method. Currently, the process of reducing editing in Korea is performed through a kind of rule-based method in accordance with the regulations related to editing. However, there are many areas where the contents of the regulation book are not specific, so there is much room for the editor's subjective intervention. As the subjectivity of the editor is involved in the editing process, the consistency of the quality of the small scale map cannot be guaranteed, and the quality of generalization depends on the individual competency of the editor. In recent studies of map generalization, there have been steadily raised problems that such human intervention make the results of the generalization of maps inconsistent. Accordingly, the research flow of map generalization has been progressed toward minimizing human intervention and automating data acquisition and data editing processes to ensure consistency of map generalization quality. However, few studies have been conducted on  quantitatively revealed research cases and demonstration cases of how human intervention affects the quality of map generalization. Attempts to suggest ways to utilize are also insufficient. There are also insufficient attempts to suggest ways to supplement existing regulations through analysis of the generalized results of maps. In this study, the difference in the quality of generalization caused by human intervention is quantified by applying the machine learning method, and furthermore, it is intended to suggest a method for improving the quality of the generalized map by utilizing it. For this, a machine learning model that predicts whether buildings and roads can be selected/deleted when scaled-down from 1:5,000 digital maps to 1:25,000 digital maps is created. Then the predicted rate of predicting whether to select buildings and road objects for each six different map makers were measured. By analyzing the difference between the measured prediction rate and its pattern, it is revealed that there is a significant difference in the editing method between map makers. Another experiment proposes a method for creating a machine learning model for urban centers and non-urban areas, and setting the appropriate machine learning algorithm settings according to each region's characteristics. In order to evaluate the performance of the learning model, the prediction rate was measured for buildings and roads for each of the four algorithms, DT, k-NN, SVM, and ANN, used in the learning model. In addition, the predicted rate was measured by applying the generated models to six experimental areas, and the difference between the predicted rates was statistically significant through the Kruskal Wallis test. In this process, since the difference in accuracy may occur depending on the characteristics of the target region, the accuracy of different regions edited by the same producer was measured and the statistical characteristics were analyzed to determine how much the regional characteristics influenced the differences between producers. As a result, in the case of buildings, the difference in accuracy by region was not statistically significant, but in the case of roads, there was a significant difference in some regions. However, the difference by each producer was greater than the difference by region, and this can be interpreted that the difference by producer was also dominant for road objects. As a result of qualitative (visual) analysis, it was found that the differences were revealed for each producer in the selection and deletion of lane objects, such as roads, in small buildings in urban areas in buildings. In addition, in order to find a way to utilize the machine learning technique in the generalization of maps, a machine learning model was generated for urban and non-urban areas respectively, and the prediction rate was measured. As a result through the machine learning technique, it was possible to check the properties that have a major influence in the selection and deletion of objects and the settings required for the object selection, and through this, the machine learning algorithm complements the reduced editing rules in the generalization of the map. And it has been shown that it is possible to make basic use of object selection and deletion through machine learning techniques for each feature. Machine learning techniques can be applied not only to quantify deviations between map makers, but also to automate the generalization of maps. The method proposed in this study also suggests the possibility of automating selection and deletion in the generalization of maps without human intervention through a learning model that has learned from existing map data. 현재 우리나라의 1:25,000 수치지형도는 1:5,000 수치지형도를 축소 편집하여 생성하고 있다. 축소 편집은 대축척 지도로부터 소축척 지도를 만드는 과정이며, 이 과정에서 필연적으로 지도 일반화(map generalization) 기법을 적용하게 된다. 그동안의 지도 일반화는 객체의 기하학적 특징들을 활용하여 일반화하는 기하학적 일반화 방법, 혹은 규칙기반(rule-based) 방법이 주류를 이루어 왔다. 현재 우리나라의 축소 편집 과정은 축소 편집 관련 규정에 따르는 일종의 규칙기반 방법을 통해 수행되고 있다고 볼 수 있다. 하지만, 규정집의 내용이 구체적이지 않은 부분들이 다수 존재하여 편집자의 주관이 개입될 여지가 많다. 축소 편집 시에 제작자의 주관이 개입될수록 소축척 지도 품질의 일관성을 담보해 주지 못하며, 편집자 개인의 역량에 따라 일반화의 품질이 좌우된다는 단점이 있다. 지도 일반화에 관한 연구에서도 사람의 개입이 지도 일반화의 결과물을 일관적이지 못하게 한다는 문제가 꾸준히 제기되고 있다. 이에 따라 지도 일반화의 연구 흐름은 자연스럽게 사람의 개입을 최소화하고 자료 취득 및 처리 공정을 자동화함으로써 지도 일반화 품질의 일관성을 담보할 수 있는 방향으로 진행되어왔다. 그러나 이에 앞서 사람의 개입이 지도 일반화 품질에 어떠한 영향을 얼마나 주고 있는지에 대해 정량적으로 밝혀진 연구사례나 실증사례는 매우 부족한 현실이며, 구축된 지도 일반화 결과물의 분석을 통해 기존의 규정을 보완하는 등의 활용 방안을 제시하려는 시도 또한 미흡한 편이다. 본 연구에서는 사람의 개입으로 인해 발생하는 일반화 품질의 차이를 기계학습 방법을 적용하여 정량화하고, 나아가 이를 활용하여 일반화된 지도의 품질 향상 방안을 제시하고자 한다. 이를 위해 1:5,000 수치지형도에서 1:25,000 수치지형도로의 축소 편집 시 건물과 도로의 선택적 삭제 여부를 예측할 수 있는 기계학습 모델을 생성하고 학습된 모델을 서로 다른 여섯 명의 지도 제작자가 제작한 지역에 적용하여 건물과 도로객체의 선택적 삭제 여부에 대한 예측률을 측정하였다. 측정된 예측률 간의 차이와 그 양상을 분석함으로써 지도 제작자 간의 편집 방법에 있어서 유의미한 차이가 있음을 밝히고자 하였다. 이를 위해 학습 모델의 성능평가를 위해 학습 모델에 사용된 네 개의 알고리듬 – 의사결정 나무(decision tree), k 최근접 이웃(k-nearest neighbor), SVM(Support Vector Machine), 인공신경망(Artificial Neural Network, ANN) - 별로 건물과 도로에 대해 각각 예측률을 측정하였다. 또한, 각각 생성된 모델을 6개 실험지역에 적용하여 예측률을 측정하였고 크루스칼 왈리스 검정을 통해 예측률 간의 차이가 통계적으로 유의미한 수준임을 볼 수 있었다. 이 과정에서 대상 지역의 특징에 따라 정확도의 차이가 발생할 수 있으므로 같은 제작자가 편집한 서로 다른 지역에 대한 정확도를 측정하고 통계 검증을 통해 지역의 특징이 제작자 간 차이에 얼마나 영향을 미치는지에 대하여 분석하였다. 그 결과 건물의 경우 지역별로 드러난 정확도의 차이가 통계적으로는 유의미한 수준이 아니었으나, 도로의 경우 일부 지역에서 유의미한 차이가 나타났다. 그러나 지역별로 드러난 차이보다 제작자별로 나타난 차이가 더 크게 나타났으며, 이는 도로객체에 대해서도 제작자별 차이가 발생할 수 있다고 해석할 수 있다. 정성적(시각적) 분석 결과, 건물의 경우 도심지역의 소건물들에서, 도로의 경우 진입로 등의 소로에서 객체의 선택적 삭제에 제작자별 차이가 드러나는 것을 발견할 수 있었다. 또한, 기계학습 기법의 지도 일반화 분야에서의 활용 방안 모색을 위해 도심과 비도심 지역에 대해 각각 기계학습 모델을 생성하고 예측률을 측정하였다. 그 결과 기계학습 기법을 통해 객체의 선택적 삭제 과정에서 주된 영향을 주는 속성들과 객체 선택에 필요한 설정값들을 확인할 수 있었다. 이를 통해 기계학습 알고리듬이 지도 일반화 과정에서 축소 편집 규정을 보완할 수 있으며, 특징별로 기계학습 기법을 통해 객체의 선택적 삭제에 기초적 활용이 가능함을 보였다. 기계학습 기법의 적용을 통해 지도 제작자 간의 편차를 정량화하는 것에서 나아가 지도 제작 또는 지도 일반화 과정에 대한 검수 프로그램으로써 활용도 기대할 수 있다. 또한, 대상 객체를 확대하고 알고리듬의 예측률을 상승시키면 현재의 지도 축소 편집 과정을 제작자의 개입 없이 자동화가 가능할 것으로 기대된다.

      • 기계학습 기반 침해사고 경보 위험도 예측

        박유선 고려대학교 정보보호대학원 2019 국내석사

        RANK : 248703

        공공기관의 사이버침해대응센터는 최근 폭발적으로 증가하는 로그와 이벤트 등의 위협정보를 처리하고 대응하는데 어려움이 있다. 이는 기하급수적으로 증가하는 정보를 처리하고 분석하는데 너무 많은 시간이 소요되기 때문이다. 하루에도 무수히 발생하는 보안 이벤트 공격 흔적을 빠르게 찾아내기 위해서는 고차원의 정보 저장·분석 능력이 필수적으로 요구된다. AI(Artificial Intelligence) 기술은 방대한 위협 정보의 분석 및 학습을 통해 공격의 탐지 및 예측이 가능하고, AI 기술을 통하여 효율적인 대응 전략을 수립하는데 도움이 될 것으로 예상하고 있다. 근래에 들어 기하급수적으로 증가하는 사이버 공격 경보 관련 데이터 분석의 정탐율을 높이고 진화하는 보안 위협에 효율적으로 대응하기 위한 방안으로 보안관제 부문에 기계학습(Machine Learning) 기술을 적용하려는 시도가 증가하고 있다. 기계학습 기반 보안관제시스템 운영을 위해서는 대용량의 데이터로부터 양질의 정보를 추출하고 분석해 최적의 학습 데이터를 만드는 것이 필요하다. 이를 위하여 보안전문가들이 직접 양질의 학습 데이터를 생성하고 선별하는 과정에 참여한다. 정보보호 분야의 기계학습 기반 보안 기술이 아직 초기 단계인 만큼, 기계학습 기반 학습 모델이 의미 있는 결과물을 창출하기 위해서는 기계학습 알고리즘에 적용하기 위한 학습 데이터를 선별하고, 원하는 결과를 얻기 위한 최적의 알고리즘을 선택·검증하는 것이 선결되어야 한다. 보안 담당자는 기계학습 알고리즘을 통해 걸러진 위험도가 높은 중요한 경보를 선제적으로 집중 분석함으로써 고도화된 보안 위협 대응에 보다 집중하고 기계학습 알고리즘에 적용할 또 다른 학습 데이터를 생성하며, 기계학습 기반 예측 모델에 더 많은 피드백을 줄 수 있다. 본 연구를 통하여 통합보안관제시스템의 경보 데이터와 침해사고 처리 내역에 기계학습 기술을 적용해 오탐지·정상탐지 여부를 예측하고, 이상행위로 판단되는 보안경보 이벤트의 위험도를 수치화해 이를 우선순위에 따라 처리할 수 있는 가이드를 제시하고자 한다.

      • 기계학습 모형의 설명가능성에 관한 연구 : 미국 주택담보대출 자료를 중심으로

        김동섭 건국대학교 대학원 2020 국내박사

        RANK : 248703

        Machine learning is an area of artificial intelligence, which is known to have superior prediction power compared to standard econometrics approach. Standard econometrics approach are widely used in the social science area, including the real estate field. On the other hand, machine learning is a kind of black box model, which can not explain the cause of the results. Recent research on XAI (eXplainable Artificial Intelligence) in the field of machine learning has raised interest in the “Explainability” of the model. Explainability of machine learning provides an opportunity to open up the possibility of various studies in social science fields (real estate, finance, etc.), which have formerly used econometric technology or machine learning in prediction power. In this study, empirical studies were conducted by applying the explainability of machine learning to default risk of mortgage loans. Recently, domestic housing prices have been on the rise due to a decrease in housing supply and low interest rates in the Seoul metropolitan area, but the economic slowdown and the risk of a fall in housing prices could increase the default risk in mortgage loans and expand the scale. In addition, it has become important for financial institutions to more accurately measure Bank for International Settlements (BIS) ratios and to be recognized by regulators through self-help efforts to accurately measure risk weights for risky assets. However, prior studies related to mortgage loans have focused on explaining the factors associated with them based on standard econometrics approach models for the risk of delinquency, default or prepayment. Therefore, this study seeks to enhance the effectiveness of the model internally by measuring more delicate default risks based on machine learning, and it is also expected that this model can be used as an efficient regulatory compliance mechanism for default risks. In this study, it is analyzed mortgage data from Freddie Mac in the U.S. to derive a model of mortgage defaults based on machine learning (artificial neural network and random forest), and to explain the factors of default risk in the model as Partial Dependence Plot (PDP), marginal effects, and Shapley Additive Explanations (SHAP). In addition, by comparing the predictive power of standard econometrics approach and machine learning models, the machine learning model proved that not only the explanatory power but also the predictive power is better than the standard econometrics approach. First, results of comparing logistic regression as one of the standard econometrics techniques, and artificial neural network and random forest models as machine learning technique models, generally showed similar aspects in the coefficients of the logistic regression model, PDP and marginal effects, while the results were somewhat different in random forest. In the case of delinquency, both of artificial neural networks and random forest models showed that the months of delinquency (-), the total amount of overdue payments (-) and the credit rating (+) were in conflict with common sense, which is one of the interesting aspects of this study. It also sought to identify new potential variables through PDP, marginal effects, and SHAP analysis on datasets that added derived variables to existing independent variables. Variables related to housing price change rate in logistic regression and artificial neural network, and those related to the capital ratio in random forest, were judged to be meaningful. To compare predictive power, logistic regression was used as a econometrics technique and neural network and random forest were used as a machine learning technique. As a result, the machine learning model was found to be excellent in all indicators that verify predictive power such as Accuracy, F1 Score, and Area Under the Curve (AUC). By applying the machine learning-based model with the characteristics of “black box” form to mortgage default, this study verified the practical use potential of the explainability, as well as the predictability of the machine learning model. Furthermore, the machine learning model of this study is expected to serve as a guide for domestic financial institutions to manage the risks of mortgage loans on a machine learning basis. The results of this study could also be used to provide beneficial policy working-level guidelines when the government draws up policies to regulate household debt in the local real estate market. 기계학습은 인공지능의 한 분야로, 전통적 계량 기법에 비해 우수한 예측 능력을 갖는 것으로 알려져 있다. 전통적 계량 기법은 부동산 분야를 포함한 사회 과학 분야에 있어 많이 활용되는 반면, 그에 반해 기계학습은 Black Box 모형의 특징으로 결과에 대한 원인을 설명하는 능력이 부족한 단점이 존재한다. 하지만, 최근 기계학습 분야에 있어 XAI (eXplainable Artificial Intelligence)에 대한 연구를 통해 기계학습 모형의 설명가능성(Explainability)에 대한 관심이 높아지는 추세이다. 이러한 기계학습의 설명 가능성은 기존의 계량 기법 위주로 활용되거나 기계학습의 예측 능력 위주로 적용되던 사회 과학 분야(부동산, 금융 등)에 있어 다양한 연구의 가능성을 열어 주는 계기를 마련하였다. 이에 따라 본 연구에서는 기계학습의 설명가능성을 주택담보대출 채무불이행에 적용하여 실증 연구를 수행하였다. 최근 국내 주택 가격은 수도권 등 공급 감소과 저금리 기조에 따라 상승 추세에 있으나, 경기 침체 위험 및 그에 따른 주택 가격 하락에 의해 주택담보대출의 부실 위험과 규모는 확대될 수 있다. 또한, 금융 기관은 위험 자산에 대한 위험 가중치를 정확하게 산정하는 자구적 노력을 통해 BIS(Bank for International Settlements) 비율을 보다 정확하게 측정하고 이를 감독 기관으로부터 인정받는 것 또한 중요해졌다. 하지만, 기존의 주택담보대출과 관련된 연구에서 연체나 채무불이행, 또는 조기 상환 위험에 대해 전통적 계량 모형을 기반으로 관련 요인을 설명하는 데 치중해 왔다. 따라서, 기계학습 기반으로 보다 섬세한 채무불이행 위험 측정을 통해 내부 모형의 유효성을 증진시시키고, 채무불이행 위험에 대한 효율적인 규제 순응 기제로 활용될 수 있을 것으로 판단한다. 본 연구에서는 미 Freddie Mac社의 주택담보대출 자료를 이용하여 기계학습 기반(인공 신경망과 랜덤 포레스트)의 주택담보대출 채무불이행 모형을 도출하고, 모형에 나타난 채무불이행 위험의 요인을 PDP(Partail Dependence Plot), 한계 효과, SHAP(Shapley Additive Explanations) 등으로 설명하고자 하였다. 더불어, 전통적 계량 기법과 기계학습 모형의 예측력을 비교함으로써, 설명력뿐만 아니라, 예측력에 있어서도 기계학습 모형의 우수성을 설명하였다. 먼저, 계량 기법 중 하나인 로지스틱 회귀와 기계학습 기법 모형을 비교한 결과, 로지스틱 회귀 모형과 인공 신경망 모형을 통해 로지스틱 회귀 모형의 회귀 계수, PDP 및 한계 효과 등에서 두 모형이 대체적으로 비슷한 양상을 보인 반면, 랜덤 포레스트는 다소 상이한 결과를 보였다. 연체 상황 하에서는 인공 신경망과 랜덤 포레스트 두 모형 모두에서 연체 개월(-), 총 연체액(-), 신용 평점(+)가 상식과 대치되는 결과로, 본 연구 결과에서 흥미로운 부분 중 하나이다. 또한 기존의 설명 변수에 파생 변수를 추가한 데이터셋에 PDP, 한계 효과, SHAP 분석를 통해 신규 가망 변수를 파악하고자 하였다. 로지스틱 회귀와 인공 신경망에는 주택 가격 변화율 관련 변수가, 랜덤 포레스트에서는 자본 비율 관련 변수가 활용 가능성이 있는 변수로 고려되었다. 예측력 비교를 위해, 계량 기법으로는 로지스틱 회귀 모형을 사용하였고, 기계학습 기법으로는 인공 신경망과 랜덤 포레스트 모형을 사용하였다. 그 결과, 정확도(Accuracy), F1 Score, AUC (Area Under the Curve) 등 예측력을 검증하는 모든 지표에서 기계학습 모형이 우수한 것을 확인할 수 있었다. 본 연구를 통해 “Black Box 형태”의 특성을 갖는 기계학습 기반의 모형을 주택담보대출 채무불이행에 적용함으로써, 기계학습 모형의 예측력 뿐만 아니라, 설명가능성의 실무적 활용 가능성을 검증하였다. 더 나아가, 국내 금융기관이 기계학습 기반으로 주택담보대출 위험관리 시 길잡이 역할을 할 것으로 기대하며, 정책 입안 측면에서는 국내 부동산 금융시장의 가계부채에 대한 거시건전성 규제를 담당하는 정부에게도 유익한 정책적 실무지침을 제공하는 데 활용할 수 있을 것이다.

      • 기계학습을 이용한 단일 관련자극 P300기반 숨김정보검사

        김혁 고려대학교 대학원 2023 국내박사

        RANK : 248703

        국내 형사소송절차에서 진술의 진위여부 확인을 위해 사용하는 도구는 폴리그래프검사, 진술타당도분석, P300기반 숨김정보검사 등이 있다. 폴리그래프검사는 수사기관에서 주로 사용되며 다른 도구들에 비하여 사용빈도도 매우 높다. 하지만, 검사결과를 뒷받침해 줄 수 있는 근거가 부족하여 재판과정에서 증거로 인정되는 빈도는 낮다. 이러한 폴리그래프검사의 제한점을 보완해줄 수 있는 방법으로 P300기반 숨김정보검사가 주목을 받고 있다. P300기반 숨김정보검사는 사건관련 정보에 대한 재인검사로, 폴리그래프검사와 동일한 논점으로 검사가 가능하며 검사 결과를 뒷받침할 수 있는 사전연구가 많다. 따라서 P300기반 숨김정보검사와 폴리그래프검사를 함께 사용할 경우, 진술의 진위여부 확인 및 재판과정에서 증거채택에 도움을 줄 수 있을 것으로 기대되지만 P300기반 숨김정보검사의 사용에는 두 가지 제한점이 있다. 첫째, 검사에 필요한 관련자극을 다수 요구하기 때문에 실제 사건에서 활용도가 낮다. 기존의 P300기반 숨김정보검사 프로토콜에서는 관련자극으로 사용하기 위한 미공개 된 정보가 3가지 또는 6가지가 필요하다. 하지만 실제 사건에서는 수사과정을 통해서 대부분의 사건관련 정보들이 사전에 공개되기 때문에, 미공개 된 사건관련 정보를 3가지 또는 6가지 확보하는데 어려움이 있다. 둘째, 기존의 P300기반 숨김정보검사 프로토콜에서는 관련자극과 무관련자극에 대한 P300요소 전위값을 명확하게 구분하기 위하여 오드볼패러다임을 사용하지만, 무관련자극의 수가 관련자극의 수보다 4배 많기 때문에 무관련자극에 대한 P300요소 전위값이 과소 추정될 수 있다. 본 연구에서는 이러한 두 가지 제한점을 극복하기 위하여 단일 관련자극을 사용하는 수정된 P300기반 숨김정보검사 프로토콜을 탐색하였고, 오드볼패러다임의 문제점을 보완하기 위하여 다양한 기계학습의 분류 알고리즘을 비교하였다. 연구결과 단일 관련자극으로 여성과 남성의 얼굴자극을 사용할 경우, 자극은 400ms 지속시간으로 60회 제시하고, 절단값을 유죄집단은 90%로 무죄집단은 30%로 하여 정점-정점 방법으로 P300요소 전위값을 분석하는 것이 적합함을 확인하였다. 단어자극의 경우, 지속시간을 300ms로 60회 제시하고, P300요소 전위값 분석방법은 얼굴자극과 동일하게 시행하는 것이 적합하다는 것을 확인하였다. 또한 관련자극과 무관련자극에 대한 정점-정점 P300요소 전위값을 기계학습 분류 알고리즘의 로지스틱 회귀(LR), 선형 판별 분석(LDA), K-최근접 이웃(KNN) 알고리즘을 통해서 관련자극과 무관련자극 클래스로 분류할 수 있음을 확인하였다. 본 연구를 통해 기계학습을 이용한 단일 관련자극 P300기반 숨김정보검사가 형사소송절차에서 활용이 가능하다는 것을 확인하였다. 향후 더욱 다양하고 많은 사건에서 실제 사건 데이터를 축적하고, 검사 프로토콜 및 기계학습 알고리즘을 정교화한다면, 형사소송절차와 재판과정에서 폴리그래프검사와 함께 진술의 진위여부 확인에 많은 도움을 줄 것으로 기대된다. Polygraph examination, statement validity analysis and P300-based concealed information test are major three examination tools, which are use to determine a person's truthfulness and credibility in criminal procedure. Although polygraph examination is most common in criminal procedure, but it has little admissibility of evidence due to the weakness of scientific basis. In 1990s to support the weakness of scientific basis about polygraph, Farwell and Donchin proposed the P300-based concealed information test technique. The P300-based concealed information test has two strong points. First, the P300-based concealed information test is easy to conduct with polygraph. Second, the P300-based concealed information test has plentiful scientific basis. Nevertheless, the utilization of P300-based concealed information test is infrequent, because of the quantity of probe stimulus. The probe stimulus contains closed information that is relevant to the crime or other investigated situation. In tradition P300-based concealed information test protocol, three or more probe stimuli are necessarily needed. But it is hard to acquire three or more probe stimuli, because most of the crime relevant information is opened in investigative situation. In addition, P300-based concealed information test uses oddball paradigm, and oddball paradigm makes imbalance between the number of probe and irrelevant stimulus. Thus, there is a possibility that the unbalanced number of probe and irrelevant stimulus caused systematic underestimation of P300 amplitude of irrelevant stimuli. To overcome the these two limitation of P300-based concealed information test, one-probe P300-based concealed information test protocol is explored with various machine learning algorithms. According to this study, parameters of the modified one-probe protocol are as follows. In the condition of female and male face stimuli, the duration of stimuli are encouraged 400ms, the repetition of stimuli are encouraged 60 times, the analysis method of P300 amplitude is encouraged peak to peak method, the cut-off of guilty condition is encouraged 90% and the cut-off of innocent condition is encouraged 30%. In the condition of two-syllable word stimulus, the duration of stimulus is encouraged 300ms, the repetition of stimulus is encouraged 60 times, the analysis method of P300 amplitude is encouraged peak to peak method, the cut-off of guilty condition is encouraged 90% and the cut-off of innocent condition is encouraged 30%. It was also conformed that the logistic regression (LR), linear discriminant analysis (LDA), K Neighbors (KNN) algorithms were probable methods for analysis of P300 amplitude. The one-probe P300-based concealed information test with machine learning protocol is helpful to increase utilization of P300-based concealed information test, and supports to determine a person's truthfulness and credibility with the polygraph examination in criminal procedure.

      • 기계학습을 이용한 항공기엔진 터보팬 잔여 수명 및 정비 시점 예측

        노웅석 고려대학교 컴퓨터정보통신대학원 2020 국내석사

        RANK : 248703

        고가의 장비를 운용함에 있어 가용도(Availability)가 높은 장비를 운용하는 것은 전장에서 임무 수행 시 중요하다. 가용도 향상을 위한 주요한 두 가지 요소는 신뢰도(Reliability)와 정비도(Maintainability)이다. 고장의 발생률을 낮게 하고 신뢰도를 높이기 위해서는 온도, 진동, 스트레스 등 환경에 강한 부품 즉 품질이 높은 부품을 사용하는 것이고 정비도를 높이기 위해서는 모듈화된 설계로 정비시간이 짧게 하는 것이다. 정비는 고장 발생 시 수행하는 고장정비(Corrective Maintenance)와 고장 발생을 예방하기 위해 주기적으로 수행하는 예방정비(Preventive Maintenance)로 나눌 수 있다. 예방정비는 신뢰도중심정비(RCM) 논리도를 기반으로 작성하게 되며 일간, 주간, 월간, 분기, 년간 정비소요를 결정하게 된다. 하지만 장비 건강 상태를 고려하지 않은 계획적이며 주기적인 정비는 필요 이상의 많은 자원의 소모를 유발하게 된다. 잦은 예방정비는 장비의 고장을 줄이기 위해 효율적이지만 가용도 저하 및 경제적인 측면에서 부정적이다. 이에 기계학습을 통해 잔여수명을 예측하고 장비에 대한 적정 예방정비 시점을 판단함으로써 총예방정비시간을 줄여 운용가용도를 높힐 수 있는 방안을 제시한다. 장비 개발 시 운용시험를 하게 되는데 초기운용부터 고장발생 시까지 발생하는 장비환경값(Environmental Setting Value), 센서값(Sensor Value) 데이터 및 고장 시까지의 잔여수명을 저장하여 두고 그 데이터를 기계학습하여 장비수명 및 정비 시기를 예측한다. 다양한 기계학습(Machine Learning)의 방법을 통해 기계학습 후 회귀(Regression)를 통한 잔여수명(RUL) 예측과 분류(Classification)를 통해 정비 시점을 알고리즘 별로 비교한다. 훈련데이터셋을 학습과 훈련으로 나누어 학습 및 검증을 수행하고 시험데이터로 예측을 수행하여 결과값을 산출하도록 한다. 분류에서는 Support Vector Machine 방법이 그리고 회귀에서는 K Neighbor Regressor 방법이 가장 좋은 성능을 나타냈다. 항공기 엔진 운용시 생성되는 장비운용로그(Log)나 센서(Sensor)값과 같은 장비 상태값을 기반으로 장비의 잔여수명(RUL;Remaining Useful Life)과 고장발생 시기를 예측할 수 있었음을 실험을 통해 알아보았다. 분류와 회귀기법을 통해 현재 상태를 학습시킨 후 유사한 환경에 대해 장비 상태를 예측하였다. 예방정비를 주기적으로 수행하지 않고 장비의 잔여수명 및 상태에 따라 예방정비를 수행함으로써 장비의 운용가용도를 향상 시킬 수 있었다. 정확한 데이터의 수집과 전처리 그리고 다양한 알고리즘의 접목으로 수명 및 정비시기를 예지하여 선제 정비 대응할 수 있어 무기체계에 대해 경제적이며 효용성 있는 능동적 정비방안을 제시한다.

      • 이상기상 시 사일리지용 옥수수의 기계학습 모델을 이용한 피해량 산정과 전자지도 작성

        조현욱 강원대학교 대학원 2022 국내석사

        RANK : 248703

        본 연구는 기계학습을 기반으로 제작한 수량예측모델을 통해 이상기상에 따른 사일리지용 옥수수(Whole crop maize, WCM)의 피해량 산정 및 전자지도를 작성할 목적으로 수행하였다. WCM 데이터는 수입적응성 시험보고서(농협; n=1,219), 국립축산과학원 시험연구보고서(축과원; n=1,294), 한국축산학회지(축산; n=8), 한국초지조사료학회지(초지; n=707) 및 학위논문(n=4)에서 총 3,232점을 수집하였으며 기상 데이터는 기상청의 기상자료개방포털에서 수집하였다. 이상기상에 따른 WCM의 피해량은 5개의 실험을 통해 산정하였다. 실험 1은 WCM 대상의 이상기상을 탐색하고 이상기상 발생 유무 간 건물수량(Dry matter yield, DMY)의 유의성을 검정하기 위해 수행하였다. WCM 대상의 이상기상은 이상저온, 가뭄, 폭우, 열대야 및 이상풍으로 설정하였으며 유의성 검정은 수원19호 품종(농협=37; 축과원=211; 초지=5; n=206)을 대상으로 이상저온 발생 유무 간 DMY를 비교한 결과 유의적인 차이가 없는 것으로 나타났다(p>0.05). 통계 기반 수량예측모델은 이상기상에 해당하는 WCM 데이터를 선발할 때 시간이 많이 소요되어 비효율적이므로 수량예측모델은 데이터 선발 과정을 자체적으로 수행하는 기계학습을 통해 제작할 필요가 있을 것으로 나타났다. 실험 2는 기계학습을 통한 수량예측모델이 피해량 산정에 이용 가능한지 검토하기 위해 수행하였다. Linear, Factorization Model(FM), Deep, DeepCrossing, Wide&Deep, DeepFM, Compressed Interaction Network(CIN) 및 xDeepFM의 8가지 기계학습 기법을 통해 WCM(농협; n=1,059)의 수량예측모델을 제작한 결과 R2는 0.3101~0.6271 범위로 나타났다. 동일한 데이터셋에서 통계를 통한 수량예측모델의 R2는 0.2101로 기계학습을 통한 수량예측모델의 정확성이 더욱 높은 것으로 나타났다. 따라서 기계학습을 통한 수량예측모델은 WCM의 피해량 산정에 이용 가능한 것으로 판단하였다. 실험 3은 세계기상기구(WMO)의 방식을 준용한 이상기상에 따른 경기도 WCM의 피해량을 산정하기 위해 수행하였다. WCM 데이터(농협=1,219; 축과원=1,294; 축산=8; 초지=707; 학위논문=4; n=3,232) 중 DMY 상·하위 3%에 해당하는 데이터(n=204)는 이상값으로 판단하여 제거하였으며 수량예측모델은 정확성이 가장 높은 DeepCrossing(R2=0.5442, RMSE=0.1769) 통해 제작하였다. 이상기상은 WMO의 방식을 준용하여 설정하였으며 피해량은 정상기상 및 이상기상의 DMY 예측값 간 차이로 산정하였다. 정상기상에서 DMY 예측값은 15,003~17,517kg/ha 범위로 나타났으며 피해량은 이상기온, 이상강수량 및 이상풍속에서 각각 -68~89, -17~17 및 -112~121kg/ha 범위로 나타났다. 실험 결과 수량예측모델은 정확도를 높이기 위해 WCM 데이터의 이상값을 제거하지 않고 이상기상에 해당하는 기상 데이터를 반복 학습하여 제작할 필요가 있을 것으로 나타났다. 실험 4는 실험 3에서 나타난 문제점을 보완하여 정확도를 높인 수량예측모델로 WMO 방식을 준용한 이상기상에 따른 전국의 WCM(농협=1,219; 축과원=1,294; 축산=8; 초지=707; 학위논문=4; n=3,232)의 피해량을 산정하기 위해 수행하였다. 정상기상에서 DMY 예측값은 13,845~19,347kg/ha 범위로 나타났으며 피해량은 이상기온, 이상강수량 및 이상풍속에서 각각 -305~310, -54~89 및 -610~813kg/ha 범위로 나타났다. 최대 피해량은 813kg/ha로 타 연구에 비해 낮게 산정되었으며 이를 WCM의 피해량으로 볼 수 있는지 판단할 기준이 필요하였다. 따라서 피해량은 WMO의 방식 외에도 다른 방법을 통해 산정하고 이를 비교·분석할 필요가 있을 것으로 나타났다. 실험 5는 대표농도경로(RCP)를 이용한 이상기상에 따른 전국의 WCM(농협=1,219; 축과원=1,294; 축산=8; 초지=707; 학위논문=4; n=3,232) 피해량을 산정하기 위해 수행하였다. 이상기상에 따른 WCM의 피해량은 월평균기온 및 강수량에서 각각 -1,023~360 및 -17~2kg/ha 범위로 나타났으며 대부분의 이상기상에서 발생하지 않았고 오히려 DMY가 증가하였다. 이를 통해 RCP를 이용하여 설정한 이상기상은 피해량 산정보다 미래 기후에서 WCM의 재배 전망을 보는데 효과적일 것으로 사료된다. WMO 및 RCP를 통해 산정한 피해량은 QGIS를 이용하여 전자지도로 작성하였다. 전자지도는 피해량 데이터가 없어 공백인 지역이 존재하였는데 이를 보완하기 위해 종관기상대보다 많은 지점의 데이터를 제공하고 있는 방재기상대를 이용하여 피해량을 산정할 경우 더욱 정밀한 전자지도 작성이 가능할 것으로 사료된다. This study was conducted for the purpose of calculating of damage through the yield prediction model using machine learning, and mapping of digital map of whole crop maize(WCM) in accordance with abnormal climate. WCM data was collected from the results of Adaptability test of imported varieties of grasses and forage crops operated by National Agriculture Cooperative Federation(NACF; n=1,219), Research reports about livestock experiments operated by Korean National Livestock Research Institute(NIAS; n=1,294), Research papers in Korean Journal of Animal Science and Technology(KOJAS; n=8), Research papers in Journal of Korean Society of Grassland and Forage Science(KSGFS; n=707), and thesis(n=4), the sample size of the raw data was 3,232 to constructing yield prediction model. And Climate data was collected from Open MET Data Portal of the Korea Meteorological Administration. The damage of WCM in accordance with abnormal climate was calculated through five experiments. Experiment 1 was conducted to find for abnormal climate for WCM and to test the difference of dry matter yield(DMY) between the occurrence or not of abnormal climate. The abnormal climate for WCM was considered to abnormal low temperature, drought, heavy rain, tropical night, and abnormal wind speed. As a result of comparing DMY between the occurrence or not of abnormal low temperature in Suwon 19 variety(NACF=37; NIAS=211; and KSGFS=5; n=206), It was no significant difference(p>0.05). Since the statistics-based yield prediction model is inefficient because it takes a lot of time to select WCM data corresponding to abnormal climate, the yield prediction model needs to be constructed through machine learning that performs its own data selection process. Experiment 2 was conducted to examine whether the yield prediction model using machine learning was available for calculating the damage. As a result of constructing the yield prediction model of WCM(NACF; n=1,059) using the eight machine learning techniques that Linear, Factorization Model(FM), Deep, DeepCrossing, Wide&Deep, DeepFM, Compressed Internet Network(CIN), and xDeepFM, its R2 was the range of 0.3101~0.6271. In the same data, the R2 of the yield prediction model using statistics was 0.2101 which indicated machine learning was higher. Therefore, it was judged that the yield prediction model using machine learning could be used to calculate the damage of WCM. Experiment 3 was conducted to calculate the damage of WCM in Gyeonggi-do in accordance with abnormal climate using machine learning applying the World Meteorological Organization(WMO) method. Among WCM data(NACF=1,219; NIAS=1,294; KOJAS=8; KSGFS=707; Thesis=4; n=3,232), The data that the upper and lower 3% DMY determined as abnormal values(n=204) removed and the yield prediction model was constructed by using DeepCrossing(R2=0.5442, RMSE=0.1769) with the highest accuracy. The abnormal climate criteria applied the WMO method, and the damage was calculated as the difference of DMY predicted value between normal and abnormal climate. In normal climate, the DMY predicted value was range of 15,003~17,517kg/ha, and the damage at abnormal temperature, precipitation and wind speed was range of -68~89, -17~17 and -112~121kg/ha, respectively. As a result, It indicated that improving the accuracy of the yield prediction model needed repeatedly learning under including abnormal values of WCM data and abnormal climate data. Experiment 4 was conducted to calculate the damage of WCM(NACF=1,219; NIAS=1,294; KOJAS=8; KSGFS=707; Thesis=4; n=3,232) in Republic of Korea in accordance with abnormal climate applying the WMO method using improved accuracy of yield prediction model considering problems that presented in Experiment 3. In normal climate, the DMY predicted value was range of 13,845~19,347kg/ha, and the damage at abnormal temperature, abnormal precipitation and abnormal wind speed was range of -305~310, -54~89 and -610~813kg/ha, respectively. The maximum damage was 813kg/ha which calculated lower than other studies, and needed a standard that determines whether or not the damage of WCM. Therefore, it was indicated that calculating the damage needed to consider that other method and then comparison and analysis. Experiment 5 was conducted to calculate the damage of WCM(NACF=1,219; NIAS=1,294; KOJAS=8; KSGFS=707; Thesis=4; n=3,232) in accordance with abnormal climate using the Representative Concentration Pathways(RCP). The damage under abnormal climate at the monthly average temperature and precipitation was range of -1,023~360 and -17~2kg/ha, repectively. It did not occur the most abnormal climates but rather DMY increased. Through the abnormal climate using RCP was considered to be more effective in outlook cultivation outlook of WCM in the future climate than in calculating the damage. The calculated damage of WCM through WMO and RCP was generated by digital map using QGIS. The digital map had blank areas due to lack of damage data. To generate precise digital map of damage WCM, It can be thought if the damage was calculated using weather data from the automatic weather system which provided more data that all area than automated synoptic observing system.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼