http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
AI융합교육 및 교육데이터사이언스전공 특수대학원 석사과정 경험에 대한 내러티브 탐구
이준건 동국대학교 교육서비스과학대학원 2025 국내석사
이 연구는 AI융합교육 및 교육데이터사이언스전공 특수대학원 석사과정 학습 경험을 내러티브 탐구 방법을 통해 분석한 질적 연구이다. 이를 위해 서론에서 연구자의 자서전적 내러티브를 기술하였고, AI융합교육전공 3명과 교육데이터사이언스전공 2명을 대상으로 심층 면담을 진행하였으며 면담 자료는 내러티브 탐구 방법론에 따라 분석하였다. 연구 결과, 연구에 참여한 연구참여자들이 특수대학원에 진학한 이유로는 직무 전문성 강화와 새로운 도전에 대한 필요성이 가장 큰 요인으로 나타났다. 연구참여자들은 석사과정을 통해 여러 가지를 경험하였는데, 먼저 융합 교육과정에서 AI와 데이터사이언스를 학습하는 것에 성취감을 느끼는 한편 전공 정체성에 혼란을 겪기도 하였다. 또, 비대면 학습을 통해 시공간의 제약을 넘는 학습 경험을 하였으나 소속감 및 소통 부족으로 아쉬움을 느끼기도 하였다. 일부 연구참여자들은 특수대학원 졸업 후 배운 지식을 실제 직무에 활용하거나 커리어를 확장하기도 하였으나, 다른 연구참여자들은 실무 적용 과정에서 한계를 느꼈다고 답하였다. 결과적으로 연구참여자들은 직무 전문성을 증진하고자 특수대학원에 진학하였으며, 특히 데이터 중심적 사고 능력과 같은 문제 해결 능력을 길러 빠른 기술 변화에 대응하길 원한다는 사실을 알 수 있었다. 연구 결과를 바탕으로 AI융합교육 및 교육데이터사이언스전공의 개선방안을 제안하였다. 두 전공은 모두 문제 해결 능력 신장을 통해 전문성을 개발하고, 데이터와 관련 있는 교과목을 보강해야 한다. 또한 교육데이터의 대상 범위를 확대해야 하고, 비대면 학습 및 인적 네트워크 확장을 위해 학사를 운영할 필요가 있다. This study is a qualitative research that explores the learning experiences of master’s graduates in the special graduated schools in AI Convergence Education and Educational Data Science through a narrative inquiry method. In the introduction, the researcher's autobiographical narrative is provided, and in-depth interviews were conducted with three graduates who majored in AI Convergence Education and two who majored in Educational Data Science. The interview data were then analyzed using the narrative inquiry methodology. The findings revealed that the main motivations for participants enrolling in the special graduated schools were to strengthen their professional expertise and pursue new challenges. Throughout the master’s degree program, participants experienced a sense of accomplishment in engaging with AI and data science in an interdisciplinary curriculum, yet they also encountered confusion regarding their academic identity. They experienced a flexible learning environment through online formats that overcame traditional time and location constraints. However, they also expressed disappointment due to a lack of belonging and limited communication. Some participants applied the knowledge gained in the program to their professional work or pursued new challenges to advance their careers, while others faced limitations when attempting practical application. As a result, the study highlights that participants enrolled in the program to enhance their professional competencies and develop problem-solving skills, such as data-driven thinking, to adapt to rapid technological changes. Based on these findings, this study proposes recommendations for improving the AI Convergence Education and Educational Data Science programs. Both programs should focus on fostering problem-solving skills to advance expertise and reinforce courses related to data. Additionally, they should expand the scope of educational data, strengthen remote learning opportunities, and create avenues for networking to better support future students.
잡플래닛과 블라인드의 기업 리뷰 데이터를 활용한 직원의 만족 및 불만족 요인 비교
잡플래닛과 블라인드의 기업 리뷰 데이터를 활용한 직원의 만족 및 불만족 요인 비교 : 네트워크 분석과 감성분석 적용 단국대학교 대학원 데이터지식서비스공학과 데이터사이언스전공 배 은 별 지도교수: 이 기 광 직원의 이직은 기업의 인재 손실로 인한 지식 및 경험 상실, 생산성 감소, 비용 증가, 팀과 동료의 영향 등 기업 생존에 큰 손실을 미친다. 본 연구의 목적은 온라인 기업 리뷰 플랫폼 ‘잡플래닛’과 ‘블라인드’에서 현직자 가 남긴 기업 리뷰(기업 평점 및 기업의 장/단점 텍스트 리뷰 데이터)를 분 석하여 직원 이직에 영향을 미치는 직원 만족 및 불만족 요인을 탐색하고, 사용자 연령대가 다른 두 플랫폼의 직원 만족/불만족 요인을 비교하여 연령 대별로 직원의 이직을 방지하고 기업에 대한 직원 만족도를 높일 수 있는 해결책을 찾는 데 있다. 이를 위해 20대 사용자가 67.2%를 차지하는 온라인 기업 리뷰 플랫폼인 ‘잡플래닛’과 30-40대 사용자가 61.8%를 차지하는 온라인 기업 리뷰 플랫 폼인 ‘블라인드’에 현직자들이 대량으로 남긴 기업 리뷰(평점, 장/단점 텍 스트 데이터)를 크롤링하여 기업의 만족/불만족 요인을 각각 살펴보고, 두 플 랫폼의 사용자 간 직원 만족 및 불만족 요인을 네트워크 분석과 감성분석을 통해 비교 분석하려고 한다. 첫째, Paired T-Test를 활용하여 두 플랫폼 ‘잡 플래닛’과 ‘블라인드’ 기업 평점 데이터로 두 대응 집단의 차이점을 살 펴보았다. 둘째, 네트워크 분석을 통해 두 플랫폼별 직원 만족 및 불만족 요 인의 차이점을 살펴보았다. 셋째, 네이버 CLOVA Sentiment 감성분석을 통해 두 플랫폼 리뷰 감성 점수를 추출하여 기업 리뷰를 ‘매우 긍정, 긍정, 중립, 부정, 매우 부정’ 다섯 구간으로 나눠 감성 점수의 비율 차이를 살펴보았 다. 또, 두 플랫폼에서 ‘매우 긍정’과 ‘매우 부정’에 해당하는 기업 리 뷰를 추출하고, 네트워크 분석을 통해 직원 만족 및 불만족 요인에 차이가 있는지 살펴보았다. 넷째, 장/단점 네트워크 분석 결과, 두 플랫폼에서 공통 으로 언급한 직원 만족 및 불만족 요인의 감성에 차이가 있는지 감성분석을 통해 감성 점수를 추출하고, T-Test를 통해 기업 리뷰 감성 점수에 유의미한 차이가 있는지 살펴보았다. 기업 평점에 대한 Paired T-Test 분석 결과, '복지 및 급여, 사내 문화, 경 영진' 항목에서 블라인드 사용자들이 더 높은 평점을 부여한 것으로 나타났 다. 또한, 기업의 장단점에 대한 텍스트 리뷰 데이터를 활용한 네트워크 분 석을 통해 두 플랫폼 간 직원 만족 요인의 차이를 확인했다. 잡플래닛 사용 자들은 '동료, 사내 문화, 네임밸류'에 대한 만족도가 높았으며, 블라인드 사 용자들은 '기업 비전, 개인 커리어 향상, 가족 복지'에 더 만족하는 것으로 나타났다. 이어진 감성 분석에서는 두 플랫폼에서 공통적으로 언급된 직원의 만족 및 불만족 요인들의 감성 점수에 유의미한 차이가 있음을 발견했다. 특 히 '잡플래닛'에서는 '높은 급여와 워라밸'이라는 공통 장점에 대해 긍정적인 감성 점수가 더 높았고, 이는 사용자들의 높은 만족도를 시사한다. 반면 '블 라인드'에서는 '체계 없는 업무시스템, 사내 문화'라는 공통 단점에 대한 부 정적인 감성 점수가 더 높아, 사용자들의 불만족이 더 큰 것으로 나타났다. 마지막으로, 이 연구를 통해 기업 리뷰의 평점과 텍스트 데이터를 모두 활용 하여 얻은 결과를 토대로, 플랫폼 사용자별 효율적인 인적자원 관리에 대한 시사점을 논의하고, 연구의 한계점 및 추가 연구 방향을 제시하였다. 주제어: 온라인 기업 리뷰, 감성분석, 네트워크 분석, 텍스트 마이닝, 빅데이 터
Transformer-based Autoencoder와 FDD 손실함수를 활용한 전류 센서의 비지도 학습 기반 이상 탐지
박종호 국민대학교 일반대학원 2024 국내석사
전류 센서의 이상 탐지는 여러 산업에서 효율적인 운영을 유지하고 치명적인 고장을 피하기 위해 중요한 역할을 수행한다. 전류 센서를 통해 얻어진 데이터는 기계의 상태를 실시간으로 모니터링하고 이상 신호를 조기에 탐지하는 데 사용된다. 기존의 머신러닝 및 센서 처리 방법에 비해 딥 러닝 방법은 데이터의 복잡한 패턴을 학습하는 뛰어난 능력 을 제공하여 더 높은 적응력과 강력한 데이터 표현 학습 능력을 제공한다. 그러나, 딥 러닝을 활용한 전류 센서 이상 탐지 연구는 데이터 레이블링의 어려움, 높은 연산 비용, 모델의 일반화 문제 등 다양한 도전에 직면해 있다. 특히, 실무 환경에서 레이블이 있는 데이터를 획득하는 것이 어렵고 비용이 많이 들기 때문에 비지도 학습 방법의 필요성이 대두되고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 AI hub의 기계 시설물 고장 예지 센서의 전류 센서 데이터를 활용하여 Transformer 기반의 Autoencoder를 활용한 전류 센서 데이터의 비지도 학습 이상 탐지 기법을 제안한다. 제안된 방법은 전류 센서 데이터의 시계열 특성을 효과적으로 학습하여 정상 상태와 비정상 상태를 구분할 수 있는 성능을 향상한다. 특히, 본 연구에서는 기존의 임계값 설정 방식에서 재구성 오차 (Reconstruction error)의 데이터 간의 거리와 각도 차이를 종합적으로 고려한 Fused Directional Distance(FDD) 손실 함수를 통해 임계값을 설정하였다. FDD 손실 함수는 노이즈의 영향을 효과적으로 억제하고 모델의 강건성을 향상하는 데 도움을 준다. 실험 결과, 제안된 모델은 기존의 방법들에 비해 뛰어난 이상 탐지 성능을 보였으며, 다양한 산업 환경에서의 적용 가능성을 확인하였다. 특히, 비지도 학습 기법을 통해 레이 블이 없는 데이터로도 효과적인 이상 탐지를 수행할 수 있음을 입증하였다. 본 연구는 전류 센서 데이터를 활용한 비지도 학습 이상 탐지 분야에 새로운 접근법을 제시하며, 향후 관련 연구의 토대를 제공한다. 이 연구는 또한 전류 센서 데이터의 활용 범위를 넓히고, 산업 현장에서의 실질적인 문제 해결에 기여할 수 있을 것으로 기대된다. Anomaly detection in current sensors plays a crucial role in maintaining efficient operations and preventing catastrophic failures across various industries. Data obtained from current sensors is used to monitor the condition of machinery in real-time and to detect anomalies at an early stage. Compared to traditional machine learning and sensor processing methods, deep learning techniques offer superior adaptability and powerful data representation learning capabilities by learning complex patterns in the data. However, research on anomaly detection using deep learning for current sensors faces several challenges, including the difficulty of data labeling, high computational costs, and model generalization issues. In particular, obtaining labeled data in practical environments is often challenging and costly, highlighting the need for unsupervised learning methods. To address these issues, this paper proposes an unsupervised anomaly detection method for current sensor data using a Transformer-based Autoencoder, leveraging current sensor data from AI Hub's machinery facility failure prediction sensors. The proposed method effectively learns the temporal characteristics of current sensor data, improving the ability to distinguish between normal and abnormal states. Specifically, this study introduces the Fused Directional Distance (FDD) loss function, which considers both the distance and angle differences between data points instead of the commonly used reconstruction error for threshold setting. The FDD loss function effectively suppresses the influence of noise and enhances the robustness of the model. Experimental results demonstrate that the proposed model achieves superior anomaly detection performance compared to existing methods and confirms its applicability in various industrial environments. Notably, the unsupervised learning approach enables effective anomaly detection even with unlabeled data, showcasing the method's practicality. This study presents a novel approach to unsupervised anomaly detection using current sensor data, providing a foundation for future research in this field. Additionally, this research is expected to expand the application scope of current sensor data and contribute to solving practical problems in industrial settings
모바일 웹 기반의 데이터 정보 시각화에 대한 연구 : 공공 데이터 기반으로
스마트폰 기술의 발전과 보급의 대중화는 모바일을 통해 필요한 정보를 찾는 이용자들이 증가하고 있다. 과학기술정보통신부의 2018 인터넷 이용 실태조사에 따르면 인터넷 접속기기로 스마트폰이 94.3%로 비중이 매우 높다. 이용자들이 증가함에 따라 정부부처에서도 모바일 웹 환경에서 정책 또는 관련 데이터들의 정보를 시각화하여 이용자에게 전달하는 추세이다. 정부부처 업무수행 및 홍보활동 중 정책 홍보활동에 대한 조사결과에 따르면 정부의 정책 정보나 홍보물을 접하는 경로가 스마트폰이 60%로 가장 높고 TV 55%, 컴퓨터 42% 순으로 나타났다. 스마트폰으로의 정보의 집중 양상이 유지되는 등 매체의 영향력이 압도적으로 유지되고 있다. 이에 따라 모바일로 정보를 습득하는 사용자가 많음으로써 효과적인 정보의 전달은 중요해지고, 정보의 의미를 정확하고 가장 빠르게 전달하는 효과적인 방법은 무의식적으로도 즉각적인 인지가 가능한 이미지 혹은 그림으로 제공하는 방법이다. 정보를 시각화하여 전달하는 정보와 사용자 간의 상호작용이 원활한 인포그래픽이 주목받고 있다. 이에 본 연구에서 유형 별 인포그래픽 대상으로 연구를 진행하였다. 본 연구는 선행연구 조사를 통해 공공데이터의 정보 시각화 역할 및 필요성을 파악하고, 효과적인 정보의 이해와 전달을 위한 정보 시각화의 표현 요소와 정보 시각화의 인지부하 실험도구를 도출하고, 사례조사 및 분석 통해 공공데이터의 인포그래픽 유형 별 사례를 선정하고, 공공데이터의 인포그래픽 유형 별 정보 시각화의 표현 사례를 분석하였다. 공공데이터의 효과적 전달을 위한 시각화에 있어 중요하게 고려해야 할 요인을 연구하기 위해 20~30대 청년세대를 대상으로 설문조사를 실시하였고, 연구목적을 달성하기 위해 설문조사 결과를 바탕으로 IPA를 수행하였다. 또한 모바일 웹 환경에서 인포그래픽의 유형 별 정보 시각화 정도가 공공데이터의 효과적인 전달을 목적으로 하는 학습과 인지에 어떠한 영향을 미치는지 그 결과를 도출하기 위해 인지부하 설문문항을 활용하여 실험조사를 진행하여 설문조사를 바탕으로 결과를 분석하였다. 본 연구는 인지부하를 고려한 공공데이터의 효과적인 정보 전달을 위한 정보시각화에 주목하였다. 이를 위해 공공데이터 기반의 인포그래픽을 유형 별 수집 및 분석하였다. 수집된 자료는 유형에 의해 정리된 후, 정보시각화 표현 기준 바탕으로 분석 되었다. 따라서 본 연구의 결과는 다음과 같다. 첫째, 공공데이터의 효과적인 전달을 위해 정보 시각화에서 명확한 데이터를 통해 식별이 용이한 화면의 구성이 우선적으로 필요하다. 적당한 그래픽 요소는 유형에 따라 활용하면 사용자가 더욱 쉽게 정보를 습득하고 이해할 수 있다. 공공데이터의 정보시각화는 인포그래픽으로 표현함으로써 텍스트로 이미지 등 정보유형에 따라 다양하게 표시할 수 있다. 뿐만 아니라 배경 이미지를 잘 활용하면 효과적인 정보 전달과 사용자의 흥미를 유발할 수 있다. 둘째, 공공데이터의 효과적인 전달을 위해 정보 시각화에서 유용한 콘텐츠의 제공이 필요하다. 공공데이터는 정부 또는 공공기관이 보유하는 있는 데이터로서 사용자의 전반적인 생활 편의성 확보와 이를 기반으로 한 정책참여 등 다양한 기능을 제공하고 있다. 따라서 교통, 기상, 의료, 경제, 환경, 여가 등에서 사용자의 일상생활에 직접적으로 관련이 될 수 있는 콘텐츠의 시각적 위계 설정과 시간적, 공간적, 분야별 변화를 나타냄으로써 현재의 상황을 용이하게 파악할 수 있는 유용한 콘텐츠 등의 제공이 필요하다. 셋째, 공공데이터의 효과적인 전달에서 필요한 사용자의 신체적, 정신적 부담을 줄이고, 데이터의 이해도를 증가하기 위해서는 정보에 대한 흥미유발과 메타포를 형성할 수 있는 정보의 시각화가 필요하다. 즉, 정보에 대한 이해를 돕기 위해 은유 또는 비유에 대한 시각화를 통해 사용자의 흥미를 유발할 수 있어야 한다. 이를 위해 주로 활용할 수 있는 인포그래픽을 통한 정보의 시각화 방안은 캐릭터 등의 만화적 요소를 활용하거나 일상생활과 관련된 행동, 심리 등을 활용한 정보, 두 가지 이상의 정보 유형이나 개념을 비교함으로써 사용자의 이해를 돕는 것이 필요하다. 넷째, 공공데이터의 효과적인 전달을 위해 사용자의 신체적, 정신적 측면에서 인지 부하를 감소시킬 수 있는 정보의 시각화가 필요하다. 이를 위해 일상생활이나 어떠한 행동이나 직업, 심리 등과 관련된 흥미성 자료를 기반으로 한 정보를 중심으로 캐릭터 등의 만화적 요소를 활용하여 정보를 전달하여 신체적, 정신적 측면에서 피곤하지 않고 직관적으로 흥미성을 주는 시각화가 필요하다. 다섯째, 공공데이터의 효과적인 전달을 위해 사용자의 이해가 용이한 내용 및 구성을 위한 정보의 시각화가 필요하다. 이를 위해 공공데이터에 대해 시간적 전개, 경로의 전개를 통해 전반적인 사항을 포괄적으로 이해할 수 있는 스토리텔링 방식의 정보 시각화가 필요하다. 또한 제품 또는 개념을 두 가지 이상 비교하는 방식인 비교분석형의 정보 시각화가 필요하다. As the development and popularization of smartphone technology become popular, users are looking for information through mobile. According to a survey by the Ministry of Science and Technology (MIC) on Internet usage by 2018, smartphones accounted for 94.3% of the total number of Internet access devices. As the number of users increases, government ministries also tend to visualize policy and related data in the mobile web environment and deliver it to users. According to the results of public relations activities conducted by government ministries and agencies, 60% of the respondents had access to government policy information or publicity materials, followed by 55% of TVs and 42% of computers. The influence of the media on smartphones has remained intact. As a result, there are many users who acquire information through mobile, so that effective information transfer becomes important, and an effective method of conveying the meaning of information accurately and fast is a method of providing images or pictures that can be unconsciously recognized immediately. Infographics, which are easy to interact with information and information that visualize and deliver information, are attracting attention. In this study, the study was carried out as an infographic for each type. The purpose of this study is to identify the role and necessity of information visualization of public data through previous studies and to derive cognitive load experiment tools of information visualization and information visualization for effective understanding and transmission of information, The case of infographic type of public data was selected and the case of information visualization by infographic type of public data was analyzed. In order to investigate the factors that should be considered important in visualization for effective transmission of public data, a questionnaire survey was conducted for young people in their 20s and 30s, and an IPA was conducted based on the survey results to achieve the research purpose . In addition, in order to derive the effect of information visualization level of infographic in mobile web environment on learning and cognition that is aimed at effective transmission of public data, we conducted experiment survey using cognitive load questionnaire The results were analyzed based on the survey. This study focuses on information visualization for effective information transmission of public data considering cognitive load. For this purpose, we collected and analyzed infographic of public data based on type. The collected data were analyzed by type and then based on information visualization expression standard. The results of this study are as follows. First, in order to efficiently transmit public data, it is necessary to construct a screen that can be easily identified through clear data in information visualization. Proper graphical elements can be more easily learned and understood by users if they are based on type. Information visualization of public data can be displayed variously according to the type of information such as text and images by representing it in infographic form. In addition, the use of background images can lead to effective information transmission and user interest. Second, it is necessary to provide useful contents in information visualization to efficiently transmit public data. Public data is the data held by the government or public institutions and provides various functions such as ensuring the user's overall life convenience and participating in policies based on the data. Therefore, visual hierarchy of contents that can be directly related to user's daily life in transportation, weather, medical, economic, environment, leisure, etc., and time, space, It is necessary to provide contents and the like. Third, in order to reduce the physical and mental burdens of users in order to efficiently transmit public data and to increase the understanding of data, it is necessary to visualize information that can induce interest in information and form a metaphor. In other words, to help understand the information, it is necessary to visualize the metaphor or metaphor to induce the user's interest. The information visualization method that can be used mainly for this purpose is to utilize comic elements such as characters, information using behavior related to daily life, psychological information, comparing two types of information or concepts, It is necessary to help. Fourth, in order to efficiently transmit public data, it is necessary to visualize information that can reduce the cognitive load in the physical and mental aspects of users. To do this, visualization is used to convey information by using comic elements such as characters, focusing on information based on interesting data related to everyday life or any behavior, occupation, psychology, etc., so that it is not tired and intuitively interesting in physical and mental aspects. Fifth, in order to efficiently transmit public data, it is necessary to visualize information for user's easy understanding and composition. For this, information visualization of storytelling method is needed to comprehensively understand the overall contents through temporal development and development of public data. In addition, information visualization of comparative analysis type which is a method of comparing two or more products or concepts is needed. visualization for effective information transmission of public data considering cognitive load. To do this, we collected and analyzed infographic of public data base. The collected data were analyzed by type and then based on information visualization expression standard. The results of this study are as follows. First, in the first half, the result that the visualization factor of information is important about clarity, contents, screen composition, and interest inducing factor is derived, so that it is based on information that is interesting to the user, In order to be easy to understand and use, it is necessary to provide an easy-to-understand format using visualization to make it easier to communicate to general users.
영상과 텍스트 정보의 결합을 통한 가짜뉴스 탐지 연구 : 유튜브를 중심으로
장윤호 국민대학교 일반대학원 2021 국내석사
최근 소셜미디어(Social Media)를 활용한 뉴스 소비가 급격하게 증가하고 있다. 소셜미디어를 활용한 뉴스 소비는 개인의 기호에 보다 적합한 뉴스를 보다 쉽게 파악할 수 있을 뿐 아니라 이를 다른 사람과 쉽게 공유할 수는 장점이 있는 것도 사실이다. 그러나 소셜미디어를 통한 뉴스의 소비는 출처가 불명의 잘못된 정보에 기반한 가짜뉴스의 생산과 확산이라는 위험 또한 증대시키고 있다. 가짜뉴스로 인한 사회적 혼란과 경제적 비용으로 인해 지금까지 가짜뉴스의 탐지와 관련한 다양한 연구가 진행되어 왔다. 그러나 이러한 기존 연구는 소셜미디어의 활용이 유튜브와 같은 영상 기반으로 빠르게 전환되고 있음에도 불구하고 뉴스나 소셜미디어 상의 텍스트를 기반으로 이루어져 왔다는 점에서 한계가 있다. 이러한 기존 연구의 한계를 극복하기 위해 본 연구에서는 유튜브를 기반으로 영상 정보와 텍스트 정보를 함께 활용함으로써 가짜뉴스 탐지를 위한 성능을 개선하고자 하였다. 본 연구의 목적 달성을 위해 ‘SNU Factcheck’와 유튜브의 관련 영상으로부터 수집된 데이터를 기반으로 5가지 분류 모델을 활용하여 1) 텍스트 데이터 2) 메타 데이터 3) 표정 점수 4)텍스트 데이터 + 메타데이터 5) 텍스트 데이터 + 표정 점수 6) 메타 데이터 + 표정 점수 7) 텍스트 데이터 + 메타 데이터 + 표정 점수의 7가지 특성(feature) 조합을 비교하였다. 분석 결과 영상 데이터를 통해 확보한 표정 점수가 가짜뉴스 탐지 성능을 일정 정도 개선하고 있음을 확인할 수 있었다. 본 연구는 기존 연구와 달리 최근 뉴스 소비의 도구로 사용이 증가하고 있는 영상 데이터를 활용함으로써 텍스트 위주의 기존 가짜뉴스 탐지 연구의 폭을 넓혔다는 점에서 그 의의가 있다. Recently, news consumption using social media is rapidly increasing. It is true that news consumption using social media not only makes it easier to identify news that is more appropriate to individual tastes, but also has the advantage of sharing it with others easily. However, the consumption of news through social media also increases the risk of producing and spreading fake news based on misinformation from unknown sources. Various studies have been conducted on the detection of fake news so far due to social confusion and economic costs caused by fake news. However, these existing studies have limitations in that they have been based on text on news and SNS(Social Networking Service), even though the use of social media is rapidly shifting to video-based social media such as YouTube. To overcome the limitations of these existing studies, this work aims to improve performance for detecting fake news by using video information and text information together based on YouTube. To achieve the objectives of this study, we compare a combination of 1) text data 2) metadata 3) facial score 4) text data + facial score 6) metadata + facial score 7) text data + meta data + 7 features of facial score, using data collected from relevant images on 'SNU Factcheck' and YouTube. As a result of the analysis, it was confirmed that facial expression scores obtained through video data were improving the performance of detecting fake news by some degree. Unlike existing studies, this study is significant in that it has expanded the scope of existing text-oriented fake news detection research by utilizing video data, which has been increasing in use as a tool for news consumption recently.
수경재배 환경에서 머신러닝 기반 불량 모종 진단을 위한 증강 데이터 활용 연구
이규진 국민대학교 일반대학원 2023 국내박사
스마트농업 분야에서 빅데이터 분석 기술 및 인공지능을 활용한 연구의 필요성이 지속적으로 요구되고 있다. 인공지능 연구를 위해서는 대용량의 고품질 데이터 확보 및 라벨링이 필수적이나, 수경재배 영역에서의 데이터가 상대적으로 부족한 현황이다. 이에 따라 본 논문에서는, 수경재배 환경에서 불량 모종 진단을 위해 수집된 항암쌈채 이미지 데이터의 인공지능 모형 개발 가능성을 확인한 후 이를 생성형 인공지능으로 증강한 데이터의 활용 가능성을 확인하는 연구를 진행하였다. 먼저 수집 및 전문가 라벨링을 마친 원본 항암쌈채 생육 모종 데이터를 대표적인 분류 모델인 ResNet, DenseNet, MobileNetV1, SENet, EfficientNet의 5개 백본 분류 모형에 학습시켜 불량 모종 진단을 진행하였다. 가장 성능이 높게 측정된 모형은 DenseNet으로 92.9%의 정확도이다. 학습 데이터의 양이 적고 클래스간 불균형이 존재함에도 높은 성능을 나타내어 확보된 항암쌈채 모종의 원본 데이터가 머신러닝 학습에 적합한 품질을 가진 것을 확인하였다. 이후 DCGAN과 Stable Diffusion의 생성형 인공지능으로 원본 데이터를 증강 후 전문가 선별 작업을 통해 원본과 비슷한 양의 불량 모종 클래스별 데이터셋을 확보하였다. 확보한 증강 데이터에 대한 FID값 측정 후, 원본 데이터로 학습된 불량 모종 진단 모형을 이용하여 증강 데이터를 진단하였다. Stable Diffusion 증강 데이터는 최대 79.8%의 정확도로 분류되었고, 잎의 색상과 형태, 생육 상태 구분 등 모종 불량 유형별 특성을 반영하고 있는 데이터가 다수 존재함을 확인하였다. 이후 증강 데이터의 머신러닝 활용 가능성 확인을 위해, 백본 분류 모형을 증강 데이터만으로 학습 후 원본에 대한 분류정확도 측정 실험을 진행하고, 이후 증강 데이터의 추가 건수별 분류정확도 측정을 통해 증강 데이터가 분류 모델의 정확도에 미치는 영향을 파악하였다. 본 연구를 통해, 수집된 항암쌈채 생육 데이터를 활용한 머신러닝 분류 모델 개발 가능성뿐 아니라, 적은 양의 원본 데이터도 생성형 인공지능을 이용한 증강 데이터 활용을 통해 머신러닝 분류 모델 개발 및 성능 향상이 가능하다는 것을 확인하였다. 또한 본 연구에서 확보된 항암쌈채 모종 이미지의 증강 데이터 공개로 수경재배 식물 관련 인공지능 개발 연구에 기여할 수 있을 것으로 기대한다. The need for big data analysis and artificial intelligence for smart agriculture is continuously requested. It is essential to collect and label large amounts of quality data for artificial intelligence research, However, there is a relative scarcity of data in the area of hydroponic cultivation. Consequently, this paper investigates the feasibility of developing an artificial intelligence model using collected images of anti-cancer leafy greens in a hydroponic environment for diagnosing unhealthy seedlings, followed by examining the potential of using augmented data by generative AI. Initially, the original anti-cancer leaf lettuce data set, which has been collected and labeled by experts, was trained by 5 Backbone classification models (ResNet, DenseNet, MobileNetV1, SENet, and EfficientNet) to diagnose unhealthy seedlings. The model with the highest performance was DenseNet, achieving an accuracy of 92.9%. Despite the small amount of original data set and imbalance between classes, it showed high performance. It means that obtained 14th day anti-cancer leaf lettuce data set has enough quality for machine learning. After DCGAN and Stable diffusion augmentation, a similar quantity of data set was secured through expert selection. After FID calculation, the augmented data were diagnosed using the model trained with the original data. The Stable Diffusion augmented data were classified with an accuracy of up to 79.8%, and it was observed that many of these data reflected the distinct characteristics of different types of unhealthy seedlings, including leaf color, shape, and growth status. To assess the potential for developing and utilizing machine learning models with augmented data, the study initially involved training backbone classification models with augmented data only. This was followed by experiments to measure the accuracy of diagnosing defects in the original data. Subsequently, the study evaluated the accuracy of unhealthy seedling diagnosis with different quantities of augmented data to understand the impact of augmented data on the accuracy of the classification model. Through this research, it was established that not only is the development of machine learning classification models feasible using the collected anti-cancer leaf lettuce’s growth data, but also that the use of a small amount of original data can lead to the development and enhancement of machine learning classification models with augmented data by generative AI, Additionally, the public release of the augmented image data of anti-cancer leaf lettuce from this study is expected to contribute to artificial intelligence development research in the field of hydroponically cultivated industry domain.
훈련 데이터의 오염이 딥러닝 기반 언어모델의 미세조정에 미치는 영향 분석 : 관광분야 텍스트 생성 태스크를 중심으로
Deep learning have recently begun to be applied to natural language processing and generation. As a result, artificial intelligence's natural language generation has advanced significantly. In addition, natural language generation is receiving great attention due to the surprising natural language processing ability of GPT based ChatGPT released by OpenAI. However, Because of hallucinations of natural language generation, users are confused. In the case of GPT's natural language generation task, side effects such as hallucinations occur because it does not perform an information-oriented task. Therefore, it is becoming more important for users not to unconditionally trust text data created through natural language generation, but to distinguish it from facts. In addition, in the case of pre-trained models, there is a possibility of learning with intentionally manipulated data during transfer learning such as fine-tuning. So a method to detect this must be prepared. The purpose of this paper is to find out how contamination of the training data used in the fine-tuning of GPT, a deep learning-based language model for natural language generation(NLG), affects the output. In this experiment, fine-tuning was carried out using contaminated data created by intentionally contaminating data. Using the language model created through fine-tuning, the result was output as a task for generating domain text. In addition, the probability distribution of domain words was analyzed with KL-divergence. As a result, it was confirmed that there was little difference in the word appearance probability distribution in the case of contamination below a certain level, but there was a large difference in the probability distribution in the case of high level contamination. 최근 인공지능의 딥러닝 기술이 자연어처리 및 생성 분야에 적용되기 시작하면서 인공지능의 자연어생성 분야가 크게 발전했다. 더불어 OpenAI에서 공개한 GPT기반의 ChatGPT의 놀라운 자연어 처리 능력으로 자연어생성 분야가 큰 관심을 받고 있다. 하지만 자연어생성 분야에서 나타나는 환각(hallucination)으로 인해 사용자에게 혼란을 주고 있다. GPT의 자연어 생성의 경우 정보 중심 태스크를 수행하는 것이 아닌 사람이 작성한 글과 구별하기 힘든 글을 생성하는 태스크를 수행하는 것이기 때문에 환각과 같은 부작용이 발생하게 되는 것이다. 따라서 사용자는 자연어생성을 통해 만들어진 텍스트 데이터를 무조건적으로 신뢰하는 것이 아니라 사실과 구분해내는 능력의 중요성이 중요해지고 있다. 또한 사전학습 모델의 경우 미세조정 등의 전이학습 시 의도적으로 조작된 데이터로 학습을 진행할 가능성이 있어 이를 탐지할 수 있는 방안이 마련되어야 한다. 본 논문은 자연어 생성(NLG)을 위한 딥러닝 기반 언어 모델인 GPT(Generative Pre-trained Transformer)의 미세조정 시 사용되는 훈련 데이터의 오염에 따라 출력에 어떤 영향을 주는지 알아내는 것을 목적으로 한다. 이에 실험에는 웹상에서 수집한 데이터를 의도적으로 오염시켜 생성한 오염된 데이터를 이용해 미세조정을 진행했다. 미세조정을 통해 생성된 언어 모델을 이용해 도메인 텍스트 생성을 태스크로 결과를 출력했다. 그 결과 오염의 정도와 비례하게 출력 결과에 오염 단어가 나타났지만, 출현 빈도는 3위 내를 차지하여 영향이 크다는 것을 확인했다. 또한 도메인 단어의 출현 확률 분포를 KL-divergence를 통해 그 차이를 분석했다. 그 결과 어느 수준 이하의 오염의 경우에는 단어 출현 확률 분포에 차이가 거의 없었지만 고수준 오염의 경우에는 확률 분포가 큰 차이가 있는 것을 확인할 수 있었다.
정보전달을 위한 데이터시각화의 사용자경험 연구 : 스마트홈 실내공기 서비스를 중심으로
사물의 인터랙션이 실시간으로 이루어지는 초연결 사회가 도래함에 따라, 방대한 데이터가 거의 전 분야에서 실시간으로 수집되고 있다. 데이터는 기하급수적으로 증가하고 있으나, 그 중 가치 있는 데이터를 추출해 의미 있는 데이터를 적극적으로 활용하는 전달방법에 대한 연구는 아직은 전문가 위주로 이루어져 있다고 할 수 있어 비전문가인 일반 사용자들을 위한 연구가 필요하다. 본 연구에서는 데이터 시각화 요소를 활용할 경우와 정보 내용만 전달할 경우 정보인지도가 높은 쪽을 밝히고, 매체풍요도 이론에 따라 색상이나 이미지를 사용했을 경우와 그렇지 않을 경우의 차이를 도출하고자 실험을 진행했다. 그 결과 데이터 시각화 요소의 활용이 사용자의 태스크 실행의도에 미치는 영향은 시각화 요소를 활용해 정보 전달을 할 경우가 그렇지 않을 경우보다 더 긍정적으로 나타남을 확인하였다. 추가로 정보인지도가 높을 수록 태스크 실행의도에 긍정적인 영향을 미치는 것으로 보아 향후 보다 많은 사용자들이 불편함 없이 가치있는 데이터를 활용할 수 있도록 다방면의 연구가 필요하다고 제안하는 바이다. Among the smart home service, fine dust and indoor air quality data closely related to our daily life. I conducted a research to determine whether the presence of data visualization elements in information delivery has a noticeable effect on information awareness and execution intent for a given task. For this, according to the medium richness theory, which is the basis of the study, and through the preliminary studies, the image and color of the data visualization elements were set as independent variables and the fine dust sensitivity which can affect the results were set as the control variables. After that, subjects were divided into 4 groups according to each independent variable and examined the degree of information awareness and the intention to perform 'ventilation' task. As a result, it is confirmed that the use of data visualization elements affect user 's intention of task execution more positively than without. Fortunately, data analysts field and global corporations are leading the way by researching and presenting 'accessibility' guides on IT technologies such as web and mobile, to build an improved user experience for everyone and to change overall social awareness. As a result, the problem of visualization of data and information is expected to be solved gradually, but it is still focused on 'visualization' and this is also one of the biggest limitations of this study. However, I hope that this study will contribute to bring more interests of given subject and therefore everyone should be able to freely use data and information regardless of their environment and physical condition.
지도학습 및 비지도학습 기반 모바일뱅킹 이상거래탐지에 관한 연구
유충식 경북대학교 데이터사이언스대학원 2025 국내석사
In addition to the digital transformation of the financial sector that has been in full swing since the late 2010s, non-face-to-face transactions in the financial sector have accelerated even more since COVID-19. However, along with the acceleration of digital transformation, financial crime techniques are also becoming increasingly sophisticated and sophisticated. In this paper, I conducted research on abnormal financial transaction detection to prevent such electronic financial accidents and telecommunication financial fraud. Various studies on financial anomaly detection have been conducted from early rule-based studies to recent deep learning, but most of them have utilized kaggle credit card data. Therefore, this study aimed to measure the performance of supervised learning and unsupervised learning that have been studied so far by utilizing the latest mobile banking transaction logs of domestic general bank. In particular, in this study, in order to improve the performance of the abnormal transaction detection system, data was preprocessed according to SMOTE-based oversampling and feature importance using XAI-based SHAP, and then the performance was measured. The results of the fraud detection experiment based on supervised learning showed excellent performance in all evaluation indices such as AUC-ROC, F1-Score, and Accuracy. In particular, the performance of mobile banking data was generally better than that of kaggle credit card data in terms of F1-Score. In fraud detection based on unsupervised learning, VAE showed the best performance. VAE showed excellent performance with an AUC-ROC of over 98% and an F1-Score of over 70%. In VAE, mobile banking data showed lower accuracy than credit card data, but F1-Score and AUC-ROC performance were very good. Unsupervised learning-based fraud detection using VAE can be very useful for new types of fraud detection because it measures performance with decoded data after learning without labels. Finally, supervised and unsupervised learning tests based on TabNet, which is specialized for tabular data, were conducted. TabNet showed excellent performance in supervised and unsupervised learning for both credit card and mobile banking data. In particular, in the unsupervised learning of mobile banking data, it showed high accuracy compared to the existing unsupervised learning, and both AUC-ROC and F1-Score showed excellent performance. In this paper, we intensively experimented to see whether supervised learning and unsupervised learning, which were tested on Kaggle credit card data, can also perform well on data using mobile banking transaction logs from domestic general banks. The experimental results confirmed that the results studied using Kaggle credit card data can also be achieved on mobile banking data from domestic banks. The optimal model for real-time anomaly detection of mobile banking transactions was found to be VAE based on unsupervised learning. Since unsupervised learning is suitable for new types of anomaly detection, it can be said that anomaly detection systems using VAE have a very high potential for practical use. Meanwhile, supervised learning and TabNet models are also expected to be very useful if applied according to their respective characteristics. 2010년대 후반부터 본격화된 금융권의 디지털 전환(Digital Transformation)과 더불어 코로나19 이후 금융권의 비대면 거래는 더욱 가속화하고 있다. 그러나 디지털 전환의 가속화와 더불어 금융 범죄 수법 또한 갈수록 교묘하고 치밀해져 가고 있다. 본 논문에서는 이러한 전자금융 사고와 전기통신 금융 사기 예방을 위하여 이상 금융 거래 탐지에 관한 연구를 수행하였다. 금융 이상 탐지에 대한 연구는 초기 규칙 기반 연구로부터 최근의 딥러닝에 이르기까지 다양한 연구가 진행되어 왔으나 대부분 kaggle 신용카드 데이터를 활용한 연구가 많았다. 이에 본 연구에서는 최신의 국내 일반 은행의 모바일뱅킹 거래로그를 활용하여 그간 연구된 지도학습 및 비지도학습의 성능을 측정하고자 하였다. 특히 본 연구에서는 이상거래탐지시스템의 특성상 성능 향상을 위해 SMOTE 기반의 oversamling과 XAI 기반의 SHAP를 이용한 특성중요도에 따라 데이터를 전처리 후 성과를 측정하였다. 지도학습 기반의 이상탐지 실험 결과 AUC-ROC, F1-Score, Accuracy 등 모든 평가지표에서 우수한 성능을 나타냈으며, 특히 F1-Score에서는 신용카드 데이터보다 전반적으로 성능이 우수했다. 비지도학습 기반의 이상 탐지에서는 VAE에서 가장 우수한 성능을 나타냈다. VAE는 98%를 넘는 AUC-ROC와 70% 이상의 F1-Score를 기록하여 매우 우수한 성능을 나타냈다. VAE에서는 모바일뱅킹 데이터가 Accuracy 측면에서는 신용카드 데이터 대비 낮게 나타났으나, F1-Score 및 AUC-ROC 성능이 매우 우수하게 나타났다. VAE를 활용한 비지도학습 기반의 이상 탐지는 Label 없이 학습 후 복원 데이터로 성능을 측정하므로 새로운 유형의 이상 탐지에 매우 유용하게 활용할 수 있다. 마지막으로 Tabular에 특화된 TabNet기반의 지도 및 비지도 학습 실험을 진행하였다. TabNet은 신용카드와 모바일뱅킹 데이터 모두 지도학습과 비지도학습에서 우수한 성능을 나타냈다. 특히 모바일뱅킹 데이터의 비지도 학습에서는 기존 비지도 기반 학습 대비 높은 Accuracy를 나타냈으며, AUC-ROC 및 F1-Score 모두 우수한 성능을 나타냈다. 본 논문에서는 Kaggle 신용카드 데이터에서 실험한 지도학습과 비지도학습이 국내 일반은행의 모바일뱅킹 거래로그를 이용한 데이터에서도 성과를 나타내는지를 집중적으로 실험하였다. 실험 결과 국내은행의 모바일뱅킹 데이터에서도 Kaggle 신용카드 데이터를 활용하여 연구되었던 성과를 낼 수 있음을 확인하였다. 그리고, 모바일뱅킹 거래의 실시간 이상탐지룰 위한 최적의 모형은 비지도학습 기반의 VAE로 나타났다. 비지도학습은 새로운 유형의 이상 탐지에 적합하므로 VAE를 활용한 이상탐지시스템은 실무에서 활용 가능성이 매우 높다고 할 수 있다. 한편, 지도 학습 및 TabNet 모형 또한 각각의 특징에 맞게 적용한다면 매우 유용하게 활용할 수 있을 것으로 생각된다.
시민 참여형 공공문제해결과 데이터 퍼실리테이터의 역할 연구/ : 서울시 디자인거버넌스를 중심으로
1948년 대한민국 정부가 수립되고 우리나라는 세계 11위의 경제 대국으로 성장하였다. 대략 70년만에 유례 없는 속도로 경제 성장을 이뤄내면서 대외적으로는 선진 국가 사례로 소개받고 있다. 그만큼 대한민국은 짧은 시간 내에 세계화, 정보화, 다원화를 급격하게 겪고 이뤄내면서 많은 변화의 소용돌이에 노출되고 겪고 있다. 하지만 언론이나 주변에서 매일 보고 소개받듯이 사회문제로 진통을 앓고 있는 것이 현실이다. 사회 문제 해결을 위해서는 정부와 시민들의 노력으로 진단하고 해결을 해야한다. 이럴 때, 문제 해결 능력이 필요한데, 세계경제포럼 평가(2016년 기준)에 따르면 한국 성인의 ‘문제해결 역량’은 OECD 평균 보다 낮은 12위를 기록했다. 문제를 해결해야할 주체인 성인들이 문제해결의 방법을 잘 모르고 있다고 평가되는 것이다. 최근 공공문제 해결을 위하여 많은 투자와 노력이 시행되고 있다. 서울시는 공공문제 해결을 위해 100억 단위에 투자를 하고 있고, 많은 공모전과 대회를 열어 공공문제 해결에 노력을 기울이고 있다. 서울시 공무원들이 직접 문제해결을 주도하는 경우도 있고, 시민들이 직접 참여하여 사회 문제 해결을 진행하는 프로젝트나 해커톤이 최근 들어 개최되고 진행되고 있다. 하지만 사회와 대학 교육에는 아직 문제해결 교육에 대한 부분이 활성화가 되어 있지 않은 부분이 많고, 시민들도 주먹구구식으로 문제 해결을 위해 참여하고 있는 경향이 있다. 이러한 배경 하에 본 연구는 공공 문제해결을 위해 시민이 직접 참여하여 공공 문제를 해결하는 사회적 흐름을 따라서 현재의 추세와 문제점을 분석하고 개선할 수 있는 프로세스를 제안하고자 한다. 먼저 공공문제해결의 개념과 시민 참여형 공공문제 해결 프로세스를 비교해 보았다. 그리고 6개월에 걸쳐서 직접 참여한 공공문제해결 프로젝트인 서울시 디자인거버넌스를 소개하고 실행 내용을 소개하겠다. 공공문제해결의 프로세스는 디자인씽킹(Design Thinking)을 적용하여 해결하였으며, 체계적인 프로세스를 통한 문제해결을 주도하여 해결하였다. 좀더 효율적인 프로세스 제안을 위해 이 프로젝트에 참가한 대상자들을 대상으로 필요한 역량을 설문 조사하였다. 프로젝트 참가 대상자가 뽑은 필요 역량은 회의 중개자 역할과 데이터 분석에 대한 역할이 였으며, 이런 역량을 가진 전문가인 퍼실리테이터와 데이터 분석가의 역량을 분석하여 공공문제해결을 위한 전문가를 새롭게 규정하여 새로운 공공문제해결 해결 프로세스를 제안하고자 한다. 새롭게 규정하는 전문가는 데이터 퍼실리테이터로서, 데이터분석가의 역량을 지닌 퍼실리테이터가 시민참여형문제 해결단에 같이 참여하여 회의 중개자와 데이터 분석을 보조하는 역할을 진행하게 된다. 결론적으로 본 연구는 최근 들어 늘어난 시민 참여형 공공문제 해결을 창의적 문제해결 방법론인 디자인씽킹(Design Thinking) 프로세스로 해결하고 매일 늘어가는 공공문제해결을 효과적으로 해결하기 위한 새로운 공공문제 해결 프로세스를 제안하는데 의의가 있다. 주제어 : 공공문제해결, 디자인씽킹, 서울시디자인거버넌스, 퍼실리테이터, 데이터분석가, 데이터 퍼실리테이터 In 1948, the Korean government was established and Korea became the 11th largest economy in the world. It has achieved economic growth at an unprecedented rate in about 70 years and has been introduced as an example of advanced countries. As a result, the Republic of Korea is suffering from a great deal of change, suffering from rapid globalization, information and diversification within a short period of time. However, as is the case in the media and in the surrounding areas, it is a reality that suffering from social problems. In order to solve social problems, it is necessary to diagnose and resolve by the efforts of the government and citizens. In this case, problem solving ability is needed. According to the evaluation of the World Economic Forum (2016), Korean adults 'problem solving ability' ranked 12th, lower than the OECD average. The adults who are the subjects to solve the problem are judged not to know how to solve the problem. Recently, a lot of investment and efforts are being made to solve public problems. The city is investing 10 billion units to solve public problems, and is making efforts to solve public problems by opening lots of contests and conventions. In some cases, Seoul government officials lead the problem solving process directly. In addition, projects and hacker tones are being held and carried out recently. However, there are many parts of society and college education that are not yet active in problem-solving education, and citizens tend to participate in problem-solving to solve problems. In this context, this study aims to propose a process to analyze and improve current trends and problems according to the social trends in which citizens participate directly to solve public problems and solve public problems. First, I compared the concept of public problem solving with the process of public participation problem solving. I will introduce the design governance of Seoul, which is a public problem solving project that I participated in for 6 months. The process of public problem solving was solved by applying design thinking, and solving the problem through systematic process. In order to propose a more efficient process, we surveyed the competencies needed for the participants in this project. The required competencies of the project participants were the role of meeting brokers and data analysis. By analyzing the competence of facilitator and data analysts who are experts in this field, Process. A newly defined specialist is a data facilitator and a facilitator with data analyst competency participates in the citizen participatory problem solving team to assist in the analysis of data with the meeting intermediaries. In conclusion, this study is meaningful to suggest a new public problem solving process to resolve the increasing public problem solving with creative thinking problem solving method (Design Thinking) have. Key words: Public Problem Solving, Design Thinking, Seoul Design Governance, Facilitator, Data Analyst, Data Facilitator