        의료 데이터 산업을 위한 비정형 데이터 비식별화 정책에 관한 연구

        이선진,박태림,김소희,오영은,이일구 한국융합보안학회 2022 융합보안 논문지 Vol.22 No.4

        With the development of big data technology, data is rapidly entering a hyperconnected intelligent society that accelerates innovative growth in all industries. The convergence industry, which holds and utilizes various high-quality data, is becoming a new growth engine, and big data is fused to various traditional industries. In particular, in the medical field, structured data such as electronic medical record data and unstructured medical data such as CT and MRI are used together to increase the accuracy of disease prediction and diagnosis. Currently, the importance and size of unstructured data are increasing day by day in the medical industry, but conventional data security technologies and policies are structured data-oriented, and considerations for the security and utilization of unstructured data are insufficient. In order for medical treatment using big data to be activated in the future, data diversity and security must be internalized and organically linked at the stage of data construction, distribution, and utilization. In this paper, the current status of domestic and foreign data security systems and technologies is analyzed. After that, it is proposed to add unstructured data-centered de-identification technology to the guidelines for unstructured data and technology application cases in the industry so that unstructured data can be actively used in the medical field, and to establish standards for judging personal information for unstructured data. Furthermore, an object feature-based identification ID that can be used for unstructured data without infringing on personal information is proposed. 빅데이터 기술이 발전하면서 데이터가 전 산업의 혁신 성장을 가속하는 초연결 지능화 사회로 빠르게 진입하고 있다. 고품질의 다양한 데이터를 보유하고 활용하는 융복합 산업이 새로운 성장 동력으로 자리매김하고 있으며, 다양한 전통 산업군에 빅데이터가 융합되어 데이터 기반의 혁신을 통해 디지털 전환이 이루어지고 있다. 특히 의료 분야에서는 전자의무기록 데이터와 같은 정형 데이터와 CT, MRI 등의 비정형 의료 데이터를 함께 활용함으로써, 질병 예측 및 진단의 정확도를 높이고 있다. 현재 의료 산업에서 비정형 데이터의 중요성과 규모는 나날이 증가하고 있지만, 종래의 데이터 보안 기술과 정책은 정형 데이터 중심이며, 비정형 데이터의 보안성과 활용성에 대한 고려는 미비하다. 향후 빅데이터를 활용한 진료가 활성화되려면 데이터의 다양성과 보안성이 데이터 구축, 유통, 활용 단계에서 내재화되고 유기적으로 연계되어야 한다. 본 논문에서는 국내외 데이터 보안 제도와 기술 현황을 분석한다. 이후 의료 분야에서 비정형 데이터가 활발히 사용될 수 있도록 비식별조치 가이드라인에 비정형 데이터 중심의 비식별 기술과 산업에서의 기술 적용 사례를 추가하고, 비정형 데이터에 대한 개인정보 판단 기준을 수립할 것을 제안한다. 더 나아가 개인정보를 침해하지 않고, 비정형 데이터에 활용할 수 있는 객체 특징 기반의 식별 ID를 제안한다.

      • KCI등재

        디지털플랫폼정부 구현을 위한 비정형 데이터 활용 촉진 방안에 관한 연구:탄소중립 도시정책과 기계설비법을 중심으로

        진상기 한국지역정보화학회 2024 한국지역정보화학회지 Vol.27 No.1

        UN이 경고한 ‘지구열화(boiling) 현상’에 대한 대응과 글래스고 기후협약 이행을 위해 탄소배출의37%를 구성하고 있는 건물부문 탄소절감 정책이 국정운영의 도전으로 대두되고 있다. 특히 COP26 탄소절감 목표량 달성을 위한 도시관리 정책의 과학화를 추진하고 있지만 건물 에너지 성능 주요 데이터들이제대로 활용되지 못하고 버려지는 현상이 자주 발견되고 있다. 이러한 문제를 해결하고자 본 연구는 도시건축물 에너지 정책에 디지털 기반의 과학화를 구현해야 함을 강조하고, 이에 중요한 정보를 제공해 줄 수있는 새로운 자원으로 건물 에너지소비 기계설비의 성능 비정형 데이터를 주목하였다. 특히, 본 연구는 비정형데이터의 대한 법적 정의 및 처리 절차에 대한 제도적‧법적 근거가 마련되어 있지 않은 현 상황에서 연간 생성되는 중요 비정형 데이터 약 53.7TB가 방치되거나 활용되지 않는 다크데이터화 현상이 나타나고있음을 문제로 제기하였다. 본 연구는 이러한 현실적인 문제를 극복하고 도시 건물 에너지 정책의 과학화와 디지털정부에서 추구하는 데이터기반의 정책형성과정에 좀 더 이바지할 수 있는 비정형 데이터의 활용성 제고 방안을 제시해 보았다. 주요 내용으로는 관계법령 개정을 통한 비정형데이터에 대한 근거 규정 마련, 비정형데이터 처리를 위한 제도 및 공식적 절차 마련, 비정형 데이터의 수집과 유통・활용을 위한 다양한 기술 개발 지원을 해결방안으로 제시하였다. 그리고 좀 더 근본적인 문제 해결을 위해 데이터 산업 구현에 있어 비정형 데이터의 경제적・정책적 가치에 대한 재평가와 그 중요성에 대한 정책적 지원이 필요함을강조하였다. The building sector carbon reduction policy, which constitutes 37% of carbon emissions, is emerging as a challenge for state administration to respond to the UN's warning of "boiling" and implement the Glasgow Climate Agreement. In particular, although the scientific development of urban management policies to achieve the COP26 carbon reduction target is being promoted, major data on building energy performance are frequently found to be poorly utilized and discarded. To solve this problem, this study emphasized the need to implement digital-based scientificization in urban building energy policies and focused on performance unstructured data of building energy consumption machinery as a new resource that can provide important information. However, in the absence of an institutional legal basis for the legal definition and processing procedure of unstructured data, about 53.7TB of critical unstructured data generated annually is neglected or not utilized as a problem. This study suggested ways to overcome these practical problems and improve the utilization of unstructured data that can further contribute to the scientificization of urban building energy policies and the process of forming data-based policies pursued by digital governments. The main contents were proposed as solutions to prepare ground rules for unstructured data through the revision of related laws, prepare systems and formal procedures for processing unstructured data, and support for the development of various technologies for collecting, distributing, and utilizing unstructured data. In addition, it emphasized the need to reevaluate the economic and policy value of unstructured data and to provide policy support for its importance in implementing the data industry to solve more fundamental problems.

      • KCI등재

        클라우드 환경에서 MongoDB 기반의 비정형 로그 처리 시스템 설계 및 구현

        김명진 ( Myoungjin Kim ),한승호 ( Seungho Han ),최운 ( Yun Cui ),이한구 ( Hanku Lee ) 한국인터넷정보학회 2013 인터넷정보학회논문지 Vol.14 No.6

        컴퓨터 시스템 운용 간에 발생하는 많은 정보들이 기록되는 로그데이터는 컴퓨터 시스템 운용 점검, 프로세스의 최적화, 사용자최적화 맞춤형 제공 등 다방면으로 활용되고 있다. 본 논문에서는 다양한 종류의 로그데이터들 중에서 은행에서 발생하는 대용량의 로그데이터를 처리하기 위한 클라우드 환경 하에서의 MongoDB 기반 비정형 로그 처리시스템을 제안한다. 은행업무간 발생하는 대부분의 로그데이터는 고객의 업무처리 프로세스 간에 발생하며, 고객 업무 프로세스 처리에 따른 로그데이터를 수집, 저장, 분류, 분석하기 위해서는 별도로 로그데이터를 처리하는 시스템을 구축해야만 한다. 하지만 기존 컴퓨팅환경 하에서는 폭발적으로 증가하는 대용량 비정형 로그데이터 처리를 위한 유연한 스토리지 확장성 기능, 저장된 비정형 로그데이터를 분류, 분석 처리할 수 있는 기능을 구현하기가 매우 어렵다. 이에 따라 본 논문에서는 클라우드 컴퓨팅 기술을 도입하여 기존 컴퓨팅 인프라 환경의 분석 도구 및 관리체계에서 처리하기 어려웠던 비정형 로그데이터를 처리하기 위한 클라우드 환경기반의 로그데이터 처리시스템을 제안하고 구현하였다. 제안한 본 시스템은 IaaS(Infrastructure as a Service) 클라우드 환경을 도입하여 컴퓨팅 자원의 유연한 확장성을 제공하며 실제로, 로그데이터가 장기간 축적되거나 급격하게 증가하는 상황에서 스토리지, 메모리 등의 자원을 신속성 있고 유연하게 확장을 할 수 있는 기능을 포함한다. 또한, 축적된 비정형 로그데이터의 실시간 분석이 요구되어질 때 기존의 분석도구의 처리한계를 극복하기 위해 본 시스템은 하둡 (Hadoop) 기반의 분석모듈을 도입함으로써 대용량의 로그데이터를 빠르고 신뢰성 있게 병렬 분산 처리할 수 있는 기능을 제공한다. 게다가, HDFS(Hadoop Distributed File System)을 도입함으로써 축적된 로그데이터를 블록단위로 복제본을 생성하여 저장관리하기 때문에 본 시스템은 시스템 장애와 같은 상황에서 시스템이 멈추지 않고 작동할 수 있는 자동복구 기능을 제공한다. 마지막으로, 본 시스템은 NoSQL 기반의 MongoDB를 이용하여 분산 데이터베이스를 구축함으로써 효율적으로 비정형로그데이터를 처리하는 기능을 제공한다. MySQL과 같은 관계형 데이터베이스는 복잡한 스키마 구조를 가지고 있기 때문에 비정형 로그데이터를 처리하기에 적합하지 않은 구조를 가지고 있다. 또한, 관계형 데이터베이스의 엄격한 스키마 구조는 장기간 데이터가 축적되거나, 데이터가 급격하게 증가할 때 저장된 데이터를 분할하여 여러 노드에 분산시키는 노드 확장이 어렵다는 문제점을 가지고 있다. NoSQL은 관계형 데이터베이스에서 제공하는 복잡한 연산을 지원하지는 않지만 데이터가 빠르게 증가할 때 노드 분산을 통한 데이터베이스 확장이 매우 용이하며 비정형 데이터를 처리하는데 매우 적합한 구조를 가지고 있는 비관계형 데이터베이스이다. NoSQL의 데이터 모델은 주로 키-값(Key-Value), 컬럼지향(Column-oriented), 문서지향(Document-Oriented)형태로 구분되며, 제안한 시스템은 스키마 구조가 자유로운 문서지향(Document-Oriented) 데이터 모델의 대표 격인 MongoDB를 도입하였다. 본 시스템에 MongoDB를 도입한 이유는 유연한 스키마 구조에 따른 비정형 로그데이터 처리의 용이성뿐만 아니라, 급격한 데이터 증가에 따른 유연한 노드 확장, 스토리지 확장을 자동적으로 수행하는 오토샤딩 (AutoSharding) 기능을 제공하기 때문이다. 본 논문에서 제안하는 시스템은 크게 로그 수집기 모듈, 로그 그래프생성 모듈, MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈로 구성되어져 있다. 로그 수집기 모듈은 각 은행에서 고객의 업무 프로세스 시작부터 종료 시점까지 발생하는 로그데이터가 클라우드 서버로 전송될 때 로그데이터 종류에 따라 데이터를 수집하고 분류하여 MongoDB 모듈과 MySQL 모듈로 분배하는 기능을 수행한다. 로그 그래프생성모듈은 수집된 로그데이터를 분석시점, 분석종류에 따라 MongoDB 모듈, Hadoop기반 분석 모듈, MySQL 모듈에 의해서 분석되어진 결과를 사용자에게 웹 인터페이스 형태로 제공하는 역할을 한다. 실시간적 로그데이터분석이 필요한 로그데이터는 MySQL 모듈로 저장이 되어 로그 그래프생성 모듈을 통하여 실시간 로그데이터 정보를 제공한다. 실시간 분석이 아닌 단위시간당 누적된 로그데이터의 경우 MongoDB 모듈에 저장이 되고, 다양한 분석사항에 따라 사용자에게 그래프화해서 제공된다. MongoDB 모듈에 누적된 로그데이터는 Hadoop기반 분석모듈을 통해서 병렬 분산 처리 작업이 수행된다. 성능 평가를 위하여 로그데이터 삽입, 쿼리 성능에 대해서 MySQL만을 적용한 로그데이터 처리시스템과 제안한 시스템을 비교 평가하였으며 그 성능의 우수성을 검증하였다. 또한, MongoDB의 청크 크기별 로그데이터 삽입 성능평가를 통해 최적화된 청크 크기를 확인하였다. Log data, which record the multitude of information created when operating computer systems, are utilized in many processes, from carrying out computer system inspection and process optimization to providing customized user optimization. In this paper, we propose a MongoDB-based unstructured log processing system in a cloud environment for processing the massive amount of log data of banks. Most of the log data generated during banking operations come from handling a client`s business. Therefore, in order to gather, store, categorize, and analyze the log data generated while processing the client`s business, a separate log data processing system needs to be established. However, the realization of flexible storage expansion functions for processing a massive amount of unstructured log data and executing a considerable number of functions to categorize and analyze the stored unstructured log data is difficult in existing computer environments. Thus, in this study, we use cloud computing technology to realize a cloud-based log data processing system for processing unstructured log data that are difficult to process using the existing computing infrastructure`s analysis tools and management system. The proposed system uses the IaaS (Infrastructure as a Service) cloud environment to provide a flexible expansion of computing resources and includes the ability to flexibly expand resources such as storage space and memory under conditions such as extended storage or rapid increase in log data. Moreover, to overcome the processing limits of the existing analysis tool when a real-time analysis of the aggregated unstructured log data is required, the proposed system includes a Hadoop-based analysis module for quick and reliable parallel-distributed processing of the massive amount of log data. Furthermore, because the HDFS (Hadoop Distributed File System) stores data by generating copies of the block units of the aggregated log data, the proposed system offers automatic restore functions for the system to continually operate after it recovers from a malfunction. Finally, by establishing a distributed database using the NoSQL-based Mongo DB, the proposed system provides methods of effectively processing unstructured log data. Relational databases such as the MySQL databases have complex schemas that are inappropriate for processing unstructured log data. Further, strict schemas like those of relational databases cannot expand nodes in the case wherein the stored data are distributed to various nodes when the amount of data rapidly increases. NoSQL does not provide the complex computations that relational databases may provide but can easily expand the database through node dispersion when the amount of data increases rapidly; it is a non-relational database with an appropriate structure for processing unstructured data. The data models of the NoSQL are usually classified as Key-Value, column-oriented, and document-oriented types. Of these, the representative document-oriented data model, MongoDB, which has a free schema structure, is used in the proposed system. MongoDB is introduced to the proposed system because it makes it easy to process unstructured log data through a flexible schema structure, facilitates flexible node expansion when the amount of data is rapidly increasing, and provides an Auto-Sharding function that automatically expands storage. The proposed system is composed of a log collector module, a log graph generator module, a MongoDB module, a Hadoop-based analysis module, and a MySQL module. When the log data generated over the entire client business process of each bank are sent to the cloud server, the log collector module collects and classifies data according to the type of log data and distributes it to the MongoDB module and the MySQL module. The log graph generator module generates the results of the log analysis of the MongoDB module, Hadoop-based analysis module, and the MySQL module per analysis time and type of the aggregated log data, and provides them to the user through a web interface. Log data that require a real-time log data analysis are stored in the MySQL module and provided real-time by the log graph generator module. The aggregated log data per unit time are stored in the MongoDB module and plotted in a graph according to the user`s various analysis conditions. The aggregated log data in the MongoDB module are parallel-distributed and processed by the Hadoop-based analysis module. A comparative evaluation is carried out against a log data processing system that uses only MySQL for inserting log data and estimating query performance; this evaluation proves the proposed system`s superiority. Moreover, an optimal chunk size is confirmed through the log data insert performance evaluation of MongoDB for various chunk sizes.

      • KCI등재

        LSTM 기법을 활용한 수위 예측 알고리즘 개발 시 비정형자료의 역할에 관한 연구: 잠수교 사례

        이승연,유형주,이승오 한국수자원학회 2021 한국수자원학회논문집 Vol.54 No.12S

        Recently, local torrential rain have become more frequent and severe due to abnormal climate conditions, causing a surge in human and properties damage including infrastructures along the river. In this study, water surface elevation prediction algorithm was developed using the LSTM (Long Short-term Memory) technique specialized for time series data among Machine Learning to estimate and prevent flooding of the facilities. The study area is Jamsu Bridge, the study period is 6 years (2015~2020) of June, July and August and the water surface elevation of the Jamsu Bridge after 3 hours was predicted. Input data set is composed of the water surface elevation of Jamsu Bridge (EL.m), the amount of discharge from Paldang Dam (m3/s), the tide level of Ganghwa Bridge (cm) and the number of tweets in Seoul. Complementary data were constructed by using not only structured data mainly used in precedent research but also unstructured data constructed through wordcloud, and the role of unstructured data was presented through comparison and analysis of whether or not unstructured data was used. When predicting the water surface elevation of the Jamsu Bridge, the accuracy of prediction was improved and realized that complementary data could be conservative alerts to reduce casualties. In this study, it was concluded that the use of complementary data was relatively effective in providing the user’s safety and convenience of riverside infrastructure. In the future, more accurate water surface elevation prediction would be expected through the addition of types of unstructured data or detailed pre-processing of input data. 최근 이상기후로 인한 국지성호우가 잦아져 하천변 사회기반시설을 포함한 인적·물적 피해가 급증하고 있다. 본 연구에서는 해당 시설들의 침수 피해를 예측·방지하고자 기계학습 중 시계열자료에 특화된 LSTM(Long Short- term Memory)기법을 활용하여 수위 예측 알고리즘을 개발하였다. 연구대상지는 잠수교로 연구기간은 총 6년(2015년~2020년)의 6, 7, 8월로 3시간 후의 잠수교 수위를 예측하였다. 입력자료(Input data)는 잠수교 수위(EL.m), 팔당댐 방류량(m3/s), 강화대교 조위(cm), 서울시 트윗의 개수로 기존 연구에 주로 사용된 정형자료뿐만 아니라 워드클라우드를 통해 구축된 비정형자료도 함께 사용하여 상호 보완형 자료를 구축하고, 비정형자료 활용 유무의 비교·분석을 통해 비정형자료의 역할도 제시하였다. 잠수교의 수위 예측 시 상호 보완형의 자료가 정형자료만을 사용한 경우에 비해 예측 정확도가 향상하였는 데, 이는 인명 피해를 감소시킬 수 있는 보수적인 예/경보가 가능함을 알 수 있었다. 본 연구에서는 하천변 사회기반시설의 이용자 안전 및 편의 제공에 상호 보완형 자료의 사용이 보다 효과적이라 판단하였다. 향후에는 비정형자료의 종류를 추가하거나 입력자료의 세밀한 전처리를 통하여 더욱 정확한 수위 예측을 기대해본다.

      • KCI등재후보

        정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로

        ( Somakhamixay Oui ),이경희 ( Kyung-hee Lee ),라형철 ( Hyungchul Rah ),최은선 ( Eun-seon Choi ),조완섭 ( Wan-sup Cho ) (사)한국빅데이터학회 2021 한국빅데이터학회 학회지 Vol.6 No.2

        소비자의 식품소비행동은 소비자 패널 데이터와 같은 정형 데이터 뿐 아니라 매스미디어와 소셜미디어(SNS) 등 비정형 데이터로부터 영향을 받을 가능성이 높아지고 있다. 본 연구에서는 식품소비 관련된 정형 데이터와 비정형 데이터를 연계한 융합데이터 셋에 대하여 딥러닝 기반의 소비예측 모델을 생성하고 이를 검증한다. 연구의 결과는 정형 데이터와 비정형 데이터를 결합할 때 모델 정확도가 향상되었음을 보여주었다. 또한 비정형 데이터가 모델 예측 가능성을 향상시키는 것으로 나타났다. 변수들의 중요도를 식별하기 위해 SHAP 기법을 사용한 결과 블로그 및 비디오 데이터 관련 변수가 상위 목록에 있었고, 파프리카 구매 금액과 양의 상관관계가 있음을 알 수 있었다. 또한 실험 결과에 따르면 머신러닝 모델이 딥러닝 모델보다 높은 정확도를 보였고, 기존의 시계열 분석 모델링에 대한 효율적인 대안이 될 수 있음을 확인하였다. Consumers’ food consumption behavior is likely to be affected not only by structured data such as consumer panel data but also by unstructured data such as mass media and social media. In this study, a deep learning-based consumption prediction model is generated and verified for the fusion data set linking structured data and unstructured data related to food consumption. The results of the study showed that model accuracy was improved when combining structured data and unstructured data. In addition, unstructured data were found to improve model predictability. As a result of using the SHAP technique to identify the importance of variables, it was found that variables r elated to b log and video data were on the top list and had a positive correlation with the amount of paprika purchased. In addition, according to the experimental results, it was confirmed that the machine learning model showed higher accuracy than the deep learning model and could be an efficient alternative to the existing time series analysis modeling.

      • KCI등재

        장비점검 일지의 비정형 데이터분석을 통한 고장 대응 효율화 사례 연구

        주연진,김유신,정승렬 한국인터넷정보학회 2020 인터넷정보학회논문지 Vol.21 No.1

        As the importance of the use and analysis of big data is emerging, there is a growing interest in natural language processing techniques for unstructured data such as news articles and comments. Particularly, as the collection of big data becomes possible, data mining techniques capable of pre-processing and analyzing data are emerging. In this case study with a telecom company, we propose a methodology how to formalize unstructured data using text mining. The domain is determined as equipment failure and the data is about 2.2 million equipment check ledger data. Data on equipment failures by 800,000 per year is accumulated in the equipment check ledger. The equipment check ledger coexist with both formal and unstructured data. Although formal data can be easily used for analysis, unstructured data is difficult to be used immediately for analysis. However, in unstructured data, there is a high possibility that important information. Because it can be contained that is not written in a formal. Therefore, in this study, we study to develop digital transformation method for unstructured data in equipment check ledger. 비정형 데이터의 수집, 분석 그리고 활용에 대한 필요성이 대두되고 있지만 여전히 비정형 데이터를 효과적으로 활용하지 못하고있는 실정이다. 본 연구에서는 국내 유수 이동통신 기업의 통신 시설장비 점검 시스템에 기록된 비정형데이터를 분석하여 장비고장대응과 예방에 적극 활용할 수 있는 기반을 만들고자 하였고, 약 220만 건의 작업일지 데이터를 텍스트 마이닝을 통해 구조화/정형화하였다. 이를 위해 장비 고장과 관련된 4가지 분석 프레임, 고장인지, 고장원인, 고장대상, 조치결과를 구성하였고 분석 결과로는 크게 3가지의 효율화 방안과 관련한 인사이트를 얻을 수 있었다. 첫 번째로는 신속한 조치를 통한 시간 단축을 도모하고, 두 번째로는고장장비 Unit 수요를 예측하고, 마지막으로 현장 출동의 최소화를 지원할 수 있을 것으로 기대되었다. 결론적으로, 본 사례연구는통신시설 장비 고장 대응을 위해 데이터 분석 대상을 정형 데이터뿐만 아니라 장비일지라는 비정형 빅데이터로도 범위를 확장했으며, 이를 분석에 활용하기 위해 처음으로 텍스트 마이닝을 시도를 했다는데 의의를 가진다. 또한 N사는 정형 데이터 뿐 만아니라년 80만 건씩 축적되던 비정형 데이터의 활용 가치를 확인할 수 있던 기회를 가졌으며, 향후 비정형 데이터의 활용 방안에 대한 발전방향 그리고 추후의 정형 데이터와의 연계 분석 방안 등에 대한 가이드를 확보할 수 있었다.

      • KCI등재

        비정형 데이터셋 표준포맷 기반 국방 비정형 데이터셋 표준화 방안 제안

        황윤영 ( Yun-young Hwang ),손지성 ( Jiseong Son ) 한국인터넷정보학회 2024 인터넷정보학회논문지 Vol.25 No.1

        민간에서뿐 아니라 국방분야에서도 인공지능은 국방의 발전을 위해 꼭 도입되어야 하는 첨단기술로 받아들여지고 있으며, 특히 국방과학기술혁신의 핵심 과제로 인공지능이 선정되고, 데이터의 중요성이 확대되고 있다. 국방은 폐쇄적인 데이터 정책에서 데이터 공유·활성화로 방향을 전환하고 있으며, 국방의 발전을 위해 필요한 양질의 데이터를 확보하기 위한 노력을 기울이고 있다. 특히 AI·빅데이터의 고유한 특성이 반영될 수 있도록 관련 절차 개선 및 대량·양질의 데이터가 충분히 확보된 상태에서 연구개발이 시작될 수 있도록 데이터 확보를 위한 사업예산과 제도 검토를 추진하고 있다. 그러나 국방 차원의 정형데이터 및 비정형 데이터의 표준화·품질 기준 마련이 필요한 상황이나 지금까지 국방은 정형데이터의 표준화·품질 기준을 제안하고 있는 수준으로 이에 대한 보완이 필요하다. 본 논문에서는 국방 인공지능에서 가장 필요한 국방 비정형 데이터셋을 위한 비정형 데이터셋 표준포맷을 제안하고, 이를 바탕으로 국방 비정형 데이터셋 표준화 방안을 제안한다. AI is accepted not only in the private sector but also in the defense sector as a cutting-edge technology that must be introduced for the development of national defense. In particular, artificial intelligence has been selected as a key task in defense science and technology innovation, and the importance of data is increasing. As the national defense department shifts from a closed data policy to data sharing and activation, efforts are being made to secure high-quality data necessary for the development of national defense. In particular, we are promoting a review of the business budget system to secure data so that related procedures can be improved to reflect the unique characteristics of AI and big data, and research and development can begin with sufficient large quantities and high-quality data. However, there is a need to establish standardization and quality standards for structured data and unstructured data at the national defense level, but the defense department is still proposing standardization and quality standards for structured data, so this needs to be supplemented. In this paper, we propose an unstructured data set standard format for defense unstructured data sets, which are most needed in defense artificial intelligence, and based on this, we propose a standardization method for defense unstructured data sets.

      • KCI등재

        데이터 분류에 따른 데이터 마이닝에 대한 법적 고찰

        최종모 ( Choi Jongmo ),박서윤 ( Park Seoyoon ) 중앙대학교 문화미디어엔터테인먼트법연구소 2018 문화.미디어.엔터테인먼트 법 Vol.12 No.1

        빅데이터는 형태에 따라 정형데이터와 비정형데이터가 있으며, 스마트기기와 인터넷의 확산 등으로 인하여 소셜네트워크서비스 등의 이용이 증가함에 따라 비정형데이터가 정형데이터보다는 비율이 증가하였다. 이러한 정형데이터와 비정형데이터간의 비율의 차이는 지속적이며, 심화될 것으로 판단된다. 내용에 따라서는 신용정보, 위치정보, 의료정보, 개인정보가 있다. 이러한 형태와 내용에 따른 데이터에 대하여 자세히 살펴보았다. 데이터 마이닝에 대한 각국의 입법례를 살펴보았다. 이러한 분류에 따른 내용에 따른 쟁점으로서 개인정보와 형태에 따른 쟁점으로 비정형데이터의 데이터 마이닝에 대한 저작권법적 쟁점을 살펴보았다. 이에 대한 해결방안으로는 개인정보 식별화 조치에 대한 데이터 정제 센터와 정보세를 살펴보고, 비정형데이터에 대해서는 저작물에 대한 이용에 대하여 별도의 이용허락이 필요한 지여부와 저작권법 제35조3에 따른 공정이용해당여부를 고찰하였다. The type of Big data can be divided into structured data and unstructured data. The use of social network services has increased due to the spread of smart devices and the Internet. As a result, it is making the utilization rate of the unstructured data is much higher than structured data. The gap of utilization rate between the structured data and the unstructured data is considered to be continuous and intensified. Depending on the content of the data, there are credit data, location data, medical data, and personal data. This article aims to study classification of the big data detailly, and reviewed each country's legislation on data mining. The is personal data an issue according to the content based on this classification and Data mining of unstructured data is an issue according to the form based on this classification. We have examined the copyright issues related to the personal data and the data mining. To solve issues, This article analyzing Data Refinery Centre and Information Tax on de - identification measures of personal information and, for unstructured data and whether or not a separate license for the use of the copyrighted work is required for unstructured data and whether it is applicable to fair use pursuant to Article 35 (3) of the Korean Copyright Act.

      • KCI우수등재

        기계설비 비정형 데이터 활용 강화를 위한 기계설비산업 정보체계 고도화 정책제언

        진상기,채수인,양자강,박선효 대한설비공학회 2024 설비공학 논문집 Vol.36 No.2

        This study explored and suggested ways to improve the information system of machinery and equipment, which is one of the important data required for energy management policies and carbon neutrality policies for urban buildings. The study examined how information system in the Ministry of Land, Infrastructure, and Transport's machinery and equipment industries can increase the utilization value and obtain adequate valuable information from building machinery and equipment through expert research and on-site opinions. The results showed that it is necessary to consider technical policies on how to utilize unstructured data in the machinery and equipment. industries Based on the results, improvement measures for building an information system that can contain unstructured data were derived. In addition, it is necessary to improve the information system platform for the generation and distribution management of unstructured data and to develop technology to process it, and to improve the system and legal improvements that can activate unstructured data. 본 연구에서는 기계설비법(제17조)에 따라 정기적으로 시행되는 기계설비 성능점검과 유지관리 과정에서 발생되는 중요한 비정형 데이터들의 활용 방안을 모색하고 이를 기계설비법(제7조)에 따라 구현된 기계설비산업정보체계시스템에서 체계적으로 유통관리 될 수 있는 방안을 제시해 보고자 하였다. 건축물의 에너지 소비데이터와 탄소발생 데이터를 체계적으로 관리해야 하는 정부의 정책입장과 데이터를 활용한 건축물관리 민간 산업 활성화를 위해 꼭 필요한 정책과제라고 본다. 이를 위해 본 연구에서 제안하는 정책적 기술적 제언들을 정리해 보면 다음과 같다. (1) 기계설비법에 따라 생성되는 모든 정형 및 비정형 데이터를 기계설비산업정보체계시스템을 통한 일원화 관리 방안이 검토되고 시행방안 수립이 필요하다. 현재 기계설비법을 통해 생성되는 각종 정보(법제15조에 따른 착공 전 확인 및 사용 전 검사 정보, 법제19조에 따른 기계설비 유지관리자 정보, 법제17조에 따른 성능점검 및 유지관리정보 등)들이 전자정부법에 따른 전자파일형태 또는 데이터화되어 유통될 수 있는 법제 정비가 필요하다. 즉 기계설비산업정보체계시스템 구축만으로 끝남이 아닌, 정보체계시스템 활용을 위한 업무 재설계가 이루어져야 할 것이다. 특히 비정형 데이터들이 유통 관리될 수 있는 시스템 설계에 대한 운영 지침 마련도 같이 논의되어야 할 것이다. (2)기계설비 성능점검 및 유지관리의 과정과 그 결과 보고에서 생성되는 비정형 데이터의 중요성을 인식하고 이를 체계적으로 관리할 수 있는 법적 정비가 필요하다. 이를 위해서는 우선 기계설비산업정보체계의 운영권자인 국토부장관이 관련 정보를 요청하고 시스템에 관련 데이터를 제출‧탑재할 수 있도록 요청할 수 있는 권한이 있어야 하고 그 법적 권한을 명확히 할 필요가 있다. 현재와 같이 각 지방자치단체장이 행정재량으로 자료를 요청할 수 있도록 하고, 표준화된 제출 방법이 존재하지 않는 이상 주요 비정형 데이터들의 다크데이터화 현상을 막을 수 있는 방법이 요원한 것이 사실이다. 따라서 국토교통부는 기계설비법의 시급한 개정을 통해 국토부장과의 자료 요구권과 이 경우 기계설비산업정보체계를 통한 표준화 방안을 법적근거로 제시해야 할 것이다. (3)데이터3법 등의 강화 추세로 건축물의 개별세대의 에너지사용량 등에 대한 개인정보보호법 적용 가능성이 커지고 있는 것이 사실이다. 기계설비법에 따른 기계설비관련 비정형 데이터 역시 개인정보와의 연계성 문제가 발생할 수 있는 부분이 있다. 따라서 기계설비 정형 및 비정형 데이터들의 활성화를 위해서는 데이터셋 설계 단계에서부터 적용되는 개인정보보호설계(PbD: Privercy by Design)와 개인정보 가명화 조치가 이루어져야 할 것이다. (4) 비정형 데이터의 가치와 중요성에 대한 산업 전반의 인식 제고가 필요하다. 정형데이터와 달리 관리 수집 가치창출에 그동안 기술적 한계로 당연히 버려지는 데이터로 인식을 했다면 이제는 핵심 또는 중요가치를 내재한 원석 데이터로 보고 이에 접근하는 인식의 변화가 필요하다. 본 연구에서는 기계설비 정보체계 이용 활성화 및 중요 비정형 데이터들의 활용 촉진을 위한 방안에 대해 설명하였다. AI, 빅데이터 산업 등 4차산업혁명기술을 필두로 한 첨단 산업의 발전과 도시건축물 탄소중립이행을 위한 국정과제의 도전 ...

      • KCI등재

        빅데이터 활용한 시계열 데이터 텍스트 마이닝 및 시각화

        남수태,신성윤,진찬용 한국정보통신학회 2023 한국정보통신학회논문지 Vol.27 No.8

        Newly, big data utilization has been widely interested in a wide variety of industrial fields. Big data is the art of extracting value from volume sets of structured and unstructured data, beyond the capabilities of traditional database management tools, and analyzing the results. Big data is often characterized by the (3V) volume, velocity, and variety. Using the R language, a big data analysis tool, you can express various analysis results through various visualization functions using pre-processed unstructured data. The data used in this research was a comparative analysis of 104 papers from January to May 2021 and 108 papers from September 2022 to January 2023 among the papers published in the Korea Institute of Information and Communication Engineering. The analysis showed that the highest frequency was Data (2,038). Therefore, we discuss the limitations and practical implications of the study based on the analysis results. 최근 빅데이터 활용은 매우 다양한 산업 분야에서 광범위하게 관심을 가지고 있다. 빅데이터는 기존 데이터베이스 관리 도구의 능력을 넘어서 대량의 정형, 비정형 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술이다. 빅데이터는 보통 양과 속도 그리고 종류의 첫 글자를 따서 3V로 그 특징을 정의하기도 한다. 빅데이터 분석 도구인 R 언어를 이용하여 전-처리된 비정형 데이터를 이용하여 각종 시각화 함수를 통해 분석결과를 다양하게 표현할 수 있다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 01월호-05월호 논문 104편과 2022년 09월호-2023년 1월호 논문 108편을 대상으로 비교 분석하였다. 분석결과 가장 높은 빈도수 1위는 데이터(2,038)가 위치하였다. 따라서 분석결과를 기반하여 연구의 한계점 및 실무적 시사점을 논의하였다.

