RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        데이터 비식별화 논의의 쟁점과 맹점

        오길영 한국공법학회 2016 공법연구 Vol.45 No.2

        This paper aims to point out the discussion needed for progress on the occasion of current domestic debate situation that remains in a state of constant confrontation and standstill concerning de-identification of data. This article focuses on discussion related to de-identification of data, make classification by the point of Issue and Blind and composed of reviewing each of the two themes. The first part of this article focuses on a point of Issue, reviewing the ‘concept definition’ and ‘composition of legal principle’ over de-identification. On a part of the concept definition, I try to clarify real meaning of de-identification, which we are currently discussing, by analysis of the concept element of personal information and de-identification. On a part of the composition of the legal principle, through reviewing the privisions associated with de-identification which is existing in current legislation, and analysis on the content of foreign legislation associated with de-identification, I try to reveal the meaning of new provisions which discussed in the current debate. To sum up of reviewing on a point of Issue, the current domestic policy of de-identification is that excluding from regulation of personal information protection law for data which is below the international level in processing level, means ‘no-regulation’ and ‘no-countermeasure’ ultimately. The first part of this article focuses on a point of Blind, as for the current legal debate which has not been fully understood about technical field of de-identification, I try to present and analyze two problems that are not considered yet. First, I analyze the technical limitations of de-identification. That is, the level of processing for data is not so clear in the setting of the category, and the reliability is also not inherently high. In short, the de-identification technology is incomplete. Next, I argue the legal limitations of the protection of personal information about the recent data processing. In other words, new types of information that are not included in the scope of personal information should be countered through introduction of the new interest concept on a legal protection. About this, I proposed new possibilities of privacy rights as an alternative. 본고는 데이터 비식별화에 대한 담론이 지속적인 대립과 답보 상태에 머물러있는 현재의 국내 상황에 즈음하여, 그 진전을 위하여 필요한 논의들을 검토하는 글이다. 이 글은 비식별화와 관련된 논점들에 대하여 크게 ‘쟁점’과 ‘맹점’으로 대분하면서, 각각 2개씩의 세부주제에 대한 검토를 진행하는 형태로 구성된다. 글의 전반부인 쟁점 부분에서는, 비식별화를 둘러싼 ‘개념 정의’와 ‘법리 구성’에 대한 검토를 진행한다. 개념 정의에 대한 검토에 있어서는, 개인정보에 대한 개념요소와 비식별화의 개념요소를 분석하여 현재 우리가 논의하고 있는 비식별화의 정체를 제대로 밝히고자 하였다. 법리 구성에 대한 검토에 있어서는, 현행 입법에 존재하는 비식별화와 연관되는 규정들을 검토하고 비식별화에 대한 입법을 가지고 있는 외국규정의 내용을 분석하여, 현재 담론에서 논의되고 있는 새로운 규정들의 의미를 분석하였다. 쟁점 부분에서의 검토내용을 간추리자면, 현재 국내의 비식별화 정책은 그 가공의 수준에 있어 국제수준 이하인 데이터들을 대상으로 개인정보보호법의 규제대상에서 제외시킴으로써 그야말로 ‘무규제․무대책’의 정책이라는 것이다. 글의 후반부인 맹점 부분에서는, 비식별화 기술에 대하여 충분한 이해가 없는 채로 진행되어 온 지금의 법적 담론에 있어, 미처 고려하지 못하고 있는 문제점 두 가지를 제시하고 분석한다. 먼저 비식별화의 기술적인 한계를 분석한다. 데이터에 대한 가공수준이라는 것이 그 범주의 설정에 있어 그리 명확할 수 없다는 점, 그리고 그 신뢰도 또한 본질적으로 높을 수가 없다는 것이 그것이다. 요컨대 비식별화 기술은 불완전하다는 것이다. 다음으로 현행 개인정보 보호법리로 데이터 가공과 같은 새로운 기술을 감당할 수 없다는 법적 한계를 분석한다. 즉 개인정보의 범위에 포섭되지 않는 새로운 형태의 정보들에 대하여는 새로운 보호법익의 도입을 통하여 대응해야 한다는 것이다. 이에 대하여 필자는 프라이버시권의 새로운 가능성을 대안으로 제시한다.

      • KCI등재

        통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정

        전희주,이현지,연규필,김동례 한국콘텐츠학회 2019 한국콘텐츠학회논문지 Vol.19 No.5

        In this study, the method of quality measurement for the statistical usefulness of de-identified data was examined in terms of prediction accuracy by statistical modeling. In the era of the 4th industrial revolution, effective use of big data is essential to innovation through information and communication technology, but personal information issues are constrained to actively utilize big data. In order to solve this problem, de-identification guidelines have been established and the possibility of actual re-identification of personal information has become very low due to the utilization of various de-identification methods. On the other hand, strong de-identification can have side effects that degrade the usefulness of the data. We have studied the quality of statistical usefulness of the de-identified data by KLT model which is a representative de-identification method, A case study was conducted to see how statistical accuracy of prediction is degraded by de-identification. We also proposed a new measure of data usefulness of the de-identified data by quantifying how much data is added to the de-identified data to restore the accuracy of the predictive model. 본 연구에서는 개인정보 비식별화 데이터의 통계적 유용성에 대한 품질 측정 방안에 대하여 통계 모형화에 따른 예측 정확도 측면에서 고찰하였다. 4차 산업혁명 시대에서 정보통신기술을 통한 혁신에는 반드시 빅데이터의 효과적인 활용이 필수적이지만, 개인정보 이슈는 적극적인 빅데이터 활용에 제약이 되고 있다. 이를 해결하기 위해 비식별화 가이드라인이 제정되었으며 다양한 개인정보 비식별화 방법이 활용되면서 개인정보의 실질적인 재식별 가능성은 매우 낮아졌다. 반면에 강력한 비식별화는 데이터의 유용성을 떨어뜨리는 부작용이 나타날 수 있다. 그 동안은 재식별 불가능한 비식별화 방법이 연구의 주를 이루어 왔다면 본 연구에서는 대표적인 비식별 방법인 KLT 모형에 의한 비식별화 데이터에 대한 통계적 유용성 측면의 품질 측정에 대하여 연구하였다. 비식별화 데이터에 대한 통계적 예측모형의 정확도에 기반하여 비식별화 된 데이터의 통계적 유용성이 어느 정도 훼손되는지에 대하여 사례분석을 수행하였다. 또한, 비식별 자료에 어느 정도의 비식별화 되지 않은 자료가 추가되어야 예측모형의 정확도를 회복하는 지를 살펴봄으로써 비식별화된 자료의 데이터 유용성 정도에 대한 새로운 측정지표를 제안하였다.

      • KCI등재

        표정 정보를 보존하는 선택적 얼굴 비식별화 방법

        안병선,이건영,이의철 국제차세대융합기술학회 2022 차세대융합기술학회논문지 Vol.6 No.11

        미디어 매체의 다양화로 인해 동의하지 않은 개인정보 노출이 빈번히 일어나고 있다. 이러한 문제를 해결하 는 방법은 단순히 개인정보를 일관된 방법으로 비식별화하는 것으로 해결되지 않는다. 특히 증거로 활용될 수 있는 영상은 개인정보 비식별화와 단서로 활용될 수 있는 표정 정보의 보존이 상충 관계이기 때문에, 선택적이면서 보존적 인 비식별화 방법이 필요하다. 본 연구에서는 비식별화를 진행할 얼굴 영상을 지정하여 얼굴 인식 기술을 기반으로 해당 얼굴 영역만을 비식별화하였다. 비식별화가 진행된 얼굴에 대해서는 영상이 촬영된 시점의 감정을 상태를 유추 할 수 있도록 표정을 인식하여 해당 정보를 활용할 수 있도록 하였다. 얼굴 인식과 표정 인식 모두 CNN 모델을 사용 하여 분석하였다. 얼굴 인식 정확도는 동인인 거절 비율이 0%일 때, 타인 오인식 비율이 4.32%였으며, 7개 기본 감 정에 대한 표정 분류 정확도는 84.03%로 확인되었다. 이러한 과정을 통해 특정 인물의 얼굴을 선택적으로 비식별화 하면서 해당 얼굴의 감정 정보를 식별할 수 있도록 자동화된 소프트웨어를 개발하여 활용 가능성을 확인하였다. Due to the diversification of media, unauthorized disclosure of personal information occurs frequently. The way to solve this problem is not to simply de-identify personal information in a consistent way. In particular, since the image that can be used as evidence has a conflicting relationship between de-identification of personal information and preservation of facial expression information that can be used as a clue, a selective and conservative de-identification method is required. In this study, the face image to be de-identified was designated and only the corresponding face area was de-identified based on the face recognition technology. For faces that have undergone de-identification, facial expressions can be recognized to infer the emotional state at the time the image was taken, and the corresponding information can be utilized. Both face recognition and expression recognition were analyzed using a CNN model. The facial recognition accuracy was confirmed to be 4.32% when the rejection rate was 0%, and the facial expression classification accuracy for 7 basic emotions was 84.03%. Through this process, an automated software was developed to selectively de-identify the face of a specific person and identify the emotional information of the face, and the possibility of its application was confirmed.

      • KCI등재

        특정 속성을 유지하는 비식별화를 위한 StarGAN 고도화

        윤예린,배호 한국정보과학회 2024 정보과학회 컴퓨팅의 실제 논문지 Vol.30 No.4

        비식별화는 데이터셋에서 개인을 식별할 수 있는 요소들을 제거하여 데이터로부터 개인정보가 노출되지 않도록 하는 보안 방법이다. 제 4차 산업혁명 이후 데이터에 대한 수요와 공급이 기하급수적으로 증가하면서 데이터로 인한 개인 정보 노출 가능성이 현저히 높아졌는데, 이에 따라 데이터 활용을 제한하지 않으면서 보안 문제를 해결하기 위한 데이터 비식별화가 중요해 졌다. 특히 이미지 데이터는 원본 형태로 노출되었을 때 데이터 도용 및 악용 가능성이 높고, 사용자의 초상권을 침해할 수 있다. 그래서 이미지 데이터 비식별화는 지속적으로 연구되어 왔으며, 최근에는 데이터의 분포를 유지하면서 비식별화를 진행하는 생성 모델을 이용한 비식별화가 주목받고 있다. 본 논문에서는 이미지의 특정한 속성은 유지하면서 비식별화를 진행하는 생성 모델의 고도화를 목표로 하며, 비식별화 과정 중 모델 학습 과정에서 사용할 수 있는 두 가지의 선택 방법론을 제안한다. 그리고 두 가지의 선택 방법론을 적용함으로써 유지하고자 하는 target 속성이 기존 모델보다 더 잘 유지되며 생성 모델의 성능 또한 더 좋아지는 것을 실험으로 보인다. De-identification is a security method that prevents personal information from being exposed by removing elements that can identify individuals from a dataset. In particular, when image data is exposed in the original form, there is a high possibility of data theft and abuse, and it may infringe on the user's portrait rights. For this, de-identification has been continuously studied in image data using the-latest developed generative models. This paper aims to advance the generative model that proceeds with de-identification while maintaining specific attributes of the image. The proposed methods combine two selection approaches in the model learning process for de-identification. Our experiments show that the target attribute to be maintained is maintained better than the existing model, and the performance of the generation model is also improved by applying the proposed approach.

      • KCI등재

        논문 : 데이터 상업화 과정으로서의 개인정보 비식별화

        오길영 ( Kil Young Oh ) 민주주의법학연구회 2015 민주법학 Vol.0 No.58

        본고는 현재 ICT 분야의 ‘핫이슈’라고 칭해지는 개인정보의 비식별화에 대하여 법적인 그리고 사회과학적인 검토를 하기 위한 글이다. 이 글은 빅데이터의 핵심기술이라 칭해지는 개인정보 비식별화가 미완의 상태임에도 불구하고, 박근혜 정부의 소위 ‘창조경제’ 입김에 힘입은 빅데이터 열풍 덕분에 이러한 문제점들이 가려져 아직 국내에서는 제대로 된 담론이 충분히 형성되지 못한 상태이기 때문에 작성되었다. 글의 전반부는 데이터의 상업화에 관하여 검토한다. 폐기대상이던 데이터들의 재활용이 불러온 새로운 가능성에 대하여 대표적인 사례와 변화의 내용을 중심으로 빅데이터가 꿈꾸는 블루오션을 진단한다. 글의 중반부에서는 데이터의 비식별화에 대하여 본격적으로 검토하였다. 먼저 비식별화의 대상이 되는 데이터들을 분석함으로써, 비식별화의 실체가 결국 개인정보에 대한 법적 제한을 회피하기 위한 기술적 방안임을 밝힌다. 다음으로 국내에서 추진 중인 비식별화가 이미 재식별의 가능성을 포함하고 있는 우려스러운 방법임을 밝힌다. 이는 미국에서의 경험적 사례와 비식별화에 관한 용례의 분석을 통해 진행 된다. 마지막으로는 빅데이터의 내재적 한계에 대하여 검토한다. 차별과 배제를 제대로 고려하지 못하게 되는 빅데이터 분석의 본연적 맹점에 대한 검토를 통하여 데이터 가공의 위험성을 짚어본다. 글의 후반부에는 지금까지의 논의를 바탕으로 한 필자의 평가와 우려를 짧은 분량으로 담았다. 오염된 토양위에 진행되고 있는 국내 빅데이터 담론에 대한 비판과, 새로운 디지털 시대에 있어 종래의 정보보호 메커니즘이 맞게 될 혼란에 대한 우려가 그것이다. This paper aims at legal and socio-scientific analysis of the de-identification of personal data, which is referred to as a ‘hot issue’ of the current ICT sector. Even if the de-identifying personal data, which is called core technology of Big Data, is still in a problematic state, problems are covered with Big Data craze thanks to the so-called ‘creative economy’ backing of ‘Park Geun-hye’ regime and are not properly discussed in domestic academia. This is why I am writing. The first part of this article reviews the commercialization of data. I diagnose the blue ocean Big Data is dreaming, and new possibilities created by data recycling, focusing on recent changes and typical examples. In the middle part of this article, I allot concentrated analysis of the de-identification on personal data. Firstly, through the analysis of the data which are the very subject of de-identification process, I reveal that the reality of de-identification is technical measures intended to circumvent the legal regulations for personal data protection. Then I point out that the de-identification process promoted by the Korean government raises a serious concern because de-identification already includes the possibility of re-identification. To do this, I examine the related US cases and analyze how the term is used in various countries. Finally, I review the immanent limit of Big Data. Also, I review the danger of data processing, demonstrating the weaknesses of Big Data analysis that it does not consider the discrimination and exclusion from itself. In the last part of this article, I criticize the situation of domestic discourse on Big Data being in progress on the contaminated soil, and express the fear that the current data protection mechanisms would soon be faced with a great confusion in the new digital era.

      • KCI우수등재

        의료 비정형 텍스트 비식별화 및 속성기반 유용도 측정 기법

        노건,전종훈 한국전자거래학회 2019 한국전자거래학회지 Vol.24 No.1

        De-identification is a method by which the remaining information can not be referred to a specific individual by removing the personal information from the data set. As a result, de-identification can lower the exposure risk of personal information that may occur in the process of collecting, processing, storing and distributing information. Although there have been many studies in de-identification algorithms, protection models, and etc., most of them are limited to structured data, and there are relatively few considerations on de-identification of unstructured data. Especially, in the medical field where the unstructured text is frequently used, many people simply remove all personally identifiable information in order to lower the exposure risk of personal information, while admitting the fact that the data utility is lowered accordingly. This study proposes a new method to perform de-identification by applying the k-anonymity protection model targeting unstructured text in the medical field in which de-identification is mandatory because privacy protection issues are more critical in comparison to other fields. Also, the goal of this study is to propose a new utility metric so that people can comprehend de-identified data set utility intuitively. Therefore, if the result of this research is applied to various industrial fields where unstructured text is used, we expect that we can increase the utility of the unstructured text which contains personal information. 비식별화는 데이터셋으로부터 개인정보를 제거함으로써 개인을 식별할 수 없도록 하는 방법으로, 정보를 수집, 가공, 저장, 배포하는 과정에서 발생할 수 있는 개인정보 노출 위험도를 낮추기 위해 사용한다. 그간 비식별화와 관련된 알고리즘, 모델 등의 관점에서 많은 연구가 이루어졌지만, 대부분은 정형 데이터를 대상으로 하는 제한적인 연구로, 비정형 데이터에 대한 고려는 상대적으로 많지 않은 실정이다. 특히 비정형 텍스트가 빈번히 사용되는 의료 분야의 경우에서는 개인 식별 정보들을 단순 제거함으로써 개인정보 노출 위험도는 낮추지만, 그에 따른 데이터 활용성이 떨어지는 점을 감수하는 실정이다. 본 연구는 개인정보 보호 이슈가 가장 중요하고 따라서 비식별화가 활발하게 연구되고 있는 의료분야 데이터 중 비정형 텍스트를 대상으로 k-익명성 보호모델을 적용한 비식별화 수행 방안을 제시하고, 비식별화 결과에 대한 새로운 유용도 측정 기법을 제안하여 이를 통해 직관적으로 데이터 활용성을 판단할 수 있도록 하는 것을 목표로 한다. 따라서 본 연구의 결과물이 의료 분야뿐만 아니라 비정형 텍스트가 활용되는 모든 산업 분야에서 활용될 경우, 개인 식별 정보가 포함된 비정형 텍스트의 활용도를 향상시킬 수 있을 것으로 기대한다.

      • KCI우수등재

        데이터 비식별화 정책에 대한 규범적 비판

        오길영 한국공법학회 2017 공법연구 Vol.46 No.2

        This paper aims to criticize the government’s policy about de-idenified data from the normative standpoint, regarding the recent case of de-identified data binding events. The main content of this article is that analyzing the problems of ‘guidelines for de-identification’ which is prepared by the government to activate the data industry where we were in a state of constant confrontation and stalling around de-identification, and that examination of the problems about theories that support the overall de-identification policy. For this review, this paper divides the issues related to de-identification into three topics: ‘problem of conceptual interpretation’, ‘problem of processing level’, and ‘problem of safety procedure’. First of all, the ‘problem of conceptual interpretation’ is examined based on the interpretation of the guideline on the concept of personal information, and the problems implied in various concept definitions surrounding de-identification are examined. In particular, it is important to review the problems of the interpretation of the guidelines, which have been criticized for creating new regulations beyond the limits of the interpretation. Next, in the ‘problem of processing Level’ part, I tried to diagnose the actual level of processing and to identify problems related to it, based on the actual case of data merging which is used the guidelines as a basis. The content is to review the disputes about the method and level of data processing, which are problems arising from mixed use of ‘anonymization’ and ‘pseudonymization’ and ‘specific possibility’, and conflicting interpretations of encryption, etc. Finally, in the ‘problem of safety procedure’ part, I reviewed various safety assurance procedure for data merging. For example: Composition and evaluation of the newly tried evaluation team by guidelines, merging support by specialized agencies, the distinction between ‘identifiability’ and various safeguards as follow-up measures. Each problem was analyzed from a critical point of view. These critical analyzes are ultimately for the establishment of correct de-identification policies. In other words, it is a normative examination for the social acceptance of new technologies, not for preventing the entry of new technologies. I hope that the analysis of this article will be used as a meaningful foundation for smooth technology entry. 본고는 최근 사회적 문제로 불거진 비식별화 데이터 결합 사건에 대하여, 규범학의 입장에서 우리 정부의 비식별화 정책을 비판하기 위한 글이다. 비식별화를 둘러싸고 지속적인 대립과 답보 상태에 머물러있던 국내의 데이터 산업의 활성화를 위해 범정부차원에서 마련했던 ‘비식별 조치 가이드라인’의 문제점을 분석하고, 이를 통해 비식별화 정책의 전반을 지지하고 있는 이론들의 문제점들을 검토하는 것이 이 글의 주요한 내용이다. 이러한 검토를 위하여 본고는, 비식별 조치와 관련된 논점들에 대하여 크게 ‘개념해석의 문제’와 ‘가공수준의 문제’, 그리고 ‘안전장치의 문제’로 구분하여 분석을 진행한다. 먼저 ‘개념의 해석 문제’ 부분에서는, 개인정보의 개념에 대한 가이드라인의 해석을 기반으로 하여 비식별화를 둘러싼 여러 개념 정의에 내포된 문제점들을 검토한다. 특히 해석상의 한계를 넘어 새로운 규정을 창설하기까지 하였다는 비판을 받고 있는 가이드라인의 해석상 문제점을 상세히 검토하는 것을 주요한 내용으로 한다. 다음으로 ‘가공수준의 문제’ 부분에서는, 가이드라인의 기반으로 하여 실제 진행된 데이터 결합의 사례를 기반으로 하여 그 가공의 수준을 진단하고 이와 관련된 문제점들을 밝히고자 하였다. ‘익명화’와 ‘가명화’ 등 용례의 혼용으로 인하여 발생하는 문제와 함께 암호화에 대한 상치되는 해석 등 데이터 가공의 기법과 수준에 대한 논박들을 검토하는 것을 주요한 내용으로 한다. 마지막으로 ‘안전장치의 문제’ 부분에서는, 데이터 결합을 위해 마련한 각종의 안전성 확보 장치들에 대하여 검토를 진행하였다. 가이드라인을 통해 새로이 시도된 적정성 평가단의 구성과 평가, 분야별 전문기관에서의 결합지원, ‘식별 가능성’과 ‘특정 가능성’의 구별문제, 그리고 사후조치로서의 각종 안전장치에 대하여 비판적인 시각에서 각각의 문제점들을 분석하였다. 이러한 비판적 분석들은, 결국 올바른 비식별화 정책의 수립을 위한 것이다. 즉 새로운 기술의 사회적 수용을 위한 규범적 검토인 것이지, 새로운 기술의 진입을 막기 위함이 아니다. 이 글의 분석이 원활한 기술 진입을 위한 의미 있는 초석으로 활용되기를 기대해 본다.

      • KCI등재

        Neural Style Transfer를 이용한 얼굴 비식별화

        송영도,이의철 국제차세대융합기술학회 2022 차세대융합기술학회논문지 Vol.6 No.12

        차량 블랙박스를 통해 수집되는 운전자의 얼굴이나 보행자의 얼굴은 사고 분석이나 운전자 모니터링 모델구축을 위한 데이터로써 중요한 가치를 지닌다. 하지만 사전동의를 얻지 않은 얼굴 데이터는 개인정보 보호 문제가제기되며 모든 경우에 사전동의를 얻어 정보를 획득하기가 쉽지 않다. 또한 개인정보 보호 문제를 중요시하여 비식별화를 진행하게 되면 비식별화를 진행한 이후 의 얼굴 이미 지 가 실제로 추출한 표정, 성별 등의 데이터와 일치하는지 평가할 수 없다는 문제점이 있다. 본 논문에서는 Neural Style Transfer를 이용하 여 비식별화를 진행하여 비식별화 후에도 표정, 성별, 나이 등의 정보를 보존하고 확인 가능한 방법을 제안한다. 제안된 알고리즘을 통해 최적의화풍 을 적용한 결과 80.93%의 비식별화율 과 주관적 평가 항목인 표정, 성별, 나이에 대해 95.3%의 인식률로 비식별화 후에도 얼굴의 중요한 특징을 보존하는 것을 확인하였다. 본 논문( 연구) 에서 제안한 비식별화 방법은 개인정보를 보호하면서 추출한 데이터를 사람이 검수할 수 있어 탐지와 인식 모델에 양질의 데이터로 활용이 가능하다.

      • KCI등재

        형사사건 수사기록 비식별화 방안에 관한 연구

        김경종,배소은,우병관,김지온 한국디지털포렌식학회 2022 디지털 포렌식 연구 Vol.16 No.3

        With the development of artificial intelligence (AI) technology, the use value of data is increasing. The government is proposing a way to utilize data for scientific research by amending the Data Act and creating guidelines for handling pseudonymous information. In addition, trial confirmation records can be used for academic research or public interest purposes in accordance with the Criminal Procedure Act, and NLP technology can be applied by de-identifying these text data and converting them into pseudonym information. Korean National Police Agency has also been conducting "AI-based criminal investigation support technology research and development" using NLP since 2021. Meanwhile, investigation records dealing with human criminal acts include a large amount of information on individuals, and due to the nature of criminal cases that are easily exposed to the media, it is possible to easily identify cases or individuals through keyword searches on portal sites. Accordingly, it is necessary to re-establish the standard for pseudonymous information, which is one of the measures for de-identification of personal information, according to the characteristics of criminal cases. In this paper, in order to establish a standard for pseudonym information suitable for investigative records, a method of de-identifying personal information contained in criminal case records through PYTHON coding was studied. In the case of personal information included in criminal case investigation records, address information including 'public office of the police' and 'place name' in addition to name and resident registration number was de-identified, and the need to establish 'Mixed address dictionary' was emphasized to increase the accuracy of de-identification. In addition, a specific methodology for de-identifying address information was also presented. This study is meaningful in that it opened the possibility of using criminal justice information for research purposes while protecting individual privacy. 인공지능(AI) 기술이 발달하면서 데이터의 활용가치는 갈수록 증가하고 있다. 정부는 데이터3법 개정과 가명정보 처리 가이드라인 제작 등을 통해 데이터들을 과학적 연구에 활용할 수 있는 길을 제시하고 있다. 또한, 재판 확정기록은 형사소송법에 따라 학술연구 또는 공익적 목적으로 활용할 수 있는데, 이러한 텍스트 데이터들을 비식별화하여 가명정보로 변환함으로써 NLP 기술 적용이 가능하다. 경찰청에서도 2021년부터 NLP 기술을 활용한 “AI 기반 범죄수사 지원 기술 연구 개발”을 진행하고 있다. 한편, 사람의 범죄행위를 다루는 수사기록에는 개인에 관한 정보가 다량으로 포함되어 있으며, 언론에 쉽게 노출되는 형사사건의 특성상 포털사이트의 키워드 검색을 통해 쉽게 사건이나 개인을 식별할 수 있는 특징이 있다. 이에 개인정보 비식별화 방안 중 하나인 가명정보 기준을 형사사건 특성에 맞게 재정립할 필요가 있다. 본 논문에서는 수사기록 맞춤형 가명정보 기준을 수립하기 위해 형사사건 기록에 담긴 개인정보를 PYTHON 코딩을 통해 비식별화 하는 방법을 연구하였다. 형사사건 수사기록에 포함된 개인정보의 경우 이름, 주민등록번호 외에도 ‘관할관서’와 ‘지명’이 포함된 주소 정보를 비식별화 하였으며 비식별화 정확도를 높이기 위해 ‘주소혼용사전’ 구축의 필요성을 강조하였다. 아울러 주소 정보를 비식별하기 위한 구체적인 방법론도 제시하였다. 본 연구는 개인의 프라이버시를 보호하면서도 형사사법정보를 연구목적으로 활용할 수 있는 가능성을 열었다는 점에 의의가 있다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼