RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      레코드 링키지(record linkage) 기법 선택을 위한 지표 및 표본 수 최적화 연구 = Optimizing record linkage sample sizes in accordance with different similarity measures

      한글로보기

      https://www.riss.kr/link?id=T15625844

      • 저자
      • 발행사항

        서울 : 한양대학교, 2020

      • 학위논문사항
      • 발행연도

        2020

      • 작성언어

        한국어

      • KDC

        325.15 판사항(6)

      • DDC

        658.4038 판사항(23)

      • 발행국(도시)

        서울

      • 형태사항

        vi, 66장 : 도표 ; 26 cm

      • 일반주기명

        지도교수: 장석권
        참고문헌 수록

      • 소장기관
        • 국립중앙도서관 국립중앙도서관 우편복사 서비스
        • 한양대학교 안산캠퍼스 소장기관정보
        • 한양대학교 중앙도서관 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      2018년 11월 15일 데이터 3법이 국회에 발의 되어 지난 2020년 1월 9일 마침내 국회 본회의를 통과하여 2020년 8월 5일 시행을 앞두고 있다. 데이터 분석 주체인 기업의 입장에서 데이터 3법의 시행이 가지는 가장 큰 의의는 가명정보를 구입할 수 있게 된다는 것에 있다. 시행 이전인 현재는 데이터를 분석하기 위하여 모든 데이터를 자체 수집해야 했으나, 시행 이후에는 데이터를 수집하는 대신에 가명 정보를 구입하여 기업이 가지고 있는 정보와 연결시키면 데이터를 분석하는 비용을 크게 감소시킬 수 있다. 그러나 구입한 가명 정보는 개인을 특정할 수 있는 정보가 가려져 있으므로 이를 개인정보와 연결시키려면 각 속성들의 통계학적 관계를 학습하여 개인정보의 Record와 가명정보의 Record를 하나의 데이터였던 것처럼 연결시켜주는 기술인 Record linkage가 필요하다.
      그런 이유로 Record Linkage의 다양한 기법들이 연구중이지만, 실제 비즈니스 상황에서 이러한 기법들을 비교 및 선택할 수 있는 방법이 존재하지 않기 때문에 각 데이터 분석 상황에 가장 적절한 Record linkage 기법을 선택 할 수 없게 된다. 또한, 기존 논문에서는 기법의 정확도를 평가하기 위해 원래 하나였던 데이터를 둘로 나누어 Record의 연결을 시행한 뒤 원래의 데이터와 연결된 데이터를 비교하였지만 처음부터 나누어져 있는 데이터를 붙여야 하는 실제 상황에서는 데이터 분석 결과의 신뢰도를 알 방법이 없다.
      이를 해결하기 위해서는 기업에서 구입한 정보 중 일부를 자체 수집하여 기법을 비교하기 위한 표본 지표를 만들어야 한다. 표본을 많이 수집할수록 지표의 성능은 좋아진다. 그러나 기업은 데이터를 자체적으로 수집하는 데에 비용이 들기 때문에 지표의 성능과 비용을 종합적으로 고려하여 최적의 표본 개수를 선택해야 한다.
      본 논문은 기업이 상관 분석과 T 검정을 하는 상황을 예시로 하여 기법 선택을 위한 지표를 생성하는 방법과 자체적으로 수집해야 하는 표본의 최적값을 구하는 방법을 제시하였다. 이를 통해 기업은 Record 연결을 통한 데이터 분석의 신뢰도를 평가하는 동시에, 각 분석에 가장 적절한 기법을 선택하여 보다 정확한 데이터 분석 결과를 도출해 낼 수 있다.
      번역하기

      2018년 11월 15일 데이터 3법이 국회에 발의 되어 지난 2020년 1월 9일 마침내 국회 본회의를 통과하여 2020년 8월 5일 시행을 앞두고 있다. 데이터 분석 주체인 기업의 입장에서 데이터 3법의 시행...

      2018년 11월 15일 데이터 3법이 국회에 발의 되어 지난 2020년 1월 9일 마침내 국회 본회의를 통과하여 2020년 8월 5일 시행을 앞두고 있다. 데이터 분석 주체인 기업의 입장에서 데이터 3법의 시행이 가지는 가장 큰 의의는 가명정보를 구입할 수 있게 된다는 것에 있다. 시행 이전인 현재는 데이터를 분석하기 위하여 모든 데이터를 자체 수집해야 했으나, 시행 이후에는 데이터를 수집하는 대신에 가명 정보를 구입하여 기업이 가지고 있는 정보와 연결시키면 데이터를 분석하는 비용을 크게 감소시킬 수 있다. 그러나 구입한 가명 정보는 개인을 특정할 수 있는 정보가 가려져 있으므로 이를 개인정보와 연결시키려면 각 속성들의 통계학적 관계를 학습하여 개인정보의 Record와 가명정보의 Record를 하나의 데이터였던 것처럼 연결시켜주는 기술인 Record linkage가 필요하다.
      그런 이유로 Record Linkage의 다양한 기법들이 연구중이지만, 실제 비즈니스 상황에서 이러한 기법들을 비교 및 선택할 수 있는 방법이 존재하지 않기 때문에 각 데이터 분석 상황에 가장 적절한 Record linkage 기법을 선택 할 수 없게 된다. 또한, 기존 논문에서는 기법의 정확도를 평가하기 위해 원래 하나였던 데이터를 둘로 나누어 Record의 연결을 시행한 뒤 원래의 데이터와 연결된 데이터를 비교하였지만 처음부터 나누어져 있는 데이터를 붙여야 하는 실제 상황에서는 데이터 분석 결과의 신뢰도를 알 방법이 없다.
      이를 해결하기 위해서는 기업에서 구입한 정보 중 일부를 자체 수집하여 기법을 비교하기 위한 표본 지표를 만들어야 한다. 표본을 많이 수집할수록 지표의 성능은 좋아진다. 그러나 기업은 데이터를 자체적으로 수집하는 데에 비용이 들기 때문에 지표의 성능과 비용을 종합적으로 고려하여 최적의 표본 개수를 선택해야 한다.
      본 논문은 기업이 상관 분석과 T 검정을 하는 상황을 예시로 하여 기법 선택을 위한 지표를 생성하는 방법과 자체적으로 수집해야 하는 표본의 최적값을 구하는 방법을 제시하였다. 이를 통해 기업은 Record 연결을 통한 데이터 분석의 신뢰도를 평가하는 동시에, 각 분석에 가장 적절한 기법을 선택하여 보다 정확한 데이터 분석 결과를 도출해 낼 수 있다.

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼