RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
        • 등재정보
        • 학술지명
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI우수등재

        심층 생성 모형을 이용한 재현 데이터 생성 방법론 리뷰 및 향후 연구 제언

        김지우,권성훈,김동하 한국데이터정보과학회 2023 한국데이터정보과학회지 Vol.34 No.5

        최근 데이터 통합 등을 통해 만들어진 거대 데이터에서 유용한 정보를 추출하고, 이를 통해 서비스를 정교화하기 위하여 많은 개인 및 기관에서 거대한 공공데이터에 대한 접근을 요구하고 있다. 하지만 이러한 거대 데이터 분석은 예기치 못한 개인정보노출이 발생할 수도 있기 때문에 공공데이터의 배포는 매우 조심스럽게 이루어져야 한다. 재현 데이터는 개인정보 비식별화와 데이터의 유용성 확보를 동시에 달성하기 위하여 사용하는 대표적인 기법 중 하나이다. 심층 인공 신경망 기반 방법론이 이미지 등의 고차원 관측 데이터 생성에 매우 높은 성능을 달성할 수 있음이 밝혀지면서 이를 재현 데이터에 활용하려는 연구가 활발하게 진행되고 있다. 본 논문에서는 심층 인공 신경망을 이용해 재현 데이터 생성을 하려는 다양한 기법들에 대해 소개하며, 이들을 데이터 전처리, 사용하는 모형, 손실 함수에 따라 정리한다. 또한, 각 연구에서 사용하고 있는 재현 데이터 생성 기법들의 성능을 측정하는 다양한 평가 측도들에 대해서도 소개한다. 마지막으로 기존 논문 리뷰를 바탕으로 향후 의미있는 연구 방향에 대해서도 기술한다. 심층 생성 모형 학습법과 재현 데이터의 근본적인 차이를 심도 있게 분석하여 현실적이면서도 구체적인 연구 주제를 제시한다는 점에서 앞으로의 연구자들에게 실제적인 도움을 줄 수 있을 것이라 기대한다. Recently, many individuals and organizations have been demanding access to big public data to extract meaningful information from them and thus be able to elaborate their services. However, as it can also lead to unexpected privacy leakage, the distribution should be treated carefully. Synthetic data generation is a popular technique for simultaneously de-identifying privacy and data usability. Deep learning-based generative models have been shown to achieve high performance in generating high-dimensional data such as images, so there is an increasing number of approaches to apply deep learning methods to synthetic data generation. In this paper, we review various synthesizing techniques using deep neural networks, organizing regard to their pre-processing, architectures, and objective functions. We also deal with widely used measures to evaluate their corresponding synthesized data in two views: usability and identification degree. Finally, we suggest interesting and promising future works in this field based on in-depth analysis of deep learning-based generative models and data synthesis. We hope that our suggestions will provide practical help to future researchers.

      • KCI우수등재

        SEC 프로세스를 통한 이종 산업 간 데이터 결합 문제 해결

        정수민,오현진,정은혜,조수현 한국데이터정보과학회 2024 한국데이터정보과학회지 Vol.35 No.5

        개인화 서비스의 중요도가 높아짐에 따라 다양한 산업 간 데이터 결합이 활성화되고 있다. 그러나 기존 데이터 결합 방식은 민감한 정보를 포함한 데이터를 직접 주고 받기 때문에 개인정보 유출 가능성이 높다는 문제점을 가지고 있다. 이에 본 연구에서는 성별 또는 연령과 같은 최소한의 고유정보를 활용해 데이터를 결합하는 방식을 제안한다. 데이터 보안을 강화하기 위해 연합 학습 (Federated learning)과 분할 학습 (Split learning)을 차용하여 모델을 학습시켰으며, 그 결과 SEC 프로세스를 통해 데이터를 결합한 경우, 결합 전 단일일 데이터에 비해 더욱 향상된 예측 성능을 보였다. 이처럼 SEC 프로세스를 통해 최소한의 고유정보를 사용한 데이터 결합은 개인정보를 침해를 예방하여 프라이버시 보호를 강화한다는 점에서 기존 데이터 결합 방식의 문제 개선과 더불어, 더욱 향상된 예측을 통해 다양한 서비스에 적용할 수 있을 것으로 기대된다. As the importance of personalized services increases, data combination across different industries is becoming more active. However, existing data combining methods have the problem of high possibility of personal information leakage because of the direct exchange of data containing sensitive information. So in this study, we suggest a data combination method using minimal unique information such as gender and age. We used Federated Learning and Split Learning to enhance data security when training the model. As a result, combining data through the SEC process showed improved prediction performance compared to raw data. Data combination using minimal unique information through the SEC process enhances privacy protection by preventing infringement of personal information. So we expect this method can not only improving problems with existing data combination methods, but also be applied to various services through improved predictions.

      • KCI우수등재

        우리나라 공공데이터의 소재정보

        김기환,이창호,최보승 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.5

        As the fourth industrial revolution becomes a major issue, interest in big data is growing. Big data refers to the technology for analyzing and utilizing countless numbers of data, and public data segments close to the real world account for their utilization. In Korea, data are widely generated in the public data sector as government 3.0 policy, starting with e-government. However, the sites that provide the data are not organized and the data being delivered different from site to site, requiring a lot of information to access them. Therefore, the present status of big data and administrative data existing in the country is classified according to the institutions, contents, utilization, and disclosure levels in order to better understanding the general outline of public data providing sites. As an information on material resources of the public data is summarized, basic knowledge on the presence, content, and utilization of big data and administrative data across a country were developed and statistical utilization status, methods, values, and limit development was developed. 4차 산업 혁명이 주요 이슈로 떠오르면서 빅데이터에 대한 관심도 커지고 있다. 빅데이터는 무수히 많은 데이터를 분석하여 활용하는 기술을 의미하며, 활용 측면에서 실생활에 밀접한 공공데이터 부문이 많은 비중을 차지하고 있다. 우리나라의 경우 전자정부를 시작으로 정부 3.0을 실시하면서 공공데이터 부문에서 데이터가 광범위하게 생성되고 있다. 하지만 데이터를 제공하는 사이트가 정리되어 있지 않으며, 데이터의 제공형태도 각 사이트마다 상이하여 데이터 이용에 많은 정보를 필요로 하고 있다. 이에 본 논문에서는 국가에 존재하는 빅데이터와 행정자료의 현황을 기관, 내용, 활용 및 공개 정도 등으로 분류하여 전체 윤곽을 파악하고 이해할 수 있도록 내용을 정리하였다. 공공데이터의 소재 정보를 정리함으로써 국가전반의 빅데이터와 행정자료의 존재현황과 내용 및 활용도에 대한 기본지식을 배양하고, 통계적 활용 현황, 방법, 가치와 한계, 발전방향에 관한 소양을 쌓을 수 있게 하고자 한다.

      • KCI우수등재

        제조 빅데이터 시스템을 위한 효과적인 시각화 기법

        유관희 한국데이터정보과학회 2017 한국데이터정보과학회지 Vol.28 No.6

        Manufacturing big data systems have supported decision making that can improve preemptive manufacturing activities through collection, storage, management, and predictive analysis of related 4M data in pre-manufacturing processes. Effective visualization of data is crucial for efficient management and operation of data in these systems. This paper presents visualization techniques that can be used to effectively show data collection, analysis, and prediction results in the manufacturing big data systems. Through the visualization technique presented in this paper, we have confirmed that it was not only easy to identify the problems that occurred at the manufacturing site, but also it was very useful to reply to these problems. 제조 빅데이터 시스템은 제조 전 공정에서 관련된 4M 데이터의 수집, 저장, 관리, 예측적 분석을 통해 선제적 제조 활동 개선지 가능한 의사결정을 지원하고 있다. 이러한 시스템에서 데이터의 효율적인 관리와 운영을 위해 데이터를 효과적으로 시각화다는 것이 무엇보다도 중요하다. 본 논문에서는 제조 빅데이터 시스템에서 데이터 수집, 분석 및 예측 결과를 효과적으로 보여 주기 위해 사용가능한 시각화 기법을 제시한다. 본 논문에서 제시된 시각화 기법을 통해 제조 현장에서 발생하는 문제를 보다 손쉽게 파악할 수 있었을 뿐만 아니라 이들 문제를 효과적으로 대응할 수 있어 매우 유용하게 사용 될 수 있음을 확인하였다.

      • KCI우수등재

        재중동포 가족 찾기 서신 데이터베이스 구축 및 토픽 모델링과 로컬 대리 분석을 적용한 서신 내용 분석

        김현희(Hyon Hee Kim),조진남(Jinnam Jo) 한국데이터정보과학회 2021 한국데이터정보과학회지 Vol.32 No.1

        본 연구에서는 1974년에서 2008년까지 진행된 KBS 한민족방송 가족 찾기 프로그램으로 발송된 재중동포 서신 8만 여통에 대하여 데이터베이스를 구축하고 서신의 내용을 분석하였다. 서신을 스캔하여 이미지 파일로 생성한 다음, 태그를 사용하여 서신 내용을 요약하여 서신 이미지를 저장하였다. 태그를 기반으로 검색이 가능하며 검색된 서신에 대한 발송지, 발송자, 발송일 정보와 태그를 저장하여 분석에 활용할 수 있도록 하였다. 데이터베이스 구축 시 서신의 주제를 분류하기 위해서 정치, 경제, 문화, 생활 등의 대분류를 정의하였으며, 각 대분류 내에서 구체적 내용을 파악하기 위해 토픽 모델링을 실시하였고 해당 주제에서 중요한 키워드를 찾기 위해서 나이브 베이즈 알고리즘으로 서신 분류 모델을 생성하고 설명가능 인공지능 기술의 하나인 로컬 대리 분석을 적용하여 해당 분야로 분류하게 된 핵심 키워드들을 추출하였다. 정치 분야의 서신 내용으로는 남북 관계, 한국 정부에 대한 요청 등의 주제를 찾아내었고, 경제 분야의 서신 내용으로는 물품 요청 및 국어사전, 일한사전 등과 같은 구체적인 요청 품목을 찾아내었다. 많은 빅데이터 연구가 다양한 학문 분야에서 융합 연구로 이루어지고 있는 반면, 인문학 분야에서 적용된 예는 드물다. 본 연구는 인문학 연구에도 빅데이터 분석에서 활용되는 다양한 분석 기법을 적용하여 성공적으로 결과를 도출할 수 있다는 것을 보여줌으로써 인문학 분야에서의 빅데이터 기반 연구가 의미가 있음을 보여준다. In this paper, we presented a correspondence database from ethnic Koreans living in China and content analysis using topic modeling and local surrogates. Scan image files were generated from correspondences and contents were summarized using tags. And then, image files were uploaded into the database. In addition, sender information such as name, location, dates, and subjects were inserted. Topic modeling was applied to specialized subjects such as politics, economy, society, and culture. Also, important keywords were extracted using the local surrogate analysis, one of the explainable artificial intelligence technology. In the subject of politics, the relationship between South Korea and North Korea and requests for improving the status of Korean living in China to Korean government were found. In the subject of economics, requests for daily necessity, dictionary, etc. were found. This paper shows that successful results can be derived from humanities research by applying various big data analysis techniques used in big data research.

      • KCI우수등재

        뇌영상 fMRI 데이터에 대한 통계적 분석

        김재희(Jaehee Kim) 한국데이터정보과학회 2018 한국데이터정보과학회지 Vol.29 No.6

        최근 뇌영상 데이터에 대한 연구는 폭발적인 증가를 보이고 있으며 기능적 뇌영상 데이터를 이용한 연구 또한 데이터의 증가와 더불어 연구가 매우 활발히 진행되고 있다. fMRI 데이터는 뇌과학, 뇌공학, 심리학, 물리학, 통계학 등의 분야에서의 연구자들이 학제간적 연구가 필요하여 뇌 활동(brain activity) 현상에 관한 궁극적 정보를 얻기위해 선진국에서 연구에 대한 지원과 더불어 연구자들은 뇌연구에 박차를 가하고 있다. 이 논문에서는 fMRI 데이터의 특성을 설명하고 뇌데이터 연구에 통계학과 통계적 방법을 설명하고 통계적 문제를 다루어 앞으로 뇌 연구에 통계학의 필요성을 더욱 강조하고자 한다. Recently brain imaging data analysis is explosively increasing. Accordingly fMRI data research is currently very active. Research on fMRI data needs interdisciplinary cowork with such as brain science, brain engineering, psychology, physics, statistics and etc. The advanced countries support the brain research projects to know the unknown world of human. The researchers spur their research to discover brain activity phenomena. The statistical theory and methods should be developed to solve the brain related data problem. We strongly emphasize that statisticians should play a important role and contribute in the brain science field.

      • KCI우수등재

        불균형 텍스트 데이터에서 카이제곱 통계량을 이용한 변수 선택의 편향성

        손원(Won Son) 한국데이터정보과학회 2020 한국데이터정보과학회지 Vol.31 No.5

        텍스트 데이터를 수치형 데이터로 변환하기 위해 사용되는 문서-단어행렬은 흔히 변수의 수가 많은 고차원 행렬 형태로 표현된다. 따라서 문서-단어행렬의 차원을 축소하기 위해 카이제곱 통계량, 오즈비 등의 지표를 이용하여 중요도가 높은 변수들만 선택하기도 한다. 특정 주제의 문서에 자주 사용되어 해당 주제와의 연관성이 높은 단어를 양변수, 반대로 해당 주제의 문서에 자주 사용되지 않는 단어를 음변수라 할 때 카이제곱 통계량은 양변수와 음변수를 모두 선택하는 양측 지표인 반면 오즈비는 양변수만 선택하는 단측 지표에 해당된다. 텍스트 데이터는 이항 분류 문제에서 급간 불균형도가 높은 경우가 많은데 이와 같은 불균형 텍스트 데이터에서는 카이제곱 통계량이 양변수만 많이 선택하는 편향성을 보인다. 이 논문에서는 불균형 텍스트 데이터의 변수 선택에서 카이제곱 통계량이 편향성을 보이는 이유에 대해 살펴 보고 실제 데이터를 통해 이와 많은 성질을 확인해본다. 또 카이제곱 통계량과 오즈비를 이용해 변수를 선택했을 때 분류 모형의 성능에 차이가 있는지 비교해본다. Usually document-term matrixes of text data are high-dimensional with many variables in columns. Therefore, for efficient text data analysis, feature selection metrics such as chi-square statistic and odds ratio are used for the choice of important variables. Chi-square statistic chooses negative features as well as positive features while odds ratio selects only positive features. However, for imbalanced text data, chi-square statistic tends to select much more positive features than negative ones. In this paper, we explain why does chi-square statistic select more positive values and observe this property with a real data example. In addition, the classification performance of two selection methods, chi-square statistic and odds ratio, is compared with real data.

      • KCI우수등재

        날씨와 인기도를 고려한 경북 관광지 추천 알고리즘 개발에 관한 연구

        서윤암,김희수,윤상후 한국데이터정보과학회 2022 한국데이터정보과학회지 Vol.33 No.5

        The weather has a lot of influence on itinerary decisions. The combination of weather and tourism data can create new values. This study proposes a recommendation algorithm for tourist attractions in North Gyeongsang Province considering the Korean-style tourism climate index and the popularity of tourist attractions according to weather conditions. First, the popularity of tourist attractions was obtained by using the number of reviews, ratings, and blogs provided by Naver. In addition, we obtain optimized popularity scores compared to the number of monthly tourist searches provided by Korea Datalab. Afterward, thermal comfort, wind speed, precipitation, and sunshine hours of tourist attractions are used to generate tourist climate indices. The weather information of tourist attractions was used to predict the weather conditions of the Korea Meteorological Administration's weather station and the latitude and longitude of tourist attractions using the kriging technique. Calculating the Korean-style Tourism Climate Index (KTCI) of tourist attractions through the predicted weather information can quantitatively evaluate the impact of weather conditions on tourism. A tourist recommendation algorithm was developed to reflect the KTCI score in the popularity of the finally optimized tourist attractions in Gyeongbuk. As a result of this study, there is a difference between sunny and cloudy days, but it does not have a significant impact on tourist recommendations and is similar to the ranking considering only popularity. On rainy days, recommendations focused on indoor tourist attractions with less outdoor exposure were prioritized. 날씨는 여행 일정 결정에 많은 영향을 미친다. 날씨와 관광의 데이터 결합은 새로운 가치를 만들어 낼 수 있다. 본 연구는 기상조건에 따른 한국형 관광기후지수와 관광지 인기도를 고려한 경상북도 관광지 추천알고리즘을 제안한다. 먼저 네이버에서 제공하는 관광지별 리뷰 수, 평점, 블로그 수를 이용해 관광지 인기도를 구하였다. 또한, 한국관광 데이터랩에서 제공하는 월별 관광지 검색 건수와 비교하여 최적화된 인기도 점수를 구하였다. 이후 관광지의 관광기후지수를 생성하기 위해 관광지의 열적쾌적성, 풍속, 강수, 일조시간을 이용한다. 관광지의 기상정보는 크리깅 기법을 이용해 기상청의 기상관측소 날씨 데이터와 관광지의 위·경도를 이용하여 관광지의 날씨를 예측하였다. 예측된 기상정보를 통해 관광지의 한국형 관광기후지수 (Korean tourism climate index, KTCI)를 계산하면 관광지의 기상조건이 관광에 미치는 영향을 정량적으로 평가할 수 있다. 최종적으로 최적화한 경상북도 지역 관광지의 인기도에 KTCI 점수를 반영하여 관광지 추천 알고리즘을 개발하였다. 본 연구 결과, 관광지 추천에 있어 맑은 날과 흐린 날은 차이는 있으나 관광지 추천에 큰 영향을 미치지 않으며 인기도만 고려한 순위와 비슷하였다. 비가 내리는 날은 야외 노출 정도가 적은 실내 관광지 위주의 추천이 우선되었다.

      • KCI우수등재

        통일 한국의 징병제와 모병제 하의 병력규모에 관한 연구

        조홍용 한국데이터정보과학회 2017 한국데이터정보과학회지 Vol.28 No.6

        There have been many researches on the optimal military size of unified Korea. However, most studies have used qualitative evaluation methods using subjective data. In addition, two studies incorporating statistical methodologies fail to derive appropriate results due to errors in selection of variables and the use of subjective data. Therefore, in this study, we use the ratio data instead of the country specific defense related data for 30 major countries in the world. We applied the logic of demand and supply of economics. The supply equations were produced by regression linear equation of the active ratio and defense ratio. The demand equations were produced as an inverse curves using the same coordinate system as the supply equation. With such a method, we estimated the appropriate military size and defense ratio for each of conscript and recruit system in unified Korea about 20 - 30 years later. 통일 한국의 적정 병력규모에 관한 연구는 이전부터 있어 왔다. 그러나 대부분의 연구들은 주관적인 데이터를 사용하여 정성적인 평가 방법을 사용해 왔었다. 또한 통계학적인 방법론을 도입한 두 가지 연구에서는 변수의 선택의 오류와 주관적인 데이터의 사용으로 인하여 적절한 결과를 도출하지 못하고 있다. 따라서 본 연구에서는 세계 주요 군사강국 30여개 국가를 대상으로 국방 관련 국가별 고유의 데이터가 아닌 비율화된 데이터를 사용하였다. 이들 객관화된 데이터에 경제학의 수요와 공급의 논리를 적용하였다. 공급방정식들은 병력 비율과 국방비 비율의 회귀직선식으로 산출하였다. 수요방정식들은 공급방정식과 동일한 좌표계를 사용하는 반비례곡선식으로 산출하였다. 이와 같은 방법으로 향후 약 20 - 30년 후의 통일 한국에 대한 징병제와 모병제의 각각의 경우에 대하여 적정 병력 규모와 국방비 비율을 추정하였다.

      • KCI우수등재

        원형 데이터의 로버스트 위치 추정량과 유일성 조건

        박소영,이종민 한국데이터정보과학회 2025 한국데이터정보과학회지 Vol.36 No.4

        비정형데이터 (nonstandard data)의 한 형태인 다양체데이터 (manifold-valued data)는 현대사회에서 점점 더 많이 수집되는 추세이다 (Huckemann와 Eltzner, 2021). 따라서 이러한 데이터에 내재된 구조를 고려하는 것이 데이터 분석에 필요하다. 아울러 주어진 데이터가 이상점을 다수 포함할 때 이상점에 민감하지 않는 통계적 방법론을 고려하는 것은 로버스트 통계학 (robust statistics)의 관점에서 자연스럽다. 본 연구에서는 다양체데이터의 한 형태인 원형데이터 (circluar data)에 대한 로버스트 위치 추정량의 성질을 탐구하고 기존의 추정량들과 비교하고자 한다. 구체적으로, 본 연구에서는 로버스트 위치 추정량이 유일하게 정의될 필요충분조건을 제시한다. 아울러 실제 풍향데이터에 로버스트 위치 추정량과 기존의 위치 추정량을 적용하여 비교 분석한다. Manifold-valued data, forms of nonstandard data, are increasingly encountered in modern society (Huckemann and Eltzner, 2021). Hence, data analysis should consider geometric structures inherent in these data. When a set of data contains multiple outliers, it is natural from the perspective of robust statistics to consider a statistical methodology that is less affected by outliers. In this study, we would like to explore the properties of a robust mean estimator for circular data and compare it with existing estimators. Specifically, we present a necessary and sufficient condition for the robust location estimator to be uniquely defined. In addition, it is compared and analyzed by applying the robust estimator and existing estimators to the wind direction real data.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼