RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • Knowledge Distillation based GANs for Anomaly Detection : 이상탐지를 위한 지식증류 기반 GANs

        Guo, Wu 경북대학교 일반대학원 2022 국내석사

        RANK : 2941

        Generative adversarial network(GAN)는 딥 러닝을 위한 이미지 처리 분야에서 널리 사용되는 비지도 학습 기술이다. GAN의 목적은 판별기를 사용하여 주어진 샘플의 분포를 모델링하는 것이며, GAN의 생성자는 실제 데이터와 구별할 수 없는 새로운 샘플을 생성하는 역할을 한다. 최근 GAN에서 기존 생성기의 한계를 해결하고 주어진 샘플의 대표 패턴을 학습하기 위해 AnoGAN, Efficient GAN, BiGAN 및 CBiGAN과 같은 다양한 조합 접근법이 등장하고 있다. GAN의 표현 학습 능력으로 인해, 그들은 주어진 데이터의 비정상적인 하위 집합을 찾기 위한 이상 탐지 작업에도 사용되었다. 이상 탐지에서 GAN 모델은 정상 샘플의 특징을 학습하고 입력 데이터를 정상과 유사한 데이터로 재구성한다. 그런 다음 재구성된 샘플과 입력 샘플 간의 차이가 이상 점수로 정량화됬다. 사전 훈련된 선생님와 미세 조정된 학생을 사용한 최근의 학생-선생님 프레임워크는 이상 징후 감지 작업에서 유망한 결과를 달성했다. 이러한 학생-선생님 프레임워크에서 이상 점수는 학생과 선생님 네트워크 간의 재구성된 차이를 사용하여 추정한다. 우리의 모델은 학생-선생님 접근 방식을 자동 인코더와 결합하여 GAN의 생성기를 구성함으로써 GAN의 픽셀 수준 생성 능력을 획기적으로 향상시키며, 공개적으로 사용 가능한 데이터 세트 MVTec 이상 탐지 작업에서 AUROC는 다른 GAN의 결과를 능가한다. Generative adversarial networks(GANs) are an unsupervised learning technique that is widely used in the field of image processing for deep learning. The purpose of generative adversarial networks is to model the distribution of a given sample using discriminators while the generators of GANs has a role to generate new sample which are not distinguishable from real data. Recently, various combinatorial approaches, such as AnoGAN, Efficient GAN, BiGAN, and CBiGAN, have been emerged to address the limitations of conventional generators in GANs and to learn the representative patterns of given samples. Owing to the representation learning ability of GANs, they have also been employed in anomaly detection tasks to find abnormal subsets of given data. In the anomaly detection, the GAN models learn the features of normal sample and reconstruct input data as normal-like data. Then the differences between the reconstructed and input sample are quantified as an anomaly score. Recent student-teacher frameworks using a pre-trained teacher and a fine-tuned student have achieved promising results in the anomaly detection tasks. In these student-teacher frameworks, the anomaly score is estimated by using the reconstructed difference between student and teacher networks. Our model dramatically improves the pixel-level generation capability of the GANs by combining the student-teacher approach with the autoencoder to form the generator part of the GANs, and the AUROC on the publicly available dataset MVTec anomaly detection task exceeds the results of several other GANs.

      • Generation of Topology Optimization Validation Curve using GANs and Clustering Analysis

        심은아 세종대학교 대학원 2020 국내석사

        RANK : 2895

        The main purpose of a topology optimization problem is to achieve the minimum compliance. The ner discretization for the design variable is required for highresolution design of a topology optimization problem, while it needs more computation costs. For this reason, this study proposes a new method to generate data instead of numerical analysis through the generative models which are referred to generate new data through training with the probability distribution of the input values. Generative Adversarial Networks (GANs) and Deep Convolutional Generative Adversarial Networks (DCGANs) are used as the generative models. Clustering analysis is applied to select valid data with the minimum compliance and the discreteness of design variables out of generated data through the GANs and the DCGANs. Additionally, a Topology Optimization Validation Curve (TOVC) is developed to collect the optimized valid data according to the entire volume fraction. Moreover, an image ltering is additionally performed on the generated data to show up more visibly using the sigmoid lter. The adaptability of the proposed method is tested for the topology optimization problem of the well-known MBB beams.

      • (A) password guessing method based on generative adversarial networks with offensive security perspective

        남성엽 Graduate School of Cybersecurity, Korea University 2021 국내박사

        RANK : 2892

        Text-based passwords are a fundamental and popular means of authentication. Password authentication is simple to implement because it does not require any equipment, unlike biometric authentication, and it relies only on the user’s memory. Therefore, people often use easy-to-remember passwords, such as ”iloveyou1234.” This reliance on memory, however, is an inherent weakness of passwords, mainly because these easy-to-remember passwords can also be cracked easily. Despite this well-known weakness, passwords are still the de-facto authentication method for most online systems. Owing to this importance, password cracking has been researched extensively, both for offensive and defensive purposes. Hashcat and John the Ripper are the most popular cracking tools, allowing users to crack millions of passwords in a short time, based on password- cracking dictionaries and rule-sets. However, rule-based cracking has an explicit limitation of depending on password-cracking experts to come up with creative rules. To overcome this limitation, a recent trend has been to apply machine learning techniques to conduct research on password cracking. For instance, state-of-the-art password guessing studies such as PassGAN adopted a Generative Adversarial Network (GAN) and used it to generate highquality password guesses without knowledge of password structures. However, compared to the probabilistic context-free grammar (PCFG), PassGAN showed inferior passwordcracking performance in all experimental cases. In addition, PassGAN could not prove its cracking performance under practical cases (long-length and complicated passwords). In this thesis, I propose new methods for achieving improved password-cracking performance, which are based on both the generator and discriminator modules of a GAN. With respect to the generator of GAN, I describe new techniques for improving the passwordcracking performance of PassGAN. Interestingly, changing both basic neural networks and the hyper-parameter configuration of GANs outperforms the cracking performance of PassGAN. In addition, transforming to dual-discriminator architecture has a beneficial effect on improving the password-cracking performance. These new approaches are denoted as rPassGAN, rPassD2CGAN, and rPassD2SGAN. In some experimental cases, the rPassGAN series surpasses PCFG as well. Through several experiments with rPassGAN, I observed that each password guessing model has its own cracking space that does not overlap with other models. This observation led me to realize that an optimized candidate dictionary can be made by combining the password candidates generated by multiple password generation models. The second technique I suggest is a deep learning-based approach called REDPACK that addresses the weakness of the cutting-edge GAN-based password-cracking tools. To this end, REDPACK combines multiple password generator models in an effective way. This approach uses the discriminator of the rPassGAN as the password-candidate selector. Then, by collecting passwords selectively, REDPACK achieves a more realistic password candidate dictionary. Also, REDPACK improves password cracking performance by incorporating both the generator and the discriminator in a GAN framework. I evaluated this model on various datasets with password candidates composed of symbols, digits, upper, and lowercase letters. The results clearly show that my approach outperforms all existing approaches, including rule-based Hashcat, GAN-based PassGAN, and probability-based PCFG. Another advantage of the proposed model is that REDPACK can reduce the number of password candidates by up to one-third or one-fourth, with small cracking performance loss compared to the union set of passwords cracked by multiple-generation models. Finally, I propose iREDPACK, which is the first heterogeneously-structured GAN model in the password-cracking domain and adopts the concept of Google Inception. iREDPACK is designed for handling passphrase-structured passwords. iREDPACK selects more password candidates of PCFG than REDPACK in all experiments.

      • GANs와 autoencoders를 이용한 시스템 이상징후 탐지

        서지영 고려대학교 컴퓨터정보통신대학원 2022 국내석사

        RANK : 2879

        기업에서 생산되는 제품 및 정보는 모두 시스템(장비)에 의해서 처리된다. 만약 시스템의 운영이 잠시라도 멈춘다면 기업은 이윤에 대한 손실뿐만 아니라 오랫동안 쌓아온 이미지도 손상될 수 있다. 따라서 시스템을 항시 안정적으로 운영하는 것은 기업의 우선 과제 중 하나이다. 24시간 안정적인 운영을 위해서는 시스템에서 발생하는 로그를 분석한 후 이상징후를 탐지할 수 있어야 한다. 본 연구 역시 제지 공장에서 발생하는 센서 데이터를 이용하여 장애를 탐지하였다. 하지만 시스템은 정상적으로 운영되도록 설계되었기 때문에 수집된 데이터는 정상 상태와 비정상 상태의 로그가 불균형을 이룬다. 정상 상태의 로그가 대부분이며 비정상 상태의 로그는 일부에 지나지 않는다. 본 논문에서는 불균형 상태의 데이터를 처리하기 위해 적대적 생성 신경망(Generative Adversarial Network, GAN), 조건부 적대적 생성 신경망(Conditional Generative Adversarial Network, cGAN) 및 기울기 패널티가 적용된 와서스틴 적대적 생성 신경망(Wasserstein Generative Adversarial Network, WGAN)을 사용하여 데이터를 확장하는 방법을 사용하였다. 확장된 비정상 상태의 데이터는 머신 러닝(엑스지부스트, 의사결정 나무, 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 회귀)과 딥러닝(다층 신경망) 모델을 적용하고, 확장된 정상 상태의 데이터에는 오토인코더(Autoencoder)를 적용하여 시스템 이상징후를 탐지/예측할 수 있는 방법을 설명한다.

      • Regularization of Conditional Generative Adversarial Networks by Moment Matching for Multimodal Generation

        이수찬 서울대학교 대학원 2019 국내석사

        RANK : 2877

        최근 조건부 GAN(conditional generative adversarial networks)의 등장으로 이미지 변환(image-to-image translation), 이미지 채우기(image inpainting)와 같은 조건부 이미지 생성 기술이 발달하게 되었다. 조건부 GAN은 거의 모든 경우 GAN 손실 함수와 재건 손실 함수를 함께 사용하여 트레이닝 되는데, 우리는 이 일반적인 트레이닝 방법론이 생성물의 다양성을 크게 훼손한다는 것을 밝힌다. 우리는 트레이닝의 안정성과 생성 다양성을 모두 달성하기 위해 새로운 손실 함수와 트레이닝 방식을 제안한다. 우리의 손실 함수는 재건 손실 함수만을 간단히 대체하기 때문에 사실상 모든 조건부 생성 문제에 적용할 수 있다. 우리는 Cityscapes와 CelebA 데이터셋을 대상으로 이미지 변환, 이미지 채우기, 초해상(super-resolution) 실험을 진행하여 우리의 방법론이 일반적으로 적용될 수 있음을 보이고, 정량적 평가를 통해서도 우리의 방법론이 이미지의 품질을 해치지 않으면서 높은 생성 다양성을 달성하는 것을 확인한다. Recent advances in conditional image generation tasks, such as image-to-image translation and image inpainting, can largely be accounted to the success of conditional GAN models, which are often optimized by the joint use of the GAN loss with the reconstruction loss. However, we show that this training recipe shared by almost all existing methods is problematic and has one critical side effect: lack of diversity in output samples. In order to accomplish both training stability and multimodal output generation, we propose novel training schemes with a new set of losses that simply replace the reconstruction loss, and thus are applicable to any conditional generation task. We show this by performing thorough experiments on image-to-image translation, super-resolution, and image inpainting tasks using Cityscapes, and CelebA dataset. Quantitative evaluation also confirms that our methods achieve a great diversity in outputs while retaining or even improving the quality of images.

      • Text Segmentation in Document and Scene Image by Paired Data Synthesis

        당꽝빈 전남대학교 2022 국내박사

        RANK : 2874

        Scene text segmentation aims to accurately make dense predictions to detect, for pixel-level, the presence of text from the scene. It is a fundamental task in many text-related computer vision tasks. It continuously plays an essential role in many smart applications, such as text recognition, font style transfer, text image editing, and scene text removal, requiring effective text segmentation approaches to extract textual information in natural images. However, text segmentation in the wild is still a big challenge due to the unconstrained scene environment, e.g. various text sizes, colour, font, spatial layout, and uncontrollable backgrounds. Furthermore, there is a lack of data in this task. Existing human-annotated datasets suffer from limited data volume and diversity. The number of images in the available datasets for scene text segmentation is not large enough to effectively train deep learning-based models, leading to limited performance. To solve this problem, we employ paired data generation to secure sufficient data samples for text segmentation via Text Image-conditional GANs. Furthermore, the existing text segmentation models are explored to implicitly model distinctive text attributes (e.g., size, layout, font, and structure). Therefore, we propose a scene text segmentation network, called Multi-task Cascade Transformer, to explicitly learn distinctive text attributes. This includes two auxiliary tasks and one main task for text segmentation. The functions of the two auxiliary tasks are to learn the text region to pay attention to, together with learning the structure of the text through different words and their fonts, then support the main task. To reduce the domain gap between different datasets, we train the proposed text segmentation network on the paired synthetic data, before fine-tuning on real data. Our experimental results on publicly available datasets for scene text segmentation outperform existing methods. To broaden the research diversity of text images, we also explore the text in document images. Text is the most crucial element in a document image but is often disconnected in document image binarization. Most of the previous methods based on deep learning do not focus on structure information such as stroke boundary, leading to disconnected strokes when the stroke is ambiguous or weak. We propose multi-task learning with an auxiliary task for learning stroke boundary features in an adversarial manner. The learned boundary features are integrated into the main task for the binarization. Specifically, in the first step, in addition to using shared global location features with the main task, the auxiliary task leverages additional local edges to obtain stroke boundary features. In the second step, we use adversarial loss based on boundary ground truth to supervise the obtained stroke boundary feature in the auxiliary task. The adversarial training is to embed expert knowledge, especially structure information, in the model. In the third step, the learned boundary feature from the auxiliary task supports the main task directly. The fusion module of the main task refines the final binarized image. Experiments show that our method achieves better-preserved stroke and better performance than existing methods on benchmark H-DBCO and DIBCO datasets. Furthermore, we also research document image binarization with unpaired data training. Data is essential in deep learning, but the scarcity of data often occurs in research, especially in the preparation of the paired training data. Document image binarization with unpaired data is studied by introducing adversarial learning, excluding the need for supervised or labelled datasets. However, the simple extension of the previous unpaired training to binarization inevitably leads to poor performance compared to paired data training. Thus, a new deep learning approach is proposed by introducing a multi diversity of higher quality generated images. In this paper, a two-stage model is proposed that comprises the generative adversarial network (GANs) followed by the u-net network. In the first stage, the gan uses the unpaired image data to create paired image data. In the second stage, the generated paired image data are passed through the u-net network for binarization. Thus, the trained u-net becomes the binarization model during the testing. The proposed model has been evaluated over the publicly available DIBCO dataset, and it outperforms other techniques on unpaired training data. It shows the potential of using unpaired data for binarization, for the first time in the literature, which can be further improved to replace paired data training for binarization in the future. 장면 텍스트 분할은 픽셀 수준에서 장면의 텍스트 존재를 감지하기 위해 밀집 예측을 정확하게 수행하는 것을 목표로 합니다. 많은 텍스트 관련 컴퓨터 비전 작업에서 기본 작업입니다. 텍스트 인식, 글꼴 스타일 전송, 텍스트 이미지 편집 및 장면 텍스트 제거와 같은 많은 스마트 응용 프로그램에서 지속적으로 필수적인 역할을 하며 자연 이미지에서 텍스트 정보를 추출하기 위한 효과적인 텍스트 분할 접근 방식이 필요합니다. 그러나 다양한 텍스트 크기, 색상, 글꼴, 공간 레이아웃 및 제어할 수 없는 배경과 같은 제약이 없는 장면 환경으로 인해 야생에서의 텍스트 분할은 여전히 큰 과제입니다. 또한 이 작업에는 데이터가 부족합니다. 기존의 인간 주석이 달린 데이터 세트는 제한된 데이터 볼륨과 다양성으로 어려움을 겪습니다. 장면 텍스트 분할에 사용 가능한 데이터 세트의 이미지 수가 딥 러닝 기반 모델을 효과적으로 훈련할 만큼 충분히 크지 않아 성능이 제한됩니다. 이 문제를 해결하기 위해 쌍 데이터 생성을 사용하여 텍스트 이미지 조건부 GAN을 통한 텍스트 분할을 위한 충분한 데이터 샘플을 확보합니다. 또한 기존 텍스트 분할 모델을 탐색하여 고유한 텍스트 속성(예: 크기, 레이아웃, 글꼴 및 구조)을 암시적으로 모델링합니다. 따라서 우리는 고유한 텍스트 속성을 명시적으로 학습하기 위해 Multi-task Cascade Transformer라고 하는 장면 텍스트 분할 네트워크를 제안합니다. 여기에는 2개의 보조 작업과 텍스트 분할을 위한 1개의 주요 작업이 포함됩니다. 두 가지 보조 과제의 기능은 주의할 텍스트 영역을 학습하고 다른 단어와 글꼴을 통해 텍스트의 구조를 학습한 다음 주요 과제를 지원하는 것입니다. 서로 다른 데이터 세트 간의 도메인 간격을 줄이기 위해 실제 데이터를 미세 조정하기 전에 쌍으로 된 합성 데이터에 대해 제안된 텍스트 분할 네트워크를 훈련합니다. 장면 텍스트 분할을 위해 공개적으로 사용 가능한 데이터 세트에 대한 실험 결과는 기존 방법을 능가합니다. 텍스트 이미지의 연구 다양성을 넓히기 위해 문서 이미지의 텍스트도 탐색합니다. 텍스트는 문서 이미지에서 가장 중요한 요소이지만 문서 이미지 이진화에서는 종종 연결이 끊어집니다. 기존의 딥 러닝 기반 방법은 대부분 획 경계와 같은 구조 정보에 중점을 두지 않아 획이 모호하거나 약할 때 연결이 끊긴 획으로 이어집니다. 우리는 획 경계 특징을 적대적으로 학습하기 위한 보조 과제가 있는 다중 작업 학습을 제안합니다. 학습된 경계 기능은 이진화를 위한 주요 작업에 통합됩니다. 특히 첫 번째 단계에서 기본 작업과 함께 공유 전역 위치 기능을 사용하는 것 외에도 보조 작업은 추가 로컬 가장자리를 활용하여 스트로크 경계 기능을 얻습니다. 두 번째 단계에서는 경계 ground truth를 기반으로 하는 adversarial loss를 사용하여 보조 작업에서 획득한 스트로크 경계 특성을 감독합니다. 적대적 훈련은 전문 지식, 특히 구조 정보를 모델에 포함시키는 것을 목표로 합니다. 세 번째 단계에서는 보조 태스크에서 학습된 경계 기능이 주 태스크를 직접 지원합니다. 주요 작업의 융합 모듈은 최종 이진화된 이미지를 정제합니다. 실험은 우리의 방법이 벤치마크 H-DBCO 및 DIBCO 데이터 세트에서 기존 방법보다 더 잘 보존된 스트로크와 더 나은 성능을 달성함을 보여줍니다. 또한, unpaired 데이터 훈련을 통한 문서 이미지 이진화도 연구합니다. 데이터는 딥 러닝에 필수적이지만 연구, 특히 페어링된 훈련 데이터를 준비할 때 데이터 부족이 자주 발생합니다. 짝을 이루지 않은 데이터를 사용한 문서 이미지 이진화는 완전 지도 학습 또는 레이블이 지정된 데이터 세트의 필요성을 제외하고 적대적 학습을 도입하여 연구됩니다. 그러나 이전의 unpaired training을 이진화로 단순 확장하면 paired 데이터 훈련에 비해 성능이 떨어질 수 밖에 없습니다. 따라서 고품질 생성 이미지의 다중 다양성을 도입하여 새로운 딥 러닝 접근 방식을 제안합니다. 본 논문에서는 u-net 네트워크가 뒤따르는 GANs(Generative Adversarial Network)으로 구성된 2단계 모델을 제안합니다. 첫 번째 단계에서 GANs은 쌍을 이루지 않은 이미지 데이터를 사용하여 쌍을 이루는 이미지 데이터를 생성합니다. 두 번째 단계에서 생성된 쌍 이미지 데이터는 이진화를 위해 u-net 네트워크를 통해 전달됩니다. 따라서 훈련된 u-net은 테스트 중에 이진화 모델이 됩니다. 제안된 모델은 공개적으로 사용 가능한 DIBCO 데이터 세트에 대해 평가되었으며 짝을 이루지 않은 교육 데이터에 대한 다른 기술보다 성능이 뛰어납니다. 이는 문헌에서 처음으로 이진화를 위해 쌍을 이루지 않은 데이터를 사용할 수 있는 가능성을 보여주며, 향후 이진화를 위한 쌍을 이루는 데이터 교육을 대체하기 위해 더욱 개선될 수 있습니다.

      • 조건부 GAN 기반 마이크로폰 위상 배열의 Mic 4-to-Mic 64 음원 맵 변환 방법

        지윤호 고려대학교 대학원 2024 국내석사

        RANK : 2862

        음원 위치 추정(SSL, Sound Source Localization)은 음원의 공간적 위치를 마이크로폰 배열을 이용하여 빔포밍(beamforming) 방법을 통해 정확하게 포착하고 시각적으로 표현할 수 있다. 음원 위치 추정을 통해 기계 시스템의 소음원 식별, 가스 또는 액체 누출 모니터링, 적의 무기 감지 및 탐지 등 다양한 분야의 애플리케이션에서 널리 사용되고 있다. 정확한 음원의 위치를 포착하기 위해서는 마이크로폰 배열을 설계할 때, 마이크로폰의 수와 마이크로폰 간의 거리를 고려해야 한다. 음원 위치 측정을 위해 마이크로폰 배열에 사용되는 마이크로폰의 수를 줄이면 마이크로폰 사이 간격이 넓어지게 되어, 음원의 파장이 마이크로폰 간의 거리보다 크게 되어 공간 앨리어싱(spatial aliasing)이 발생하여 음원의 방향이나 위치가 모호해지거나 왜곡된다. 이를 해결하기 위해서 기존의 음원 위치 추정은 주로 마이크로폰 배열의 기하학적 설계에 중점을 두었다. 적절하게 설계된 마이크로폰 배열을 통해 음향 신호를 포착하여 신호 처리 알고리즘을 통해 정확한 음원의 위치를 음원 맵을 통해 시각화할 수 있었다. 딥러닝의 발전으로 음원 위치 추정 등 다양한 응용 분야에서 적용 및 제안되고 있으며 많은 연구가 이루어지고 있다. 본 연구에서는 딥러닝 모델 중 조건부 GAN을 이용하여 적은 수의 마이크로폰 배열(Mic 4)을 통해 얻은 음원 맵을 많은 수의 마이크로폰 배열(Mic 64)을 통해 얻은 음원 맵처럼 변환하여 정확한 음원 위치를 추정하고 지역화하는 것을 목표로 한다. Mic 4에서 Mic 64의 음원 맵 변환을 픽셀 단위의 이미지 변환이 가능한 조건부 GAN 기반의 pix2pix 모델과 데이터 증강 방법을 사용하였다. 실험을 통해 4-마이크로폰 배열의 음원 맵에서 64-마이크로폰 배열의 음원 맵처럼 변환하여 음원의 위치를 추정하고 지역화가 가능함을 확인하였다. 조건부 GAN 기반의 pix2pix 모델의 판별자인 PatchGAN을 사용하는 대신에 다중 스케일 판별자로 변경하여 변환된 음원 맵의 정확도가 개선되는 것을 확인하였다. 또한 증강된 음원 맵을 추가하여 학습하면 제한된 데이터를 통해 변환된 음원 맵보다 정확도가 개선되어 데이터 부족 문제를 해결할 수 있음을 확인하였다. 제안하는 음원 맵 변환 방법을 통해 마이크로폰 배열에 대한 설계 비용 절감과 적은 수의 마이크로폰 배열로 얻은 음원 맵에 대한 데이터 처리 용이성을 달성할 수 있다. Sound source localization (SSL) is the accurate capture and visual representation of the spatial position of a sound source using an array of microphones through a beamforming method. Sound source localization is widely used in a variety of applications, including identifying noise sources in mechanical systems, monitoring gas or liquid leaks, and detecting and locating enemy weapons. To capture the exact location of a sound source, the number of microphones and the distance between them must be considered when designing a microphone array. Reducing the number of microphones used in a microphone array for sound source localization increases the spacing between microphones. If the wavelength of the sound source becomes larger than the distance between the microphones, spatial aliasing occurs, which causes the direction or position of the sound source to become ambiguous or distorted. To solve this problem, traditional sound source location estimation mainly focuses on the geometric design of the microphone array. By capturing acoustic signals through a properly designed microphone array, signal processing algorithms can visualize the exact location of the sound source through a sound map. With the development of deep learning, it has been applied and proposed in various applications such as sound source location estimation, and many studies have been conducted. In this study, we aim to estimate and localize the exact sound source location by converting the sound source map obtained through a small number of microphone arrays (Mic 4) into a sound source map obtained through a large number of microphone arrays (Mic 64) using a conditional generative adversarial neural network among deep learning models. The pix2pix model and data augmentation method based on a conditional generative adversarial neural network capable of pixel-by-pixel image conversion of sound source maps from Mic 4 to Mic 64 are used. Experiments have shown that it is possible to estimate and localize sound sources by converting a sound source map of a 4-microphone array to a sound source map of a 64-microphone array. Instead of using PatchGAN, a pix2pix model discriminator based on a conditional generative adversarial neural network, we found that the accuracy of the converted sound source map was improved by changing to a multi-scale discriminator. We also found that learning by adding an augmented sound source map can improve the accuracy of the converted sound source map with limited data, which can solve the problem of insufficient data. The proposed sound source map conversion method enables the reduction of design costs for microphone arrays and ease of data processing for sound source maps obtained with a small number of microphone arrays.

      • GA3N: Generative Adversarial AutoAugment Network

        Chinbat Vanchinbal Incheon National University Graduate School 2022 국내석사

        RANK : 2861

        Data augmentation is beneficial for improving robustness of deep meta-learning. However, data augmentation methods for the recent deep meta-learning are still based on photometric or geometric manipulations or combinations of images. This thesis paper proposes a generative adversarial autoaugment network (GA3N) for enlarging the augmentation search space and improving classification accuracy. To achieve, we first extend the search space of image augmentation by using GANs. However, the main challenge is to generate images suitable for the task. For solution, we find the best policy by optimizing a target and GAN losses alternatively. We then use the manipulated and generated samples determined by the policy network as augmented samples for improving target tasks. To show the effects of our method, we implement classification networks by combining our GA3N and evaluate them on CIFAR-100 and Tiny-ImageNet datasets. As a result, we achieve better accuracy than the recent AutoAugment methods on each dataset. 강건한 deep meta-learning을 위해 데이터 증강 방법을 사용하는 것이 효과적이다. 그러나 최신 deep meta-learning 방법에 사용되는 데이터 증강 방법은 아직도 photometric 및 기하학적 변환 방법에 의존적인 경향을 보이고 있다. 본 논문에서는 augmentation search space를 확장하고, 객체 판별 task의 정확도 향상을 위해generative adversarial autoaugment network (GA3N)을 제안한다. 제안하는 GA3N은 먼저 GAN을 이용하여 이미지 증강을 위한 search space를 확장하고, 각 task에 적절한 이미지를 생성하기 위해 target task와 GAN의 손실 함수를 최적화하여 가장 적합한 policy를 탐색한다. 최적의 policy를 사용하여 생성 및 조작된 이미지 샘플은 target task의 정확도를 향상시키는데 활용된다. 본 논문에서는 제안하는 GA3N의 효과를 입증하기 위해서, 객체 판별 네트워크와 GA3N을 결합하였고, 그 결과 CIFAR-100과 Tiny-ImageNet 데이터셋에서 AutoAugment 보다 향상된 성능을 달성하였다.

      • Disconnected Manifold Learning with Pseudo-Labeled cGANs

        정승재 서울대학교 대학원 2020 국내석사

        RANK : 2843

        Previous studies pointed out that the generation process via a simply connected prior and a single generator may lead to the mode collapse problem in GANs. Introducing multiple generators and a classifier mitigated mode collapse problem. However, in many cases, we do not know the number of manifolds in advance. If the number of generators is greater than the number of manifolds, the classifier inevitably lays its decision boundaries on manifolds. Even if we do know the number of manifolds, the decision boundaries may be laid on manifolds. In these cases, generators do not sample data near decision boundaries. To remedy this problem, we propose pseudo- labeled cGANs which match two joint distributions p_r (x, c) and p_g (x, c) instead of two marginal distributions p_r(x) and p_g(x). Our model samples data near decision boundaries while maintaining the strength of classifier-based GANs. Empirically, our model is insensitive to the number of generators on Moons, MNIST, and CIFAR10 datasets. 이전 연구들은 단순 연결된 사전 확률과 하나의 생성자를 통한 생성 과정은 GAN에서의 모드 붕괴 문제를 야기할 수 있음을 지적하였다. 여러 개의 생성자와 하나의 분류기를 사용하여 각각의 생성자가 다른 데이터 공간에 집중하게 하는 것 은 모드 붕괴 문제를 완화시켰다. 그러나, 많은 경우에 우리는 매니폴드의 갯수를 미리 알지 못한다. 생성자의 갯수가 매니폴드의 갯수보다 많으면 분류기는 결정 경 계를 매니폴드 위에 두게 된다. 우리가 매니폴드의 갯수를 미리 안다고 하더라도, 결정 경계는 매니폴드 위에 놓일 수 있다. 이러한 경우에 생성자는 결정 경계 근처 에서 데이터를 추출하지 않는다. 이 문제를 해결하기 위해, 우리는 의사 레이블링된 조건적 적대적 생성 신경망을 제안한다. 제안된 신경망은 두 주변확률분포 p_r(x) 와 p_g(x)를 가깝게 하는 대신 두 결합확률분포 p_r(x,c) 와 p_g(x,c)를 가깝게 한다. 우리 모델은 결정 경계 근처 에서도 데이터를 추출하면서도 분류기 기반의 적대적 생성 신경망의 강점을 유지한다. 경험적으로 우리 모델은 Moons, MNIST 그리고 CIFAR10 데이터셋에서 생성자의 숫자에 덜 민감함을 보였다.

      • 3D GAN Inversion for Monocular Image Reconstruction and Editing

        Jaehoon Ko 고려대학교 대학원 2024 국내석사

        RANK : 2654

        The task of high-fidelity novel view synthesis and scene generation is an important and challenging task with numerous applications, such as the game industry, virtual avatars, and metaverse. However, this task often demands extensive datasets that are elaborately captured in multiple camera viewpoints. Recently, the advancements of 3D-aware Generative models have demonstrated their potential in generating multi-view consistent images learned from unposed image collections. This breakthrough motivated the 3D GAN inversion methodology, specifically focusing on the task of projecting images into the GAN training space. The notable advantage of this framework lies in its ability to leverage 3D GAN priors, enabling to reconstruct the realistic 3D geometry from limited datasets. Additionally, the learned manifold of the generator provides the capability for diverse semantic editing of the scene. These advantages offer possibilities for its application across various domains. In this work, we introduce two distinct approaches utilizing 3D GAN prior along with novel training strategies. First, we focus on single-image inversion, addressing a challenge due to the absence of ground truth camera parameters. We employ a pre-trained encoder that is trained on pseudo datasets to enhance the stability of the optimization process, which simultaneously optimizes the latent feature and camera parameter. Moreover, we propose our novel depth-based warping loss to further stabilize the optimization of the camera parameter. The second approach introduces 3D talking head generation, targeting the mapping of cross-modal audio features into the 3D GAN space. We experimentally found that local scene editing such as lip movement is limited to be done within the GAN latent space. Therefore, we propose a novel attention-based architecture which performs the local edits in the 3D feature space, while preserving the integrity of the 3D GAN prior. However, the process of inverting video frames into the 3D GAN includes image cropping, which presents challenges due to varying cropping regions across video frames. This results in the appearance of unnecessary movement between the head, background, and torso positions. To address this limitation, we encode additional signals with causal relationships to the torso and background movements. This feature augmenting strategy guides the model to disentangle the audio feature from these unnecessary movements, thereby enhancing lip-sync accuracy. This paper conducts extensive experiments to demonstrate the effectiveness of proposed training strategies, and further provides extensive ablation studies and analyses on previous benchmarks.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼