우리는 이미지들로 가득 찬 세상에 살고 있으며, 따라서 그것들은 더 가치 있는 방식들로 표현될 필요가 있다. 최근, 딥러닝 기술 덕분에 사람이 이미지를 보고 해석하는 데 도움을 주는 기...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16372944
[Seoul] : Graduate School, Yonsei University, 2022
학위논문(박사) -- Graduate School, Yonsei University , School of Integrated Technology , 2022.8
2022
영어
서울
이미지 복원 및 압축을 위한 신경망 기반 특징 문맥의 명시적 모델링
xiii, 86 p. : 삽화 ; 26 cm
지도교수: Jong-Seok Lee
I804:11046-000000542398
0
상세조회0
다운로드국문 초록 (Abstract)
우리는 이미지들로 가득 찬 세상에 살고 있으며, 따라서 그것들은 더 가치 있는 방식들로 표현될 필요가 있다. 최근, 딥러닝 기술 덕분에 사람이 이미지를 보고 해석하는 데 도움을 주는 기...
우리는 이미지들로 가득 찬 세상에 살고 있으며, 따라서 그것들은 더 가치 있는 방식들로 표현될 필요가 있다. 최근, 딥러닝 기술 덕분에 사람이 이미지를 보고 해석하는 데 도움을 주는 기술(예를 들어, 이미지 복원)과 이미지의 원활한 저장과 통신을 위한 기술(예를 들어, 이미지 압축)이 크게 발전하고 있다. 이미지 처리 기술에서 이미지의 국소 영역별 효과적인 표현이 중요하다는 걸 감안해보면, 이러한 성공의 핵심 중 하나는 국소적 특징 추출에 특화된 구조를 갖는 컨볼루션 신경망의 도입이다. 그러나 역설적으로, 그러한 구조적 편향은 문맥 정보를 활용한 국소적 특징의 적응에 한계를 갖는다.
본 학위논문은 컨볼루션 신경망의 한계를 보완하기 위해 신경망을 통한 특징 문맥의 명시적 모델링에 대해 제안한다. 제안된 방법은 1) 국소적 및 전역적 문맥을 함께 고려한 문맥의 충분한 활용과 2) 서로 다른 국소적 기능들이 서로 다른 문맥을 활용하는 적응적 문맥 활용이라는 두 목표를 위해 특별히 설계된다. 구체적으로, 세부 정보를 추론하는 이미지 복원 및 이미지 내의 중복되는 정보를 줄이는 이미지 압축의 두 가지 문제가 다뤄진다. 첫째, 효과적인 학습 기반 이미지 초해상도를 위해 새로운 구조인 MAMNet이 제안된다. 향상된 국소적 특징들을 추출하기 위해서, MAMNet은 컨볼루션 특징들로부터 세 가지 유형의 정보를 활용함으로써 명시적으로 특징 문맥을 모델링한다: 1) 전역적 분산 풀링에 의해 요약된 채널별 전역적 문맥, 2) 채널 간 종속성, 그리고 3) 채널별 컨볼루션을 통한 채널별 국소적 문맥. 실험에 따르면 MAMNet은 상대적으로 적은 수의 매개 변수로 대부분의 최신 방법들을 능가한다.
둘째, 효과적인 학습 기반 이미지 압축을 위해 Informer라는 새로운 엔트로피 모델이 제안된다. 그것은 엔트로피 코딩에 사용될 국소적 특징들의 확률값을 정확하게 예측하기 위해서 특징 문맥을 명시적으로 모델링한다. 세 가지 유형의 정보가 컨볼루션 특징들로부터 포착된다: 1) 주의 메커니즘을 이용해 요약된 전역적 문맥, 2) 5x5 컨볼루션을 통한 이미 디코딩된 특징들로부터의 국소적 문맥, 그리고 3) 1x1 컨볼루션들로 추출된 모든 공간 위치에서의 채널 간 종속성. 실험에 따르면 Informer는 다양한 크기의 이미지들에 대해서 낮은 계산 복잡도를 가지면서 최신 방법들에 비해 더 좋은 압축 성능을 보인다.
다국어 초록 (Multilingual Abstract)
We live in a world full of images, and thus images need to be represented in more valuable ways. Recently, image processing technologies for human viewing and interpretation (e.g., image restoration) and for storage and communication (e.g., image comp...
We live in a world full of images, and thus images need to be represented in more valuable ways. Recently, image processing technologies for human viewing and interpretation (e.g., image restoration) and for storage and communication (e.g., image compression) have made significant progress thanks to deep learning. Given the importance of effective representation for each local area in image processing, one of the keys to the success is the introduction of convolutional neural networks whose structure is specialized for extracting localized features due to its nature of local connectivity and weight sharing. Paradoxically, however, the structural biases also have limitations in adapting the localized features by utilizing their feature context, which is information contained in features of a larger spatial area than the local area of interest.
This dissertation studies explicit neural modeling of feature context for complementing the limitations of convolutional neural networks. The proposed methods are specifically designed for two desired goals: 1) full utilization of contextual information by considering convolutional features across whole image area, and 2) adaptive utilization of contextual information, i.e., different localized features utilize different context.
Two tasks are addressed: image restoration, inferring missing information and image compression, reducing redundant information. First, a novel multi-path adaptive modulation network (MAMNet) is proposed for learned image super-resolution. To extract improved localized features, MAMNet explicitly models feature context by capturing three types of information from convolutional features: 1) channel-specific global context summarized by global variance pooling, 2) inter-channel dependencies, and 3) channel-specific local context via a depth-wise convolution. As a result, MAMNet outperforms state-of-the-art methods with a relatively small number of parameters.
Second, a novel entropy model called information Transformer (Informer) is proposed for learned image compression. It explicitly models feature context to accurately predict probability of localized features for entropy coding. Three types of information are captured from convolutional features: 1) global context summarized using an attention mechanism, 2) local context from previously decoded features via a 5x5 masked convolution, and 3) inter-channel dependencies at every spatial locations extracted by 1x1 convolutions. As a result, Informer improves compression efficiency over state-of-the-art methods with lower computational complexity for images of various sizes.