http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
Vision Transformer와 Convolution 연산을 이용한 3차원 형상 복원
음승호 서강대학교 일반대학원 2024 국내석사
최근 딥러닝 기반의 3차원 형상 복원 기법은 컴퓨팅 자원을 줄이는 방향으로 많이 발전이 되고 있다. 딥러닝 기반의 신경망이 필요로 하는 컴퓨팅 자원이 줄어듦에 따라, 더 깊고 강력한 모델을 만들 수 있는 기반이 되었다. 본 논문은 3차원 형상 복원의 성능을 올리기 위한 강력한 특징 추출기를 이용하기 위해 Convolution Feature 추출기와 Vision Transformer Feature 추출기의 Fusion을 시도한 TransGBi- Net 신경망을 제안한다. 제안한 신경망의 성능을 측정하기 위해 저해상도의 이미지와 일반적인 해상도에 대해 실험을 진행하고, 데이터의 양이 많이 필요한 ViT신경망에 대해 ImageNet21 데이터셋을 사전학습 시킨 신경망에 대한 실험을 진행하고, 다양한 Feature Fusion 방식을 비교했다. 본 논문에서 진행한 모든 실험들은 우분투 20.04 환경의 RTX3090 그래픽 카드 4장으로 학습 및 테스트를 진행했다. 제안한 신경망보다 기존의 MVS 신경망인 GBi-Net의 성능이 모든 면에서 더 좋았으나, 기존의 신경망은 일반 해상도에 대한 결과가 대략 45% 성능 향상을 이뤘지만, 제안한 신경망은 52.3%의 성능 향상을 이뤘으며, Accuracy 지표에서는 기존의 신경망보다 3.7%가량 좋은 성능을 보였다. Recently, deep learning-based 3D-Reconstruction techniques have been developed a lot in the direction of reducing computing resources. As the computing resources required by deep learning-based methods decrease, deeper and more powerful models are used more widely. This thesis proposes a TransGBi-Net that uses fusion of convolution features and Vision Transformer features to improve the performance of 3D reconstruction. To measure the performance of the proposed neural network, experiments were conducted on low and medium resolution images with ImageNet21K pretrained Vision Transformer (ViT). Various feature fusion methods were also carried out and their performances were compared. All experiments conducted in this thesis were trained and tested with four RTX 3090 graphics cards in Ubuntu 20.04 environment. The performance of the existing deep learning-based method, GBi-Net, appears better in overall than that of the proposed model. However, the performance of GBi-Net improves from low to medium resolutions by approximately 45%, wheras the performance of proposed model improvs by 52.3%. In addition, the proposed model shows improved accuracy by 3.7% over that of GBi-Net.