비디오 장면 그래프 생성은 비디오에 등장하는 모든 물체들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어, 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 단 한 장의 영상...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T15914126
수원 : 경기대학교 대학원, 2021
2021
한국어
인공지능 ; 딥러닝 ; 비디오 장면 그래프 ; 비디오 관계 탐지
경기도
Design and Implementation of Deep Neural Network for Video Scene Graph Generation
vii, 43 p. : 삽도 ; 26 cm
경기대학교 논문은 저작권에 의해 보호받습니다.
지도교수:김인철
참고문헌 : p. 39-42
I804:41002-000000055968
0
상세조회0
다운로드국문 초록 (Abstract)
비디오 장면 그래프 생성은 비디오에 등장하는 모든 물체들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어, 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 단 한 장의 영상...
비디오 장면 그래프 생성은 비디오에 등장하는 모든 물체들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어, 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 단 한 장의 영상에서 장면 그래프를 생성하는 작업(ImgSGG)에 비해, 비디오 장면 그래프 생성(Video Scene Graph Generation, VidSGG) 작업은 물체들에 대한 단순한 공간적 위치 탐지가 아니라 시공간적 위치 탐지를 요구하고, 비디오 안에서 물체들 간의 관계들도 시간에 따라 가변적으로 변화하기 때문에 기술적으로 훨씬 더 어렵다. 본 논문에서는 비디오 장면 그래프 생성을 위한 새로운 심층 신경망 모델 VSGG-Net을 제안한다. 제안 모델에서는 슬라이딩 윈도우 방법을 적용하여 비디오의 전체 범위에서 다양한 길이의 물체 트랙들을 탐지해낸다. 특히, 제안 모델에서는, 시간적 필터링과 사전 학습된 신경망과 통계적 정보를 이용해 물체 트랙 쌍들의 관계성을 평가하는, 새로운 물체 쌍 제안 방법을 제시한다. 또한, 제안 모델에서는 시-공간 맥락 정보를 효과적으로 활용하기 위해, 시-공간 맥락 그래프와 그래프 신경망을 이용하여 저-수준의 시각 맥락 추론과 더불어 고-수준의 의미적 맥락 추론도 함께 수행한다. 또 희소 빈도의 관계들에 대한 탐지 성능을 향상시키기 위해, 제안 모델에서는 희소 빈도 관계들의 비중을 높게 조정해주는 클래스 가중치 기법을 적용한다. 본 논문에서는 벤치마크 데이터 집합 VidOR와 VidVRD를 이용한 실험들을 통해, 제안 모델의 긍정적 효과와 높은 성능을 입증한다.
다국어 초록 (Multilingual Abstract)
In this paper, we propose a novel deep neural network model VSGG-Net for video scene graph generation. In the proposed model, a sliding window scheme is applied to detect object tracklets of various lengths in the entire video range. In particular, in...
In this paper, we propose a novel deep neural network model VSGG-Net for video scene graph generation. In the proposed model, a sliding window scheme is applied to detect object tracklets of various lengths in the entire video range. In particular, in the proposed model, we propose a new tracklet pair proposal method that evaluates the relatedness of object track pairs using a pretrained neural network and statistical information. In addition, in the proposed model, in order to effectively utilize the spatio-temporal context, a low-level visual context is used using a spatio-temporal context graph and a graph neural network In addition to reasoning, high-level semantic context reasoning is also performed. In addition, in order to improve the detection performance of sparse-frequency relationships, the proposed model applies a class weighting technique that adjusts the weight of sparse-frequency relationships high. In this paper, we demonstrate the positive effect and high performance of the proposed model through experiments using the benchmark dataset VidOR and VidVRD.
목차 (Table of Contents)