RISS 검색 - 학위논문 상세보기

국문 초록 (Abstract)

비디오 장면 그래프 생성은 비디오에 등장하는 모든 물체들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어, 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 단 한 장의 영상에서 장면 그래프를 생성하는 작업(ImgSGG)에 비해, 비디오 장면 그래프 생성(Video Scene Graph Generation, VidSGG) 작업은 물체들에 대한 단순한 공간적 위치 탐지가 아니라 시공간적 위치 탐지를 요구하고, 비디오 안에서 물체들 간의 관계들도 시간에 따라 가변적으로 변화하기 때문에 기술적으로 훨씬 더 어렵다. 본 논문에서는 비디오 장면 그래프 생성을 위한 새로운 심층 신경망 모델 VSGG-Net을 제안한다. 제안 모델에서는 슬라이딩 윈도우 방법을 적용하여 비디오의 전체 범위에서 다양한 길이의 물체 트랙들을 탐지해낸다. 특히, 제안 모델에서는, 시간적 필터링과 사전 학습된 신경망과 통계적 정보를 이용해 물체 트랙 쌍들의 관계성을 평가하는, 새로운 물체 쌍 제안 방법을 제시한다. 또한, 제안 모델에서는 시-공간 맥락 정보를 효과적으로 활용하기 위해, 시-공간 맥락 그래프와 그래프 신경망을 이용하여 저-수준의 시각 맥락 추론과 더불어 고-수준의 의미적 맥락 추론도 함께 수행한다. 또 희소 빈도의 관계들에 대한 탐지 성능을 향상시키기 위해, 제안 모델에서는 희소 빈도 관계들의 비중을 높게 조정해주는 클래스 가중치 기법을 적용한다. 본 논문에서는 벤치마크 데이터 집합 VidOR와 VidVRD를 이용한 실험들을 통해, 제안 모델의 긍정적 효과와 높은 성능을 입증한다.

번역하기

비디오 장면 그래프 생성은 비디오에 등장하는 모든 물체들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어, 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 단 한 장의 영상...

다국어 초록 (Multilingual Abstract)

In this paper, we propose a novel deep neural network model VSGG-Net for video scene graph generation. In the proposed model, a sliding window scheme is applied to detect object tracklets of various lengths in the entire video range. In particular, in the proposed model, we propose a new tracklet pair proposal method that evaluates the relatedness of object track pairs using a pretrained neural network and statistical information. In addition, in the proposed model, in order to effectively utilize the spatio-temporal context, a low-level visual context is used using a spatio-temporal context graph and a graph neural network In addition to reasoning, high-level semantic context reasoning is also performed. In addition, in order to improve the detection performance of sparse-frequency relationships, the proposed model applies a class weighting technique that adjusts the weight of sparse-frequency relationships high. In this paper, we demonstrate the positive effect and high performance of the proposed model through experiments using the benchmark dataset VidOR and VidVRD.

번역하기

목차 (Table of Contents)

제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 목표 6
제 2 장 이론적 배경 8

제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 목표 6
제 2 장 이론적 배경 8
제 1 절 시각 장면 그래프 생성 8
제 2 절 비디오 장면 그래프 생성 10
제 3 장 비디오 장면 그래프 생성 모델 13
제 1 절 모델 개요 13
제 2 절 물체 트랙 탐지와 물체 쌍 제안 16
제 3 절 맥락 추론과 분류 20
제 4 장 구현 및 실험 25
제 1 절 데이터 집합 및 구현 환경 25
제 2 절 정량적 실험 26
제 1 항 물체 쌍 제안 방법 간의 성능 비교 26
제 2 항 맥락 추론 방법 간의 성능 비교 28
제 3 항 맥락 추론 레벨 간의 성능 비교 30
제 4 항 기존 모델과의 성능 비교: VidOR 데이터 집합 31
제 5 항 기존 모델과의 성능 비교: VidVRD 데이터 집합 33
제 3 절 정성적 실험 34
제 5 장 결론 및 향후 연구 38
참고문헌 39
Abstract 43

상세검색

RISS 보유자료

상세검색

해외전자자료

비디오 장면 그래프 생성을 위한 심층 신경망 모델의 설계 및 구현

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료