컴퓨터 비전 산업 분야에서 자동차 및 로봇 분야를 제외하고 가장 가치 있는 분야 중 하나는 스포츠 분야라고 여겨지고 있다. 이미 스포츠 현장에서는 컴퓨터 비전 기반의 어플리케이션들이...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T15765867
서울 : 숭실대학교 대학원, 2021
학위논문(박사) -- 숭실대학교 대학원 , 정보통신융합학(일원) 스포츠IT융합학 , 2021. 2
2021
한국어
서울
84 ; 26 cm
지도교수: 한영준
I804:11044-200000361120
0
상세조회0
다운로드국문 초록 (Abstract)
컴퓨터 비전 산업 분야에서 자동차 및 로봇 분야를 제외하고 가장 가치 있는 분야 중 하나는 스포츠 분야라고 여겨지고 있다. 이미 스포츠 현장에서는 컴퓨터 비전 기반의 어플리케이션들이...
컴퓨터 비전 산업 분야에서 자동차 및 로봇 분야를 제외하고 가장 가치 있는 분야 중 하나는 스포츠 분야라고 여겨지고 있다. 이미 스포츠 현장에서는 컴퓨터 비전 기반의 어플리케이션들이 활발히 사용되고 있다. 최근에는 스포츠 중계 영상을 자동으로 분석하고 다양한 정보를 제공하는 기술들이 각광 받고 있다.
컴퓨터 비전 기반의 스포츠 중계 영상의 이벤트 검출에 관한 연구는 2000년대 초반 hand-crafted 기반의 알고리즘들이 주를 이루다가 2010년대에 들어 다른 컴퓨터 비전 분야와 마찬가지로 성능 구현의 어려움을 딥러닝을 이용하여 해결하는 데 집중하고 있다. 또한, 일부 연구에서는 이벤트 검출 알고리즘의 성능 평가를 위한 많은 양의 이벤트 데이터를 포함하는 데이터 셋도 함께 공개하고 있다. 이렇듯 스포츠 중계 영상의 이벤트 검출 분야는 딥러닝의 도입과 성능 평가를 위한 데이터 셋의 등장에도 성능은 여전히 연구 초기 단계에 머무르고 있다.
이에 본 논문에서는 스포츠 중계 영상에서의 이벤트 검출 성능의 전반적인 향상을 위하여 feature ensemble 기반의 deep neural network를 제안하고자 한다. 이 네트워크의 feature ensemble에 사용되는 Knowledge-based feature extractor는 스포츠 중계 영상의 카메라 앵글 및 쇼트 구성에 의한 bias 특성 및 종목별 특성을 고려하여 중계 영상을 다양한 기하학적 방법으로 변환시킨 영상을 입력으로 사용한다. 입력 영상의 기하학적 변환으로 spatial domain에 대하여 대응하였다면 temporal domain에 대한 대응 방안으로 개별 feature 들을 ensemble 하여 이벤트의 검출을 결정하는 네트워크를 학습한다. Ensemble feature로 temporal CNN, temporal pooling layer를 포함하는 네트워크를 학습시킴으로써 프레임 시퀀스의 의존성(쇼트의 구성)을 줄임으로써 bias 데이터에 의한 과적합 문제를 해결하고 일반화 성능을 향상 시킬 수 있었다. 제안하는 방법의 이벤트 검출 성능 평가는 축구 중계 영상 데이터 셋인 SoccerNet 데이터 셋과 MLB-YouTube 데이터 셋을 대상으로 실험을 진행하였다. 그 결과, 축구 중계 영상 데이터에 대한 이벤트 검출 성능은 평균 mAP=71.69% 로 기존의 가장 우수한 성능에 비해 9.19% 개선된 결과를 보여주었다. 야구 중계 영상 데이터에서는 평균 mAP=79.84% 로 확인되었으며 이는 단일 입력 영상만을 사용하는 이벤트 검출 네트워크에 비해 5.18% 개선된 결과를 보여주었다.
다국어 초록 (Multilingual Abstract)
Sport is considered one of the most valuable sectors in the computer vision industry, excluding automobiles and robots. Computer vision-based applications are already actively used in sports. Recently, the technology for automatically analyzing sports...
Sport is considered one of the most valuable sectors in the computer vision industry, excluding automobiles and robots. Computer vision-based applications are already actively used in sports. Recently, the technology for automatically analyzing sports broadcasting video and providing various information has been in the spotlight.
Handcrafted algorithms dominated computer-based event detection of sports video in the early 2000s. However, in the 2010s, as with other computer vision fields, the focus shifted to deep learning to enhance performance. Data sets were published that included abundant event data for evaluating the performance of an event detection algorithm. As such, in the field of event detection in sports broadcasting video, even with the application of deep learning and release of data sets for performance evaluation, analysis of event detection performance is still in the early stages of research.
This thesis proposes a deep neural network based on a feature ensemble to improve the performance of event detection in sports broadcasting video. The Knowledge-based feature extractor used for the feature ensemble of the proposed network uses as an input video transformed by various geometric methods in consideration of each sport’s bias and characteristics in relation to the camera angle and shot structure of the sports broadcasting videos. The geometrical transformation of the input video corresponds to the spatial domain. The network that decides the event detection learns by ensemble features as a response to the temporal domain. Through the network learning, including the temporal CNN and temporal pooling layer with the ensemble feature, the dependency of the frame sequence (structure of shorts) was reduced, thereby solving the problem of overfitting caused by biased data and improving generalization. The experiment was conducted on the SoccerNet data set and the MLB-YouTube data set. The event detection performance for the soccer broadcasting video data showed an average mAP of 71.69%, which was a 9.19% improvement compared to the existing best performance. In the baseball broadcast video data, the average mAP was 79.84%, which was a 5.18% improvement compared to event detection network using single input video.
목차 (Table of Contents)