http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
2단계 신경망과 계층적 프레임 탐색 방법을 이용한 MPEG 비디오 분할
김주민(Joomin Kim),최영우(Yeongwoo Choi),정규식(Kusik Chung) 한국정보과학회 2002 정보과학회논문지 : 소프트웨어 및 응용 Vol.29 No.1·2
In this paper, we are proposing a hierarchical segmentation method that first segments the video data into units of shots by detecting cut and dissolve, and then decides types of camera operations or object movements in each shot. In our previous work[1], each picture group is divided into one of the three detailed categories, Shot(in case of scene change), Move(in case of camera operation or object movement) and Static(in case of almost no change between images), by analysing DC(Direct Current) component of I(Intra) frame. In this process, we have designed two-stage hierarchical neural network with inputs of various multiple features combined. Then, the system detects the accurate shot position, types of camera operations or object movements by searching P(Predicted), B(Bi-directional) frames of the current picture group selectively and hierarchically. Also, he statistical distributions of macro block types in P or B frames are used for the accurate detection of cut position, and another neural network with inputs of macro block types and motion vectors method can reduce the processing time by using only DC coefficients of I frames without decoding and by searching P, B frames selectively and hierarchically. The proposed method classified the picture groups in the accuracy of 93.9-100.0% and the cuts in the accuracy of 96.1-100.0% with three different together is used to detect dissolve, types of camera operations and object movements. The proposed types of video data. Also, it classified the types of camera movements or object movements in the accuracy of 90.13% and 89.28% with two different types of video data. 본 논문에서는 MPEG 비디오 데이타의 컷(cut)과 디졸브(dissolve)를 검출하여 샷(shot) 단위로 분할하고 각 샷의 카메라 동작 또는 객체 움직임의 형태를 분류하는 방법을 제안하고자 한다. 정확한 샷의 위치와 카메라, 객체의 세분화된 동작을 구별하기 위한 전단계의 연구에서[1] 우선 MPEG 데이타의 I(Intra) 프레임의 DC(Direct Current) 계수를 분석하여 픽처 그룹을 Shot(장면이 바뀐 경우), Move(카메라 동작 또는 객체가 움직인 경우), Static(영상의 변화가 거의 없는 경우)으로 세분화하여 분류하였다. 이 과정에서 2단계 구조의 신경망을 구성하고 여러 종류의 특징을 서로 다른 해상도에서 추출하여 결합시키는 방법을 제안하였다. 다음 단계로 Shot 또는 Move로 분류된 픽처 그룹의 P(Predicted), B(Bidirectional) 프레임을 선별적, 계층적으로 탐색하여 컷의 정확한 발생 위치와 카메라 동작 또는 객체 움직임의 종류를 결정하는 방법을 제안한다. P, B 프레임의 매크로 블록의 종류별 분포를 통계적으로 이용하여 컷의 발생 위치를 검출하며, P, B 프레임의 매크로 블록 종류와 움직임 벡터를 동시에 사용하는 신경망을 구성하여 디졸브, 카메라 동작, 객체 움직임의 종류를 검출한다. 본 논문에서 제안하는 방법은 MPEG 데이타의 압축을 풀지 않은 상태에서 I 프레임의 DC 계수만을 사용하여 픽처 그룹을 분류하며, 분류된 픽처 그룹 내에서 일부의 P, B 프레임만을 계층적으로 선택하여 탐색함으로서 처리 시간을 감소시키고자 하였다. 세 종류의 서로 다른 비디오 데이타를 사용한 실험에서 93.9-100.0%로 픽처 그룹을, 96.1-100.0%로 컷을 검출하였다. 또한 두 종류의 비디오 데이타를 사용한 실험에서 90.13% 및 89.28%의 정확성으로 카메라 동작 또는 객체 움직임을 분류하였다.