통합관제센터 운영을 위한 Vision AI 모델– VLM 비 교 및 하이브리드 연구 중앙대학교 대학원 ICT안전학과 김현수 현대 도시의 공공안전 확보를 위해 CCTV 통합관제센터의 역할이 점차 중요해 지...

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T17384616
서울 : 중앙대학교 대학원, 2026
학위논문(석사) -- 중앙대학교 대학원 , ICT안전학과 ICT안전 , 2026. 2
2026
한국어
서울
108 p. ; 26 cm
지도교수: 박인선
지도교수: 박호현
I804:11052-000000247230
0
상세조회0
다운로드통합관제센터 운영을 위한 Vision AI 모델– VLM 비 교 및 하이브리드 연구 중앙대학교 대학원 ICT안전학과 김현수 현대 도시의 공공안전 확보를 위해 CCTV 통합관제센터의 역할이 점차 중요해 지...
통합관제센터 운영을 위한 Vision AI 모델– VLM 비 교 및 하이브리드 연구 중앙대학교 대학원 ICT안전학과 김현수 현대 도시의 공공안전 확보를 위해 CCTV 통합관제센터의 역할이 점차 중요해 지고 있으나, 관제요원 1인당 수백 대의 카메라를 모니터링해야 하는 현실에서 인간 인지의 한계로 인한 사건 탐지 지연과 누락이 빈번하게 발생하고 있다. 이를 해결하기 위해 Vision AI 모델 기반 지능형 영상분석 기술이 도입되었으 나, 단일 프레임 분석에 기반한 구조적 한계로 인해 시간적 맥락을 고려하지 못하고, 시각적으로 유사한 상황에서 높은 오탐률을 보이는 문제가 지속되고 있다. 본 연구는 Vision AI 모델의 실시간 탐지 능력과 Video Language Model(VLM)의 시간적 맥락 이해 및 의미 기반 추론 능력을 결합한 Trigger– Validator 하이브리드 구조를 제안한다. 이 구조에서 Vision AI 모델은 전체 CCTV 스트림을 실시간으로 모니터링하며 의심 상황을 1차 탐지하는 Trigger 역할을 수행하고, VLM은 탐지된 후보 이벤트에 대해 시간적 맥락을 분석하여 실제 위험 여부를 판단하는 Validator 역할을 담당한다. 연구 방법론으로는 CCTV 도메인의 장면 고착성 특성을 고려한 Scene-level Split 기반 데이터셋 구축 방식을 적용하여 모델의 실제 일반화 능력을 정확히 평가하였다. 쓰러짐, 폭행, 연기의 세 가지 주요 이벤트 유형에 대해 YOLOv11 기반 Vision AI 모델과 VideoMAE-LLaMA 기반 VLM을 구축하고, 하이브리드 구조의 효과를 정량적·정성적으로 분석하였다. 실험 결과, Vision AI 모델 단독 적용 대비 하이브리드 구조에서 오탐률이 평 균 40% 이상 감소하였으며, VLM의 의미 기반 분석을 통해 숙임과 낙상, 장난 과 폭행, 수증기와 연기 등 시각적으로 유사한 상황의 구분이 가능함을 확인하 였다. 또한 VLM이 생성하는 자연어 설명은 관제요원의 상황 판단을 효과적으 로 지원하여 Human-in-the-Loop 관점에서의 관제 품질 향상에 기여하였다. 본 연구는 Vision AI 모델과 VLM의 상호 보완적 결합을 통한 CCTV 관제 고 도화의 가능성을 실증적으로 검증하였으며, 스마트시티 안전 인프라 구축을 위한 새로운 기술적 방향을 제시한다는 점에서 학술적·실무적 의의를 갖는다.
다국어 초록 (Multilingual Abstract)
As CCTV integrated control centers play an increasingly vital role in ensuring urban public safety, the limitations of human cognition—where a single operator must monitor hundreds of cameras—frequently result in delayed or missed event detection....
As CCTV integrated control centers play an increasingly vital role in ensuring urban public safety, the limitations of human cognition—where a single operator must monitor hundreds of cameras—frequently result in delayed or missed event detection. While Vision AI -based intelligent video analytics have been introduced to address this challenge, their structural limitations rooted in single-frame analysis prevent temporal context understanding and lead to high false positive rates in visually similar situations.This study proposes a Trigger–Validator hybrid architecture that combines the real-time detection capabilities of Vision AI Model with the temporal context understanding and semantic reasoning abilities of Video Language Models (VLM). In this architecture, Vision AI Model serves as the Trigger, continuously monitoring all CCTV streams to detect suspicious situations in real-time, while VLM acts as the Validator, analyzing the temporal context of detected candidate events to determine actual risk levels. The methodology employs a Scene-level Split approach for dataset construction, accounting for the scene-fixation characteristics inherent to CCTV domains, thereby enabling accurate evaluation of model generalization capabilities. YOLOv11-based Vision AI Model and VideoMAE-LLaMA-based VLM were developed for three primary event types—fall detection, violence detection, and smoke detection—and the effectiveness of the hybrid architecture was analyzed both quantitatively and qualitatively. Experimental results demonstrate that the hybrid architecture achieves an average reduction of over 40% in false positive rates compared to Vision AI Model alone. The VLM's semantic analysis capability successfully distinguishes visually similar situations such as bending versus falling, playful interaction versus assault, and steam versus smoke. Furthermore, the natural language explanations generated by VLM effectively support operators' situational judgment, contributing to improved surveillance quality from a Human-in-the-Loop perspective. This research empirically validates the potential for advancing CCTV surveillance through the complementary integration of Vision AI Model and VLM, presenting both academic and practical significance by proposing a new technological direction for smart city safety infrastructure development.
목차 (Table of Contents)