통합관제센터 운영을 위한 Vision AI-VLM 비교 및 하이브리드 연구 : VISION AI-VLM 하이브리드 적용 방안 = A Comparative Study of Vision AI Model and VLM with Hybrid Approach for Integrated Control Center Operations|RISS 상세보기

국문 초록 (Abstract)

통합관제센터 운영을 위한 Vision AI 모델– VLM 비 교 및 하이브리드 연구 중앙대학교 대학원 ICT안전학과 김현수 현대 도시의 공공안전 확보를 위해 CCTV 통합관제센터의 역할이 점차 중요해 지고 있으나, 관제요원 1인당 수백 대의 카메라를 모니터링해야 하는 현실에서 인간 인지의 한계로 인한 사건 탐지 지연과 누락이 빈번하게 발생하고 있다. 이를 해결하기 위해 Vision AI 모델 기반 지능형 영상분석 기술이 도입되었으 나, 단일 프레임 분석에 기반한 구조적 한계로 인해 시간적 맥락을 고려하지 못하고, 시각적으로 유사한 상황에서 높은 오탐률을 보이는 문제가 지속되고 있다. 본 연구는 Vision AI 모델의 실시간 탐지 능력과 Video Language Model(VLM)의 시간적 맥락 이해 및 의미 기반 추론 능력을 결합한 Trigger– Validator 하이브리드 구조를 제안한다. 이 구조에서 Vision AI 모델은 전체 CCTV 스트림을 실시간으로 모니터링하며 의심 상황을 1차 탐지하는 Trigger 역할을 수행하고, VLM은 탐지된 후보 이벤트에 대해 시간적 맥락을 분석하여 실제 위험 여부를 판단하는 Validator 역할을 담당한다. 연구 방법론으로는 CCTV 도메인의 장면 고착성 특성을 고려한 Scene-level Split 기반 데이터셋 구축 방식을 적용하여 모델의 실제 일반화 능력을 정확히 평가하였다. 쓰러짐, 폭행, 연기의 세 가지 주요 이벤트 유형에 대해 YOLOv11 기반 Vision AI 모델과 VideoMAE-LLaMA 기반 VLM을 구축하고, 하이브리드 구조의 효과를 정량적·정성적으로 분석하였다. 실험 결과, Vision AI 모델 단독 적용 대비 하이브리드 구조에서 오탐률이 평 균 40% 이상 감소하였으며, VLM의 의미 기반 분석을 통해 숙임과 낙상, 장난 과 폭행, 수증기와 연기 등 시각적으로 유사한 상황의 구분이 가능함을 확인하 였다. 또한 VLM이 생성하는 자연어 설명은 관제요원의 상황 판단을 효과적으 로 지원하여 Human-in-the-Loop 관점에서의 관제 품질 향상에 기여하였다. 본 연구는 Vision AI 모델과 VLM의 상호 보완적 결합을 통한 CCTV 관제 고 도화의 가능성을 실증적으로 검증하였으며, 스마트시티 안전 인프라 구축을 위한 새로운 기술적 방향을 제시한다는 점에서 학술적·실무적 의의를 갖는다.

번역하기

통합관제센터 운영을 위한 Vision AI 모델– VLM 비 교 및 하이브리드 연구 중앙대학교 대학원 ICT안전학과 김현수 현대 도시의 공공안전 확보를 위해 CCTV 통합관제센터의 역할이 점차 중요해 지...

다국어 초록 (Multilingual Abstract)

As CCTV integrated control centers play an increasingly vital role in ensuring urban public safety, the limitations of human cognition—where a single operator must monitor hundreds of cameras—frequently result in delayed or missed event detection. While Vision AI -based intelligent video analytics have been introduced to address this challenge, their structural limitations rooted in single-frame analysis prevent temporal context understanding and lead to high false positive rates in visually similar situations.This study proposes a Trigger–Validator hybrid architecture that combines the real-time detection capabilities of Vision AI Model with the temporal context understanding and semantic reasoning abilities of Video Language Models (VLM). In this architecture, Vision AI Model serves as the Trigger, continuously monitoring all CCTV streams to detect suspicious situations in real-time, while VLM acts as the Validator, analyzing the temporal context of detected candidate events to determine actual risk levels. The methodology employs a Scene-level Split approach for dataset construction, accounting for the scene-fixation characteristics inherent to CCTV domains, thereby enabling accurate evaluation of model generalization capabilities. YOLOv11-based Vision AI Model and VideoMAE-LLaMA-based VLM were developed for three primary event types—fall detection, violence detection, and smoke detection—and the effectiveness of the hybrid architecture was analyzed both quantitatively and qualitatively. Experimental results demonstrate that the hybrid architecture achieves an average reduction of over 40% in false positive rates compared to Vision AI Model alone. The VLM's semantic analysis capability successfully distinguishes visually similar situations such as bending versus falling, playful interaction versus assault, and steam versus smoke. Furthermore, the natural language explanations generated by VLM effectively support operators' situational judgment, contributing to improved surveillance quality from a Human-in-the-Loop perspective. This research empirically validates the potential for advancing CCTV surveillance through the complementary integration of Vision AI Model and VLM, presenting both academic and practical significance by proposing a new technological direction for smart city safety infrastructure development.

번역하기

목차 (Table of Contents)

제1장 서론 1
1.1 연구의 배경 1
1.2 문제 제기 3
1.3 연구 목적 5
1.4 연구 범위 7

제1장 서론 1
1.1 연구의 배경 1
1.2 문제 제기 3
1.3 연구 목적 5
1.4 연구 범위 7
1.5 연구의 구성 9
제2장 이론적 배경 12
2.1 CCTV 통합관제 환경의 특성 12
2.1.1 CCTV의 사회적도시적 역할 12
2.1.2 관제센터 운영 구조와 인간 인지의 한계 13
2.2 CCTV 영상의 기술적 특성과 데이터 특이성 15
2.2.1 고정 시점과 배경 반복성 15
2.2.2 행동 이벤트의 희소성과 데이터 불균형 17
2.2.3 조명노이즈원거리 객체 문제 17
2.3 Vision AI 기술의 발전과 한계 18
2.3.1 딥러닝 기반 객체 탐지 기술의 발전 역사 18
2.3.2 YOLO의 등장과 실시간 객체 탐지의 혁신 19
2.3.3 기타 주요 객체 탐지 아키텍처 21
2.3.4 Vision AI의 구조적 한계 22
2.4 Video Language Model의 이론적 배경과 기술적 특성 23
2.4.1 멀티모달 AI와 VLM의 등장 배경 23
2.4.2 비디오 이해를 위한 딥러닝 기술의 발전 24
2.4.3 VideoMAE: 자기지도학습 기반 비디오 인코더 26
2.4.4 대규모 언어 모델(LLM)과 멀티모달 통합 27
2.4.5 Video-LLM의 주요 모델과 기술적 특성 28
2.5 VLM의 CCTV 적용 가능성과 한계 29
2.5.1 CCTV 관제 도메인에서의 VLM 장점 29
2.5.2 VLM의 한계와 제약 30
2.6 Vision AIVLM 하이브리드 구조의 필요성 31
2.7 Scene-level Split의 필요성 33
2.8 기존 연구의 한계 34
2.9 본 연구의 차별성과 의의 35
제3장 연구방법 37
3.1 연구 절차의 개요 38
3.1.1 하이브리드 방식 채택의 당위성 38
3.1.2 연구 방법론과 실험결과결론의 연계성 40
3.2 CCTV 데이터셋 구축 및 구성 방법 41
3.2.1 데이터셋 수집 기준 및 이벤트 유형 41
3.2.2 Scene-level Split 설계의 원리와 적용 42
3.2.3 데이터 전처리 및 증강 과정 43
3.3 Vision AI 모델 구성 및 학습 방법 45
3.3.1 YOLO 계열 모델 선택의 기술적 근거 45
3.3.2 YOLOv11 아키텍처의 구조적 특성 47
3.3.3 학습 설정 및 하이퍼파라미터 49
3.3.4 Vision AI 모델 성능 평가 지표 49
3.4 Video Language Model(VLM) 설계 및 구축 51
3.4.1 VLM 아키텍처 설계의 기본 원리 51
3.4.2 VideoMAE 기반 비디오 인코더의 구성 52
3.4.3 LLaMA 기반 언어 모델의 역할 53
3.4.4 VLM 학습 전략: 프로젝션 레이어와 파인튜닝 54
3.5 하이브리드 TriggerValidator 구조 설계 55
3.5.1 하이브리드 구조의 설계 원리 55
3.5.2 Trigger 단계: Vision AI의 역할과 작동 방식 56
3.5.3 Validator 단계: VLM의 역할과 작동 방식 57
3.5.4 하이브리드 구조의 정당성과 기대 효과 58
3.6 평가 방법 설계 59
3.6.1 정량 평가 지표와 측정 방법 59
3.6.2 정성 평가: 추론 품질과 실무 적합성 60
3.6.3 관제센터 운영 효율성 평가 61
3.7 연구 방법의 종합 정리 61
제4장 실험결과 64
4.1 실험 환경 64
4.1.1 하드웨어 및 소프트웨어 구성 64
4.1.2 데이터셋 구성 및 전처리 절차 66
4.1.3 단계적 샘플링 기반 실험 전략 67
4.2 Vision AI 실험결과 68
4.2.1 Vision AI 모델 구성 및 태스크 정의 68
4.2.2 YOLOv11-m 모델의 정량적 성능 평가 69
4.2.3 Vision AI의 오탐 및 미탐 분석 70
4.2.4 Vision AI의 한계에 대한 실증적 논의 71
4.3 VLM(Video Language Model) 실험결과 72
4.3.1 VLM 아키텍처 구성 및 학습 전략 72
4.3.2 의미 기반 행동 분석 결과 74
4.3.3 VLM의 정량적 성능 평가 75
4.3.4 VLM의 문제점 및 한계 분석 76
4.4 Vision AIVLM 하이브리드 실험결과 77
4.4.1 하이브리드 구조의 테스트 시나리오 설계 77
4.4.2 오탐 감소 효과 분석 78
4.4.3 미탐 보완 효과 분석 79
4.4.4 Human-in-the-Loop 관점에서의 효과 분석 80
4.5 실제 관제센터 사례 기반 분석 80
4.5.1 사례 1: 쓰러짐(Fall) 탐지 81
4.5.2 사례 2: 폭행(Violence) 탐지 82
4.5.3 사례 3: 연기(Smoke) 탐지 83
4.6 관제센터 운영 효율성 분석 84
4.7 실험결과 종합 논의 85
제5장 결론 87
5.1 연구 결과 요약 87
5.1.1 Vision AI의 한계 검증 87
5.1.2 VLM의 의미 기반 분석 능력 검증 88
5.1.3 하이브리드 TriggerValidator 구조의 우수성 검증 89
5.2 연구의 학술적 의의 91
5.2.1 Vision AI와 VLM의 구조적 한계 비교 91
5.2.2 Scene-level Split의 필요성 실증 91
5.2.3 하이브리드 구조의 새로운 연구 방향 제시 91
5.2.4 의미 기반 Reasoning 평가 틀 제안 92
5.3 실무적산업적 의의 92
5.3.1 관제센터 운영 효율화 93
5.3.2 스마트시티스마트빌딩 적용 가능성 93
5.3.3 글로벌 시장 동향과의 부합 94
5.3.4 정책제도 기반 강화 지원 94
5.4 연구의 한계 95
5.4.1 데이터 다양성 부족 95
5.4.2 VLM 추론 비용 문제 96
5.4.3 Hallucination 문제 96
5.4.4 실시간 처리 성능의 제약 96
5.5 향후 연구 방향 97
5.5.1 Multimodal Grounding 및 Scene Graph 결합 연구 97
5.5.2 Long Video 기반 Temporal Reasoning 확장 97
5.5.3 Edge AI 기반 경량형 VLM 연구 98
5.5.4 Cross-Camera Reasoning 연구 98
5.5.5 관제센터 Human-AI Collaboration 모델 연구 99
5.5.6 프라이버시 보호 및 규제 준수 연구 99
5.6 결론 100
참고문헌 102
국문초록 106
Abstract 108

상세검색

RISS 보유자료

상세검색

해외전자자료

통합관제센터 운영을 위한 Vision AI-VLM 비교 및 하이브리드 연구 : VISION AI-VLM 하이브리드 적용 방안 = A Comparative Study of Vision AI Model and VLM with Hybrid Approach for Integrated Control Center Operations

부가정보

분석정보

연관 공개강의(KOCW)

이 자료와 함께 이용한 RISS 자료

나만을 위한 추천자료