http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
제약을 갖는 POMDP를 위한 점-기반 가치 반복 알고리즘
김동호(Dongho Kim),이재송(Jaesong Lee),김기응(Kee-Eung Kim),Pascal Poupart 한국정보과학회 2011 한국정보과학회 학술발표논문집 Vol.38 No.1A
제약을 갖는 부분 관찰 의사결정 과정(Constrained Partially Observable Markov Decision Process; CPOMDP)는 정책이 제약(constraint)를 만족하면서 가치 함수를 최적화하도록 일반적인 부분 관찰 의사결정과정(POMDP)을 확장한 모델이다. CPOMDP는 제한된 자원을 가지거나 여러 개의 목적 함수를 가지는 문제를 자연스럽게 모델링할 수 있기 때문에 일반적인 POMDP에 비해 더 실용적인 장점을 가진다. 본 논문에서는 CPOMDP의 확률적 최적 정책 및 근사 최적 정책을 계산할 수 있는 최적 및 근사 동적 프로그래밍 알고리즘을 제안한다. 최적 알고리즘은 동적 프로그래밍의 각 단계마다 미니맥스 이차 제약 계획 문제를 계산해야하는 반면에 근사 알고리즘은 선형 계획 문제만을 필요로 하는 점-기반(point-based) 가치 업데이트를 이용한다. 실험 결과, 확률적 정책이 결정적(deterministic) 정책보다 더 나은 성능을 보이며, 근사 알고리즘을 통해 계산 시간을 줄일 수 있음을 보였다.
복수 무인기를 위한 POMDP 기반 동적 임무 할당 및 정찰 임무 최적화 기법
김동호(Dongho Kim),이재송(Jaesong Lee),최재득(Jaedeug Choi),김기응(Kee-Eung Kim) 한국정보과학회 2012 정보과학회논문지 : 소프트웨어 및 응용 Vol.39 No.6
최근 무인항공기의 제작 기술이 발전함에 따라, 농업, 재해 관측용 등의 민간 용도 뿐만 아니라 정찰 및 공격 등의 군사적 목적으로 다수의 무인기를 사용하는 다양한 시도가 진행되고 있다. 그러나 다수의 무인기를 사용할 때에 각 무인기를 사람이 직접 제어하는 데에는 어려움이 많으므로, 주어진 목표를 달성하기 위해서 자율적으로 협력하며 효과적인 행동을 수행하는 알고리즘의 개발이 필수적이다. 이러한 문제는 순차적 의사결정 문제로 생각할 수 있으며, 마코프 의사결정 과정(Markov Decision Processes; MDPs)과 이를 부분적 혹은 부정확한 관찰값을 다룰 수 있도록 확장한 부분관찰 마코프 의사결정 과정(Partially Observable MDPs; POMDPs) 등의 대표적인 의사결정이론 모델을 이용하여 복잡하고 불확실한 환경에서의 의사결정 문제를 통계적으로 다룰 수 있다. 본 논문에서는 복수의 무인기를 이용할 때 동적 임무 할당 및 정찰 임무 문제를 POMDP를 이용하여 효율적으로 최적화할 수 있음을 보이고, 센서의 관찰값에 오차가 발생할 수 있는 경우, MDP에 비해 POMDP를 이용할 때 더 좋은 성능을 얻을 수 있음을 보인다. 또한 실제 쿼드콥터(quadcopter)를 이용하여 POMDP 정책이 실제 환경에서도 잘 동작함을 시뮬레이션을 통해 입증하였다. Interest in unmanned aerial vehicles (UAVs) for military use such as surveillance and target tracking or civil applications such as agriculture and firefighting has increased in recent years, due to significant progress in their development. Since there are still required human operators to remote-control multiple UAVs, autonomous control of UAVs has been significantly studied. Autonomous planning and control of multiple UAVs can be viewed as a sequential decision problem, which can be modeled as Markov decision processes (MDPs) or partially observable Markov decision processes (POMDPs) which extend MDPs by allowing partial or uncertain observations. This paper discusses the application of POMDPs to optimize the control of UAVs in reconnaissance flights with dynamic task allocation, and we experimentally show that the policies computed from POMDPs perform better than those from MDPs under uncertain observations. The applicability of the POMDP framework is also demonstrated by the realistic simulation using multiple quadcopters.