강화학습은 시스템에 대한 구체적인 모델이 없는 상황에서 환경과 에이전트(agent)의 상호 작용을 통해 목표를 달성하는 강력한 방법론이다. 즉, 현재 시점에서의 환경의 상태에 따라 적절한 ...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T11685149
서울 : 고려대학교 대학원, 2009
학위논문(석사) -- 고려대학교 대학원 , 제어계측공학과 메카트로닉스전공 , 2009.2
2009
한국어
강화학습 ; 메타학습 ; 메니폴드 제어 ; 액터-크리틱 퍼지 강화학습
서울
vi, 59 p. : 삽도 ; 26 cm.
단면인쇄임
지도교수: 박주영
참고문헌 : p. 54-57
0
상세조회0
다운로드국문 초록 (Abstract)
강화학습은 시스템에 대한 구체적인 모델이 없는 상황에서 환경과 에이전트(agent)의 상호 작용을 통해 목표를 달성하는 강력한 방법론이다. 즉, 현재 시점에서의 환경의 상태에 따라 적절한 ...
강화학습은 시스템에 대한 구체적인 모델이 없는 상황에서 환경과 에이전트(agent)의 상호 작용을 통해 목표를 달성하는 강력한 방법론이다. 즉, 현재 시점에서의 환경의 상태에 따라 적절한 액션(action)을 가해서 발생되는 피드백 신호인 보상값(reward)을 이용하여 목표를 향해 학습이 진행된다.
그러나 이 강화학습론을 적용할 때, 학습의 성능을 좌지우지하는 파라미터인 학습율(learning rate)과 할인율(discount factor) 등을 고려해야 한다. 지금까지 대부분의 실험에서는 이 값을 고정된 상수로 사용하고 있으며, 이 값을 찾기 위해 반복 실험을 수행하여 적절한 값을 얻었다. 그러나 본 논문에서는 메타학습(meta-learning) 기법을 적용하여 이런 문제점들을 극복해 본다.
또한, 상태와 액션 공간이 연속적이며 고차원을 가진 문제를 다룰 때, 이 공간을 표현하기 위한 공간의 일반화(generalization)에 대해 신중하게 고려해야 한다. 이를 위한 함수 근사화(function approximation) 방법으로 메니폴드 제어(manifold control) 기법과 액터-크리틱 퍼지 강화학습(actor-critic fuzzy reinforcement learning) 기법을 이용한다. 그리고 이 기법들을 강화학습의 RLS-NAC(recursive least-squares natural actor-critic) 알고리즘에 접목하여 제어기 설계에 관한 문제를 고찰한다.
다국어 초록 (Multilingual Abstract)
Reinforcement learning is a powerful technique for a goal-directed learning through interactions with the environment without a specific model for systems. But when applying learning to systems, we have to consider parameters like the learning rate a...
Reinforcement learning is a powerful technique for a goal-directed learning through interactions with the environment without a specific model for systems.
But when applying learning to systems, we have to consider parameters like the learning rate and discount factor that largely affect performance of learning. We usually use these parameters by a constant, and carry out repetitive experiments in order to find appropriate values for them in most of experiments. In this thesis, we cope with the above problem by adapting the meta-learning method.
When dealing with continuous and high dimensional state and action spaces, we need to consider generalization to represent these spaces effectively. For this in this thesis, we use manifold control method and actor-critic fuzzy reinforcement learning method. Then combining these methods together with RLS-NAC(recursive least-squares natural actor-critic) algorithm, we perform studies on designing controllers.
목차 (Table of Contents)