RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      Optimization based Policy Gradient for MARL

      한글로보기

      https://www.riss.kr/link?id=T16826220

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      The current invention relates to the multi-agents deep reinforcement learning (MADRL). In multi-agent deep reinforcement learning, many intelligent agents interact and work together in a setting where they try to learn from their mistakes and develop better decision-making skills.
      Recently, MADRL showed very promising results in cooperative multi-agent systems (MAS) and proved its importance in this field. Particularly, in complex tasks like self-driving vehicles, two state gaming (StarCraft), logistics distribution in a factory, productivity optimization, and cooperative multi-robot exploration system. Many different techniques are introduced for solving these problems.
      Deep multiagent reinforcement learning shows promising results in terms of completing many challenging tasks. To demonstrate its viability of the field, (VDN) enabled centralized value-function learning to be coupled by decentralized execution. Their approach combined the individual agent terms from a core state-action value function. VDN, however, can only represent a small class of centralized action-value functions and does not employ additional state information during training. Modern methods like QMIX employ the CTDE (centralized training with decentralized execution) paradigm. In this method, a mixer network is used to factorize the joint state-action value function for all agents as a monotonic function. In order to guarantee the individual-global-max condition IMG for each agent, the mixer network is employed to calculate the joint state-action value of all agents. A hyper-network, which predicts a strictly positive weight for the mixer network based on the present state of each agent as an input, is used to achieve the monotonic condition. The outputs of the mixer network also depend on the current state via this hyper-network. The mixing network is given the same DQN algorithm that was used in the optimization process. The joint action-value function class of QMIX is also restricted.
      To address this limitation, QTRAN introduced a novel factorization method to express the complete value function class with the help of IGM consistency. However, although requiring more processing effort to implement, this method ensured more general factorization than QMIX. Mahajan et al.'s analysis of QMIX's exploration capabilities in particular contexts showed limitations. To improve the performance of all agents, they presented a paradigm in which a latent space exists. Therefore, obtaining effective scalability for supporting MARL remains a difficulty that is solved by QPLEX. Although QPLEX performs well, sophisticated networks are still needed to produce these outcomes. Additionally, because it employs a greedy policy for the choice of an individual agent's activity, it necessitates several training episodes for a sizable number of agents.
      Additionally, two novel Deep Quality-Value (DQV)-based MARL algorithms known as QVMix and QVMix-Max have been developed by researchers. The development of these algorithms makes use of centralized training and decentralized execution. The outcomes of these algorithms demonstrate that QVMix outperformed the others because it is less prone to an overestimation bias of the Q function. However, QVMix also needs a lot of processing power and training time because it also employs a greedy method for choosing the actions taken by each individual agent.
      In this thesis, to overcome these restrictions, we suggest a novel hybrid policy that is based on optimization and is inspired by nature. For the action selection of each individual agent in this policy, we employed GWO in conjunction with a greedy policy. Although they require environmental knowledge, optimization algorithms such as GWO (often used for finding the prey) and Ant Colony Optimizer (typically used for determining the shortest path) outperform the greedy policy. In GWO, agents are taught centrally, with the leader agent assisting the other agents. As a result, because the current innovation uses bio-inspired optimization, it takes less computer resources and fewer episodes than legacy methodologies. In which there are no communication restrictions and agents cooperate to attain the goal. Additionally, in a known environment, optimization strategies converge more quickly than greedy policies. The optimization algorithm, however, fails in an unknowable environment, but the greedy policy performs noticeably better. We therefore attain the greatest outcomes for both cases by combining these approaches. We compared our suggested approach to the cutting-edge QMIX and QVMix algorithms using the StarCraft 2 Learning Environment. The results of the experiments show that our algorithm performs better than QMIX and QVMix in every case and needs less training sessions.
      번역하기

      The current invention relates to the multi-agents deep reinforcement learning (MADRL). In multi-agent deep reinforcement learning, many intelligent agents interact and work together in a setting where they try to learn from their mistakes and develop ...

      The current invention relates to the multi-agents deep reinforcement learning (MADRL). In multi-agent deep reinforcement learning, many intelligent agents interact and work together in a setting where they try to learn from their mistakes and develop better decision-making skills.
      Recently, MADRL showed very promising results in cooperative multi-agent systems (MAS) and proved its importance in this field. Particularly, in complex tasks like self-driving vehicles, two state gaming (StarCraft), logistics distribution in a factory, productivity optimization, and cooperative multi-robot exploration system. Many different techniques are introduced for solving these problems.
      Deep multiagent reinforcement learning shows promising results in terms of completing many challenging tasks. To demonstrate its viability of the field, (VDN) enabled centralized value-function learning to be coupled by decentralized execution. Their approach combined the individual agent terms from a core state-action value function. VDN, however, can only represent a small class of centralized action-value functions and does not employ additional state information during training. Modern methods like QMIX employ the CTDE (centralized training with decentralized execution) paradigm. In this method, a mixer network is used to factorize the joint state-action value function for all agents as a monotonic function. In order to guarantee the individual-global-max condition IMG for each agent, the mixer network is employed to calculate the joint state-action value of all agents. A hyper-network, which predicts a strictly positive weight for the mixer network based on the present state of each agent as an input, is used to achieve the monotonic condition. The outputs of the mixer network also depend on the current state via this hyper-network. The mixing network is given the same DQN algorithm that was used in the optimization process. The joint action-value function class of QMIX is also restricted.
      To address this limitation, QTRAN introduced a novel factorization method to express the complete value function class with the help of IGM consistency. However, although requiring more processing effort to implement, this method ensured more general factorization than QMIX. Mahajan et al.'s analysis of QMIX's exploration capabilities in particular contexts showed limitations. To improve the performance of all agents, they presented a paradigm in which a latent space exists. Therefore, obtaining effective scalability for supporting MARL remains a difficulty that is solved by QPLEX. Although QPLEX performs well, sophisticated networks are still needed to produce these outcomes. Additionally, because it employs a greedy policy for the choice of an individual agent's activity, it necessitates several training episodes for a sizable number of agents.
      Additionally, two novel Deep Quality-Value (DQV)-based MARL algorithms known as QVMix and QVMix-Max have been developed by researchers. The development of these algorithms makes use of centralized training and decentralized execution. The outcomes of these algorithms demonstrate that QVMix outperformed the others because it is less prone to an overestimation bias of the Q function. However, QVMix also needs a lot of processing power and training time because it also employs a greedy method for choosing the actions taken by each individual agent.
      In this thesis, to overcome these restrictions, we suggest a novel hybrid policy that is based on optimization and is inspired by nature. For the action selection of each individual agent in this policy, we employed GWO in conjunction with a greedy policy. Although they require environmental knowledge, optimization algorithms such as GWO (often used for finding the prey) and Ant Colony Optimizer (typically used for determining the shortest path) outperform the greedy policy. In GWO, agents are taught centrally, with the leader agent assisting the other agents. As a result, because the current innovation uses bio-inspired optimization, it takes less computer resources and fewer episodes than legacy methodologies. In which there are no communication restrictions and agents cooperate to attain the goal. Additionally, in a known environment, optimization strategies converge more quickly than greedy policies. The optimization algorithm, however, fails in an unknowable environment, but the greedy policy performs noticeably better. We therefore attain the greatest outcomes for both cases by combining these approaches. We compared our suggested approach to the cutting-edge QMIX and QVMix algorithms using the StarCraft 2 Learning Environment. The results of the experiments show that our algorithm performs better than QMIX and QVMix in every case and needs less training sessions.

      더보기

      국문 초록 (Abstract)

      본 발명은 MADRL(Multi- Agent Deep Reinforcement Learning)에 관한 것이다. 다중 에이전트 심층 강화 학습에서 많은 지능형 에이전트는 실수로부터 배우고 더 나은 의사 결정 기술을 개발하려는 환경에서 상호 작용하고 함께 작업합니다. 최근 MADRL은 협력 다중 에이전트 시스템(MAS)에서 매우 유망한 결과를 보여 이 분야에서 그 중요성을 입증했습니다. 특히 자율주행차, 투 스테이트 게임(스타크래프트), 공장 내 물류 유통, 생산성 최적화, 협동형 멀티로봇 탐사 시스템과 같은 복잡한 작업에서. 이러한 문제를 해결하기 위해 다양한 기술이 도입되었습니다. 심층 다중 에이전트 강화 학습은 많은 도전적인 작업을 완료하는 측면에서 유망한 결과를 보여줍니다 . 현장의 실행 가능성을 입증하기 위해 (VDN)은 중앙 집중식 가치 기능 학습이 분산 실행과 결합되도록 했습니다. 그들의 접근 방식은 핵심 상태-행동 가치 함수의 개별 에이전트 용어를 결합했습니다. 그러나 VDN은 작은 클래스의 중앙 집중식 작업 값 함수만 나타낼 수 있으며 교육 중에 추가 상태 정보를 사용하지 않습니다. QMIX와 같은 최신 방법은 CTDE(분산형 실행을 통한 중앙 집중식 교육) 패러다임을 사용합니다. 이 방법에서는 믹서 네트워크를 사용하여 모든 에이전트에 대한 공동 상태-행동 값 함수를 단조 함수로 분해합니다. 각 에이전트에 대한 개별-글로벌-최대 조건 IMG를 보장하기 위해 믹서 네트워크를 사용하여 모든 에이전트의 공동 상태-행동 값을 계산합니다. 단조 조건을 달성하기 위해 각 에이전트의 현재 상태를 입력으로 하여 믹서 네트워크에 대한 엄격한 양의 가중치를 예측하는 하이퍼 네트워크가 사용됩니다. 믹서 네트워크의 출력도 이 하이퍼 네트워크를 통한 현재 상태에 따라 달라집니다. 혼합 네트워크에는 최적화 프로세스에 사용된 것과 동일한 DQN 알고리즘이 제공됩니다. QMIX의 공동 행동 가치 함수 클래스도 제한됩니다.

      이 제한을 해결하기 위해 QTRAN은 IGM 일관성의 도움으로 완전한 가치 함수 클래스를 표현하는 새로운 분해 방법을 도입했습니다. 그러나 구현하는 데 더 많은 처리 노력이 필요하지만 이 방법은 QMIX보다 더 일반적인 분해를 보장합니다. 특정 상황에서 QMIX의 탐색 기능에 대한 Mahajan et al.의 분석은 한계를 보여주었습니다. 모든 에이전트의 성능 향상을 위해 잠재 공간이 존재하는 패러다임을 제시했다. 따라서 MARL을 지원하기 위한 효과적인 확장성을 확보하는 것은 QPLEX로 해결되는 난제로 남아 있습니다. QPLEX의 성능은 우수하지만 이러한 결과를 생성하려면 정교한 네트워크가 여전히 필요합니다. 또한 개별 에이전트의 활동 선택에 탐욕적인 정책을 사용하기 때문에 상당한 수의 에이전트에 대해 여러 훈련 에피소드가 필요합니다. 또한 QVMix 및 QVMix -Max 로 알려진 두 가지 새로운 DQV(Deep Quality-Value) 기반 MARL 알고리즘이 연구원에 의해 개발되었습니다. 이러한 알고리즘의 개발은 중앙 집중식 교육 및 분산 실행을 사용합니다. 이러한 알고리즘의 결과는 QVMix가 Q 함수의 과대평가 편향에 덜 취약하기 때문에 다른 알고리즘보다 우수한 성능을 보였다는 것을 보여줍니다. 그러나 QVMix는 또한 각 개별 에이전트가 수행하는 작업을 선택하는 욕심 많은 방법을 사용하기 때문에 많은 처리 능력과 교육 시간이 필요합니다. 본 논문에서는 이러한 제약을 극복하기 위해 자연에서 영감을 얻은 최적화 기반의 새로운 하이브리드 정책을 제안한다. 이 정책에서 각 개별 에이전트의 작업 선택을 위해 욕심 많은 정책과 함께 GWO를 사용했습니다. 환경 지식이 필요하지만 GWO(먹이를 찾는 데 자주 사용됨) 및 Ant Colony Optimizer(일반적으로 최단 경로를 결정하는 데 사용됨)와 같은 최적화 알고리즘이 욕심쟁이 정책을 능가합니다. GWO에서 에이전트는 다른 에이전트를 지원하는 리더 에이전트와 함께 중앙에서 학습됩니다. 결과적으로 현재의 혁신은 생체에서 영감을 얻은 최적화를 사용하기 때문에 기존 방법론보다 컴퓨터 리소스와 에피소드가 적습니다. 통신 제한이 없으며 에이전트가 목표를 달성하기 위해 협력합니다. 또한 알려진 환경에서 최적화 전략은 그리디 정책보다 더 빠르게 수렴됩니다. 그러나 최적화 알고리즘은 알 수 없는 환경에서 실패하지만 탐욕 정책이 눈에 띄게 더 잘 수행됩니다. 따라서 이러한 접근 방식을 결합하여 두 경우 모두에 대해 가장 큰 결과를 얻습니다. 우리는 StarCraft 2 학습 환경을 사용하여 최첨단 QMIX 및 QVMix 알고리즘에 대해 제안된 접근 방식을 비교했습니다. 실험 결과는 우리의 알고리즘이 모든 경우에 QMIX 및 QVMix 보다 더 잘 수행되고 훈련 세션이 더 적게 필요함을 보여줍니다.
      번역하기

      본 발명은 MADRL(Multi- Agent Deep Reinforcement Learning)에 관한 것이다. 다중 에이전트 심층 강화 학습에서 많은 지능형 에이전트는 실수로부터 배우고 더 나은 의사 결정 기술을 개발하려는 환경에...

      본 발명은 MADRL(Multi- Agent Deep Reinforcement Learning)에 관한 것이다. 다중 에이전트 심층 강화 학습에서 많은 지능형 에이전트는 실수로부터 배우고 더 나은 의사 결정 기술을 개발하려는 환경에서 상호 작용하고 함께 작업합니다. 최근 MADRL은 협력 다중 에이전트 시스템(MAS)에서 매우 유망한 결과를 보여 이 분야에서 그 중요성을 입증했습니다. 특히 자율주행차, 투 스테이트 게임(스타크래프트), 공장 내 물류 유통, 생산성 최적화, 협동형 멀티로봇 탐사 시스템과 같은 복잡한 작업에서. 이러한 문제를 해결하기 위해 다양한 기술이 도입되었습니다. 심층 다중 에이전트 강화 학습은 많은 도전적인 작업을 완료하는 측면에서 유망한 결과를 보여줍니다 . 현장의 실행 가능성을 입증하기 위해 (VDN)은 중앙 집중식 가치 기능 학습이 분산 실행과 결합되도록 했습니다. 그들의 접근 방식은 핵심 상태-행동 가치 함수의 개별 에이전트 용어를 결합했습니다. 그러나 VDN은 작은 클래스의 중앙 집중식 작업 값 함수만 나타낼 수 있으며 교육 중에 추가 상태 정보를 사용하지 않습니다. QMIX와 같은 최신 방법은 CTDE(분산형 실행을 통한 중앙 집중식 교육) 패러다임을 사용합니다. 이 방법에서는 믹서 네트워크를 사용하여 모든 에이전트에 대한 공동 상태-행동 값 함수를 단조 함수로 분해합니다. 각 에이전트에 대한 개별-글로벌-최대 조건 IMG를 보장하기 위해 믹서 네트워크를 사용하여 모든 에이전트의 공동 상태-행동 값을 계산합니다. 단조 조건을 달성하기 위해 각 에이전트의 현재 상태를 입력으로 하여 믹서 네트워크에 대한 엄격한 양의 가중치를 예측하는 하이퍼 네트워크가 사용됩니다. 믹서 네트워크의 출력도 이 하이퍼 네트워크를 통한 현재 상태에 따라 달라집니다. 혼합 네트워크에는 최적화 프로세스에 사용된 것과 동일한 DQN 알고리즘이 제공됩니다. QMIX의 공동 행동 가치 함수 클래스도 제한됩니다.

      이 제한을 해결하기 위해 QTRAN은 IGM 일관성의 도움으로 완전한 가치 함수 클래스를 표현하는 새로운 분해 방법을 도입했습니다. 그러나 구현하는 데 더 많은 처리 노력이 필요하지만 이 방법은 QMIX보다 더 일반적인 분해를 보장합니다. 특정 상황에서 QMIX의 탐색 기능에 대한 Mahajan et al.의 분석은 한계를 보여주었습니다. 모든 에이전트의 성능 향상을 위해 잠재 공간이 존재하는 패러다임을 제시했다. 따라서 MARL을 지원하기 위한 효과적인 확장성을 확보하는 것은 QPLEX로 해결되는 난제로 남아 있습니다. QPLEX의 성능은 우수하지만 이러한 결과를 생성하려면 정교한 네트워크가 여전히 필요합니다. 또한 개별 에이전트의 활동 선택에 탐욕적인 정책을 사용하기 때문에 상당한 수의 에이전트에 대해 여러 훈련 에피소드가 필요합니다. 또한 QVMix 및 QVMix -Max 로 알려진 두 가지 새로운 DQV(Deep Quality-Value) 기반 MARL 알고리즘이 연구원에 의해 개발되었습니다. 이러한 알고리즘의 개발은 중앙 집중식 교육 및 분산 실행을 사용합니다. 이러한 알고리즘의 결과는 QVMix가 Q 함수의 과대평가 편향에 덜 취약하기 때문에 다른 알고리즘보다 우수한 성능을 보였다는 것을 보여줍니다. 그러나 QVMix는 또한 각 개별 에이전트가 수행하는 작업을 선택하는 욕심 많은 방법을 사용하기 때문에 많은 처리 능력과 교육 시간이 필요합니다. 본 논문에서는 이러한 제약을 극복하기 위해 자연에서 영감을 얻은 최적화 기반의 새로운 하이브리드 정책을 제안한다. 이 정책에서 각 개별 에이전트의 작업 선택을 위해 욕심 많은 정책과 함께 GWO를 사용했습니다. 환경 지식이 필요하지만 GWO(먹이를 찾는 데 자주 사용됨) 및 Ant Colony Optimizer(일반적으로 최단 경로를 결정하는 데 사용됨)와 같은 최적화 알고리즘이 욕심쟁이 정책을 능가합니다. GWO에서 에이전트는 다른 에이전트를 지원하는 리더 에이전트와 함께 중앙에서 학습됩니다. 결과적으로 현재의 혁신은 생체에서 영감을 얻은 최적화를 사용하기 때문에 기존 방법론보다 컴퓨터 리소스와 에피소드가 적습니다. 통신 제한이 없으며 에이전트가 목표를 달성하기 위해 협력합니다. 또한 알려진 환경에서 최적화 전략은 그리디 정책보다 더 빠르게 수렴됩니다. 그러나 최적화 알고리즘은 알 수 없는 환경에서 실패하지만 탐욕 정책이 눈에 띄게 더 잘 수행됩니다. 따라서 이러한 접근 방식을 결합하여 두 경우 모두에 대해 가장 큰 결과를 얻습니다. 우리는 StarCraft 2 학습 환경을 사용하여 최첨단 QMIX 및 QVMix 알고리즘에 대해 제안된 접근 방식을 비교했습니다. 실험 결과는 우리의 알고리즘이 모든 경우에 QMIX 및 QVMix 보다 더 잘 수행되고 훈련 세션이 더 적게 필요함을 보여줍니다.

      더보기

      목차 (Table of Contents)

      • Chapter 1. INTRODUCTION 1
      • Chapter 2. Field Background 4
      • 2.1 Deep Reinforcement Learning 5
      • 2.2 Multiagent-Systems 9
      • 2.3 Multiagent reinforcement Learning 12
      • Chapter 1. INTRODUCTION 1
      • Chapter 2. Field Background 4
      • 2.1 Deep Reinforcement Learning 5
      • 2.2 Multiagent-Systems 9
      • 2.3 Multiagent reinforcement Learning 12
      • 2.4 Training Scheme 13
      • 2.5 Related Works and Background 16
      • Chapter 3. Grey Wolf Optimization (GWO) 21
      • 3.1 Encircling Prey 22
      • 3.2 Hunting 23
      • 3.3 Attacking Prey 24
      • Chapter 4. Q-value selection using optimization and DRL (QSOD) 27
      • 4.1 Flowchat of Present invention 38
      • Chapter 5. Performance Evaluation 42
      • 5.1 Starcraft II 42
      • 5.2 Experimental Results: 43
      • 5.3 Win-rate: 44
      • 5.4 Training Loss: 47
      • 5.5 Convergence: 48
      • 5.6 Training Time: 49
      • Chapter 6. Conclusions and future work 51
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼