강화학습의 기법 중 Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습하는 것이다. Q-Learning은 강화학습의 기본적...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A108113736
2022
Korean
KCI등재
학술저널
72-77(6쪽)
0
0
상세조회0
다운로드국문 초록 (Abstract)
강화학습의 기법 중 Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습하는 것이다. Q-Learning은 강화학습의 기본적...
강화학습의 기법 중 Q-Learning은 주어진 상태에서 행동을 수행하면서 미래의 효율적인 기댓값을 예측하는 Q 함수를 학습하면서 최적의 정책을 학습하는 것이다. Q-Learning은 강화학습의 기본적인 알고리즘으로 많이 활용하고 있다. 본 논문에서는 Q-Learning을 바탕으로 정책과 보상을 설계하여 효율적인 경로를 선택하고 학습하는 효용성에 대하여 연구하였다. 또한 Frozen Lake 게임의 8x8 그리드 환경에 동일한 학습 횟수를 적용하여 기존 알고리즘 및 처벌 보상 정책과 제시한 처벌강화 정책의 결과를 비교하였다. 해당 비교를 통해 본 논문에서 제시한 Q-Learning의 처벌강화 정책이 통상적인 알고리즘의 적용보다 학습 속도를 상당히 높일 수 있는 것으로 분석되었다.
참고문헌 (Reference)
1 Watkins, C.J.C.H., "Q-learning" 8 (8): 279-292, 1992
2 Clifton, J., "Q-Learning: Theory and Applications" 7 (7): 279-301, 2020
3 V. Mnih, "Playing Atari with Deep Reinforcement Learning"
4 G. Brockman, "OpenAI Gym"
5 Watkins, C.J.C.H, "Learning from Delayed Rewards" King’s College 1989
1 Watkins, C.J.C.H., "Q-learning" 8 (8): 279-292, 1992
2 Clifton, J., "Q-Learning: Theory and Applications" 7 (7): 279-301, 2020
3 V. Mnih, "Playing Atari with Deep Reinforcement Learning"
4 G. Brockman, "OpenAI Gym"
5 Watkins, C.J.C.H, "Learning from Delayed Rewards" King’s College 1989
항공기 무장/장착물의 안전 분리 및 성능 검증을 위한 점검 시스템 설계 및 구현
항공기 장착 유도탄의 KW급 전력변환장치 설계와 정류방식에 따른 연구
학술지 이력
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2027 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2021-04-23 | 학술지명변경 | 외국어명 : The Journal of Korea Navigation Institute -> Journal of Advanced Navigation Technology | |
2021-01-01 | 평가 | 등재학술지 유지 (재인증) | |
2018-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2015-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2011-01-01 | 평가 | 등재학술지 유지 (등재유지) | |
2008-01-01 | 평가 | 등재학술지 선정 (등재후보2차) | |
2007-01-01 | 평가 | 등재후보 1차 PASS (등재후보1차) | |
2005-01-01 | 평가 | 등재후보학술지 선정 (신규평가) |
학술지 인용정보
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.27 | 0.27 | 0.23 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.21 | 0.19 | 0.364 | 0.16 |