직관적인느낌

[review] 자전거 강화학습 - Intro 본문

공학

[review] 자전거 강화학습 - Intro

범슐랭 2023. 2. 6. 15:59

Reference

  • Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms
  • DeepDeterministicPolicyGradient알고리즘을응용한자전거의자율주행제어
  • Self-Balancing and Autonomous Driving Control Method for Bicycle using Deep Reinforcement Learning

 

1. Introduction

  • 강화학습 연구 사례
    • [4] J. Tan, Y. Gu, C. K. Liu, and G. Turk, “Learning bicycle stunts,” ACM Transactions on Graphics (TOG), Vol. 33, No. 4, pp. 1-16, 2014.
      • ⇒ 정책 경사(Policy Gradient) 적용 - 파라미터 학습
      • : 얕은 수준의 신경망 → 자전거와 같은 고도의 비선형 환경을 표현하는데 한계 존재
    • [6] J. Randlv and P. Alstrm, “Learning to drive a bicycle using reinforcement learning and shaping,” Proceeding ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning, pp. 463-471, 1998.
      • ⇒ SARSA 알고리즘을 기반
      • : 높은 수준의 ‘연속적 상태’ 와 ‘행위 공간’ 을 다루기에 부족함
    • [7] L. P. Tuyen and T. Chung, “Controlling bicycle using deep deterministic policy gradient algorithm,” In Ubiquitous Robots and Ambient Intelligence (URAI), 2017 14th International Conference on, pp. 413-417. IEEE, 2017.
      • ⇒ 심층 신경망 사용
      • 구현 컨트롤러 : DDPG(Deep Deterministic Policy Gradient) 알고리즘
      • 그러나, 임의로 주어진 위치로 인도하는데는 실패
  • 연구 목적
    • 자전거를 어느곳으로나 인도 가능한 개선된 제어기
    • 제어기 입력 :
      • 핸들바에 가해진 토크
      • 질량 중심
      • 자전거 계획 사이의 변위
        • 변위 값이 작으면, 높은 속도의 자전거를 다루기 어렵다.
  • 연구 초점
    • 자전거가 어떤 지점에서 시작하던지, 모든 장소에 도착 할 수있도록 가능한 ”제어기를 학습하는 과정을 개선하는데 초점”
  • 논문의 기여점
    1. 자전거 속도를 제어하기 위하여 자전거 동역학을 재정의 → 수정된 역학은 동적인 자전거 속도를 다룰수 있을 것으로 예상횐다.
    2. 자전거 자세 제어 & 목적지로 이동 가능한 보상 기능을 목표로 한 학습 과정
728x90
반응형