직관적인느낌

[review] 자전거 강화학습 - 본문 본문

공학

[review] 자전거 강화학습 - 본문

범슐랭 2023. 2. 8. 11:07

Reference

  • Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms
  • DeepDeterministicPolicyGradient알고리즘을응용한자전거의자율주행제어
  • Self-Balancing and Autonomous Driving Control Method for Bicycle using Deep Reinforcement Learning

 

2. Preliminaries

  • Related works
  1. MDP(Markov Decision Process) and Reinforcement Learning
    • 강화학습?
      • → 보상 값으로 부터 학습을 하는데 중점 (기계학습의 한 종류)
      • 에이언트↔ 환경, 에이전트를 통해서 환경과 상호작용하며 학습 진행
        • 보상(from 환경) → 에이전트 : 어떤 행동을 더 해야할지 알게됨

      • 기본적인 강화학습 문제의 튜플을 갖는 MDP(이산 시간 마르코프 결정 프로세스)로 모델링 된다.
        • 튜플
          • S : 상태 공간
          • A : 행동 공간
          • P : 현재 상태의 동작 쌍이 주어지면 다음 상태를 획득할 확률을 측정하는 함수
          • r : 보상, (상태-행동에서 얻은)
          • gamma : (0,1) 사이의 값을 갖는 감가율

          • 상태 - 행동 쌍의 시퀀스
            • 보상 값을 누적하며 에피소드의 궤적을 생성
          • $$ R(\xi)=\sum ^{\infty_{t=0}} \gamma^tr(s_t,a_t) $$

      • $$ S, A, P,r,\gamma $$
      • 강화학습 문제의 정책
        • 상태 공간 → 행동 공간, 매핑하는 함수 pi
        • $$ \pi $$
        • 기대되는 차감된 보상(Discounted Reward)을 최대화 하는 최적 정책(pi) 찾기
          • 정책 경사 기반 방법(Policy gradient based method) : 최적 정책 찾는 방법 중 하나
            • 정책은 매개변수 벡터(theta)에 의해 매개 변수화 되고
            • 기대되는 차감된 보상 값(Discounted Reward Value)의 경사 방향을 따라 업데이트
              • alpha : 학습률
              • k : 현재 업데이트 횟수
            • $$ \theta_{k+1}=\theta_k+\alpha \nabla_\theta J(\pi(\theta_k)) $$
        • $$ J(\pi)=\Epsilon[R(\xi)]=\int p(\xi|\pi)R(\xi)d\xi $$
  2. Deep Deterministic Policy Gradient Algorithm
    • DDPG - 정책을 나타내기 위하여 심층 신경망을 사용하는 오프폴리시(Off-Policy) 알고리즘
    • 특징
      1. 액터- 크리틱(Actor-Critic) 프레임 워크를 상속 받는다.
        • 액터 (Actor) : ‘상태’를 입력받아 ‘동작’을 생성하는 ‘정책’을 관리
        • 크리틱 (Critic) : ‘액터의 가치를 평가’하는데 사용되는 ‘행동 가치 함수’를 추정
      2. 액터와 크리틱 파트 구현을 위해, 두개의 심층 신경 네트워크 사용
        → 자전거와 같은 고도의 비선형적인 작업을 표현하기에 충분히 유용
      3. 액터 네트워크 (Actor Network)를 학습하기 위해, 결정론적 정책 경사(Deterministic Policy Gradient)를 사용
        • 정책 경사(Policy Gradient)

        •  
        • 행동(Action) a에 대한 행동 가치 함수의 기울기
        • 파라미터(theta^u)에 대한 액터의 기울기
      4. 딥-큐러닝(Deep Q-Learning)의 두가지 특성을 사용
        1. 액터 네트워크의 사본과 크리틱 네트워크의 사본을 유지
          사본: 학습 단계에서 안정성을 향상시킨다.
        2. 리플 메모리를 유지 (환경과 상호작용하는 동안의 모든 샘플 데이터를 저장)재생메모리 사용
          : 일련의 데이터 샘플들 사이의 상관관계를 제거 가능.
        3. 매 스텝마다 재생 메모리에서 데이터 묶음을 무작위로 샘플링하여 네트워크를 학습.

728x90
반응형