[review] 자전거 강화학습

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

직관적인느낌

[review] 자전거 강화학습 - 본문 본문

공학

[review] 자전거 강화학습 - 본문

범슐랭 2023. 2. 8. 11:07

728x90

Reference

Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms
DeepDeterministicPolicyGradient알고리즘을응용한자전거의자율주행제어
Self-Balancing and Autonomous Driving Control Method for Bicycle using Deep Reinforcement Learning

2. Preliminaries

Related works

MDP(Markov Decision Process) and Reinforcement Learning
- 강화학습?
  - → 보상 값으로 부터 학습을 하는데 중점 (기계학습의 한 종류)
  - 에이언트↔ 환경, 에이전트를 통해서 환경과 상호작용하며 학습 진행
    - 보상(from 환경) → 에이전트 : 어떤 행동을 더 해야할지 알게됨
  - 기본적인 강화학습 문제의 튜플을 갖는 MDP(이산 시간 마르코프 결정 프로세스)로 모델링 된다.
    - 튜플
      - S : 상태 공간
      - A : 행동 공간
      - P : 현재 상태의 동작 쌍이 주어지면 다음 상태를 획득할 확률을 측정하는 함수
      - r : 보상, (상태-행동에서 얻은)
      - gamma : (0,1) 사이의 값을 갖는 감가율
      - 상태 - 행동 쌍의 시퀀스
        
        보상 값을 누적하며 에피소드의 궤적을 생성
      - $$ R(\xi)=\sum ^{\infty_{t=0}} \gamma^tr(s_t,a_t) $$
  - $$ S, A, P,r,\gamma $$
  - 강화학습 문제의 정책
    - 상태 공간 → 행동 공간, 매핑하는 함수 pi
    - $$ \pi $$
    - 기대되는 차감된 보상(Discounted Reward)을 최대화 하는 최적 정책(pi) 찾기
      - 정책 경사 기반 방법(Policy gradient based method) : 최적 정책 찾는 방법 중 하나
        
        정책은 매개변수 벡터(theta)에 의해 매개 변수화 되고
        
        기대되는 차감된 보상 값(Discounted Reward Value)의 경사 방향을 따라 업데이트
        
        alpha : 학습률
        
        k : 현재 업데이트 횟수
        
        $$ \theta_{k+1}=\theta_k+\alpha \nabla_\theta J(\pi(\theta_k)) $$
    - $$ J(\pi)=\Epsilon[R(\xi)]=\int p(\xi|\pi)R(\xi)d\xi $$
Deep Deterministic Policy Gradient Algorithm
- DDPG - 정책을 나타내기 위하여 심층 신경망을 사용하는 오프폴리시(Off-Policy) 알고리즘
- 특징
  1. 액터- 크리틱(Actor-Critic) 프레임 워크를 상속 받는다.
    - 액터 (Actor) : ‘상태’를 입력받아 ‘동작’을 생성하는 ‘정책’을 관리
    - 크리틱 (Critic) : ‘액터의 가치를 평가’하는데 사용되는 ‘행동 가치 함수’를 추정
  2. 액터와 크리틱 파트 구현을 위해, 두개의 심층 신경 네트워크 사용
    → 자전거와 같은 고도의 비선형적인 작업을 표현하기에 충분히 유용
  3. 액터 네트워크 (Actor Network)를 학습하기 위해, 결정론적 정책 경사(Deterministic Policy Gradient)를 사용
    - 정책 경사(Policy Gradient)
    - 행동(Action) a에 대한 행동 가치 함수의 기울기
    - 파라미터(theta^u)에 대한 액터의 기울기
  4. 딥-큐러닝(Deep Q-Learning)의 두가지 특성을 사용
    1. 액터 네트워크의 사본과 크리틱 네트워크의 사본을 유지
      사본: 학습 단계에서 안정성을 향상시킨다.
    2. 리플 메모리를 유지 (환경과 상호작용하는 동안의 모든 샘플 데이터를 저장)재생메모리 사용
      : 일련의 데이터 샘플들 사이의 상관관계를 제거 가능.
    3. 매 스텝마다 재생 메모리에서 데이터 묶음을 무작위로 샘플링하여 네트워크를 학습.

728x90

'공학' 카테고리의 다른 글

TBB(Threading Building Blocks)와 concurrent_queue/concurrent_vector [+일반 컨테이너] (0)	2024.01.09
std::mutex 와 lock/unlock (0)	2024.01.09
std:: vector와 힙/스택/큐 (0)	2024.01.09
Github 코드 수정 및 branch 생성 (0)	2023.03.25
[review] 자전거 강화학습 - Intro (0)	2023.02.06

'공학' Related Articles

직관적인느낌

[review] 자전거 강화학습 - 본문 본문

[review] 자전거 강화학습 - 본문

Reference

2. Preliminaries

'공학' 카테고리의 다른 글

티스토리툴바