Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 티스토리챌린지
- 로봇
- Simulation
- 아두이노
- ubuntu
- ROS2
- RTK
- 터틀심
- 오블완
- U-blox
- SLAM
- Puck LITE
- 자율탐사
- Gazebo
- Jetson
- WSL
- WSL2
- ZED2
- C++
- Visual SLAM
- 젯슨
- turtlebot3
- GUI
- turtlesim
- 강화학습
- 인공지능
- QT
- ROS
- GPS
- 자율주행
Archives
- Today
- Total
직관적인느낌
[review] 자전거 강화학습 - 본문 본문
728x90
반응형
Reference
- Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms
- DeepDeterministicPolicyGradient알고리즘을응용한자전거의자율주행제어
- Self-Balancing and Autonomous Driving Control Method for Bicycle using Deep Reinforcement Learning
2. Preliminaries
- Related works
- MDP(Markov Decision Process) and Reinforcement Learning
- 강화학습?
- → 보상 값으로 부터 학습을 하는데 중점 (기계학습의 한 종류)
- 에이언트↔ 환경, 에이전트를 통해서 환경과 상호작용하며 학습 진행
- 보상(from 환경) → 에이전트 : 어떤 행동을 더 해야할지 알게됨
- 기본적인 강화학습 문제의 튜플을 갖는 MDP(이산 시간 마르코프 결정 프로세스)로 모델링 된다.
- 튜플
- S : 상태 공간
- A : 행동 공간
- P : 현재 상태의 동작 쌍이 주어지면 다음 상태를 획득할 확률을 측정하는 함수
- r : 보상, (상태-행동에서 얻은)
- gamma : (0,1) 사이의 값을 갖는 감가율
- 상태 - 행동 쌍의 시퀀스
- 보상 값을 누적하며 에피소드의 궤적을 생성
- $$ R(\xi)=\sum ^{\infty_{t=0}} \gamma^tr(s_t,a_t) $$
- 튜플
- $$ S, A, P,r,\gamma $$
- 강화학습 문제의 정책
- 상태 공간 → 행동 공간, 매핑하는 함수 pi
- $$ \pi $$
- 기대되는 차감된 보상(Discounted Reward)을 최대화 하는 최적 정책(pi) 찾기
- 정책 경사 기반 방법(Policy gradient based method) : 최적 정책 찾는 방법 중 하나
- 정책은 매개변수 벡터(theta)에 의해 매개 변수화 되고
- 기대되는 차감된 보상 값(Discounted Reward Value)의 경사 방향을 따라 업데이트
- alpha : 학습률
- k : 현재 업데이트 횟수
- $$ \theta_{k+1}=\theta_k+\alpha \nabla_\theta J(\pi(\theta_k)) $$
- 정책 경사 기반 방법(Policy gradient based method) : 최적 정책 찾는 방법 중 하나
- $$ J(\pi)=\Epsilon[R(\xi)]=\int p(\xi|\pi)R(\xi)d\xi $$
- 강화학습?
- Deep Deterministic Policy Gradient Algorithm
- DDPG - 정책을 나타내기 위하여 심층 신경망을 사용하는 오프폴리시(Off-Policy) 알고리즘
- 특징
- 액터- 크리틱(Actor-Critic) 프레임 워크를 상속 받는다.
- 액터 (Actor) : ‘상태’를 입력받아 ‘동작’을 생성하는 ‘정책’을 관리
- 크리틱 (Critic) : ‘액터의 가치를 평가’하는데 사용되는 ‘행동 가치 함수’를 추정
- 액터와 크리틱 파트 구현을 위해, 두개의 심층 신경 네트워크 사용
→ 자전거와 같은 고도의 비선형적인 작업을 표현하기에 충분히 유용 - 액터 네트워크 (Actor Network)를 학습하기 위해, 결정론적 정책 경사(Deterministic Policy Gradient)를 사용
- 정책 경사(Policy Gradient)
- 행동(Action) a에 대한 행동 가치 함수의 기울기
- 파라미터(theta^u)에 대한 액터의 기울기
- 정책 경사(Policy Gradient)
- 딥-큐러닝(Deep Q-Learning)의 두가지 특성을 사용
- 액터 네트워크의 사본과 크리틱 네트워크의 사본을 유지
사본: 학습 단계에서 안정성을 향상시킨다. - 리플 메모리를 유지 (환경과 상호작용하는 동안의 모든 샘플 데이터를 저장)재생메모리 사용
: 일련의 데이터 샘플들 사이의 상관관계를 제거 가능. - 매 스텝마다 재생 메모리에서 데이터 묶음을 무작위로 샘플링하여 네트워크를 학습.
- 액터 네트워크의 사본과 크리틱 네트워크의 사본을 유지
- 액터- 크리틱(Actor-Critic) 프레임 워크를 상속 받는다.
728x90
반응형
'공학' 카테고리의 다른 글
TBB(Threading Building Blocks)와 concurrent_queue/concurrent_vector [+일반 컨테이너] (0) | 2024.01.09 |
---|---|
std::mutex 와 lock/unlock (0) | 2024.01.09 |
std:: vector와 힙/스택/큐 (0) | 2024.01.09 |
Github 코드 수정 및 branch 생성 (0) | 2023.03.25 |
[review] 자전거 강화학습 - Intro (0) | 2023.02.06 |