Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- turtlesim
- GUI
- C++
- WSL
- 인공지능
- ROS
- 로봇
- ZED2
- 자율탐사
- WSL2
- 아두이노
- 티스토리챌린지
- Puck LITE
- Jetson
- 젯슨
- SLAM
- ROS2
- GPS
- 강화학습
- Gazebo
- Simulation
- ubuntu
- 자율주행
- U-blox
- Visual SLAM
- turtlebot3
- QT
- 오블완
- RTK
- 터틀심
Archives
- Today
- Total
직관적인느낌
[review] 자전거 강화학습 - Intro 본문
728x90
반응형
Reference
- Controller Learning Method of Self-driving Bicycle Using State-of-the-art Deep Reinforcement Learning Algorithms
- DeepDeterministicPolicyGradient알고리즘을응용한자전거의자율주행제어
- Self-Balancing and Autonomous Driving Control Method for Bicycle using Deep Reinforcement Learning
1. Introduction
- 강화학습 연구 사례
- [4] J. Tan, Y. Gu, C. K. Liu, and G. Turk, “Learning bicycle stunts,” ACM Transactions on Graphics (TOG), Vol. 33, No. 4, pp. 1-16, 2014.
- ⇒ 정책 경사(Policy Gradient) 적용 - 파라미터 학습
- : 얕은 수준의 신경망 → 자전거와 같은 고도의 비선형 환경을 표현하는데 한계 존재
- [6] J. Randlv and P. Alstrm, “Learning to drive a bicycle using reinforcement learning and shaping,” Proceeding ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning, pp. 463-471, 1998.
- ⇒ SARSA 알고리즘을 기반
- : 높은 수준의 ‘연속적 상태’ 와 ‘행위 공간’ 을 다루기에 부족함
- [7] L. P. Tuyen and T. Chung, “Controlling bicycle using deep deterministic policy gradient algorithm,” In Ubiquitous Robots and Ambient Intelligence (URAI), 2017 14th International Conference on, pp. 413-417. IEEE, 2017.
- ⇒ 심층 신경망 사용
- 구현 컨트롤러 : DDPG(Deep Deterministic Policy Gradient) 알고리즘
- 그러나, 임의로 주어진 위치로 인도하는데는 실패
- [4] J. Tan, Y. Gu, C. K. Liu, and G. Turk, “Learning bicycle stunts,” ACM Transactions on Graphics (TOG), Vol. 33, No. 4, pp. 1-16, 2014.
- 연구 목적
- 자전거를 어느곳으로나 인도 가능한 개선된 제어기
- 제어기 입력 :
- 핸들바에 가해진 토크
- 질량 중심
- 자전거 계획 사이의 변위
- 변위 값이 작으면, 높은 속도의 자전거를 다루기 어렵다.
- 연구 초점
- 자전거가 어떤 지점에서 시작하던지, 모든 장소에 도착 할 수있도록 가능한 ”제어기를 학습하는 과정을 개선하는데 초점”
- 논문의 기여점
- 자전거 속도를 제어하기 위하여 자전거 동역학을 재정의 → 수정된 역학은 동적인 자전거 속도를 다룰수 있을 것으로 예상횐다.
- 자전거 자세 제어 & 목적지로 이동 가능한 보상 기능을 목표로 한 학습 과정
728x90
반응형
'공학' 카테고리의 다른 글
TBB(Threading Building Blocks)와 concurrent_queue/concurrent_vector [+일반 컨테이너] (0) | 2024.01.09 |
---|---|
std::mutex 와 lock/unlock (0) | 2024.01.09 |
std:: vector와 힙/스택/큐 (0) | 2024.01.09 |
Github 코드 수정 및 branch 생성 (0) | 2023.03.25 |
[review] 자전거 강화학습 - 본문 (0) | 2023.02.08 |