본문 바로가기

Reinforcement Learning6

[RL]Lecture #6 - Value Function Approximation 영상: https://youtu.be/71nH1BUjhNw 강의 자료: https://www.davidsilver.uk/wp-content/uploads/2020/03/FA.pdf Table Of Content Large-Scale Reinforcement Learning Reinforcement learning can be used to solve large problems, e.g. Backgammon: 1020 states Computer Go: 10170 states Helicopter: continuous state space → 연속적인 상태이기 때문에 테이블 생성 불가능 → Prediction, Control 문제를 푸는 Model-Free 방법을 어떻게 Scale up할까? Value Fu.. 2022. 3. 13.
[RL]Lecture #5 - Model-Free Control 영상: https://youtu.be/2h-FD3e1YgQ 강의 자료: Model-Free Control Table Of Content Model-Free Reinforcement Learning Last Lecture Model-Free Prediction Estimate the value function of an unknown MDP This Lecture Model-Free Control Optimize the value function of an unknwon MDP Use of Model-Free Control Some example problems that can be modelled as MDPs Elevator, Parallel Parking, Ship Steering, Bioreacto.. 2022. 3. 10.
[RL]Lecture #4 - Model-Free Prediction 영상: https://youtu.be/47FyZtBRglI 강의 자료: Model Free Prediction Table Of Content Model-Free Reinforcement Learning Model을 사용하지 않기 때문에 Environment에 대해서 알지 못함 → Partially Observable Environments → Model Free Prediction 또는 Model Free Control 형태로 문제를 풂 이번 Lecutre에서 Estimate the value function of an unknown MDP 에 대해 배울 예정 Monte-Carlo Reinforcement Learning Monte-Carlo: 사건을 수행하면서 나오는 실제값을 통해 추정하는 것 MC m.. 2022. 3. 7.
[RL]Lecture #3 - Planning by Dynamic Programming 영상: https://youtu.be/rrTxOkbHj-M 강의 자료: Planning by Dynamic Programming Table Of Content Planning Environment를 앎(Reward와 State Transition을 안다) Agent는 Environment를 사용하지 않고 내부적인 계산을 통해 다른 상황을 미리 엿보고 Policy를 개선시켜감 Dynamic Programming 복잡한 문제를 푸는 방법론 큰 문제를 작은 문제로 나누고 → 작은 문제의 솔루션을 모으는 것 Requirements for Dynamic Programming 적용하기 위해서 2가지 조건이 필요 Optimal substructure Principle of optimality applies Optim.. 2022. 3. 6.
[RL]Lecture #2 - Markov Decision Processes 영상: https://youtu.be/NMesGSXr8H4 강의 자료: Markov Decision Process Table Of Content ​ Introduction to MDPs RL에서의 Environment를 표현 Fully Observable Environment이다. Agent State == Environment State = Information State 현재 State가 Process를 표현한다. 강화학습 문제를 정의하는 것 Markov Property [Definition] A state St Markov if and only if P[St+1 | St] = P[St+1 | St1, ..., St] The state captures all relevant information fr.. 2022. 3. 6.
[RL]Lecture #1 - Introduction to Reinforcement Learning David Silver 교수님의 강의가 강화학습(Reinforcement Learning) 관련 강의에서 들어봐야할 강의로 꼽힌다. 영어로 설명되어 있기 때문에 한글로 강의를 먼저 듣고 후에 원본 영상을 보고자 한다. 팡요랩에서 David Silver 교수님 강의 및 교안을 활용해 리뷰를 하기 때문에 팡요랩에서 올린 영상을 하나씩 보려고 한다. 팡요랩 강의 목록: https://youtube.com/playlist?list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 강의 자료: https://www.davidsilver.uk/teaching/ 이제 1강부터 차근히 보기 시작하자 영상: https://youtu.be/wYgyiCEkwC8 강의 자료: Introduction to Rein.. 2022. 3. 4.