안녕하세요,
오늘은 토론토대학교 강화학습 수업을 들으면서 이해가 되지 않는 부분이 있어 유튜브 혁펜하임으로 공부한 내용을 업로드합니다.
Markov Decision Process
중요한 성질 : State와 Action이 Random하다.
s1와 주어져 있으면 s0과 a0을 알건 모르건 상관없이 a1의 확률이 정해진다.
두다리는 지워주고, 한다리는 남긴다.
1. P(a1 | s0, a0, s1) 이면 P(a1| s1)만 남는다. (여기서는 s1만 알면 a1이 되기에)
2. P(s2 | s0, a0, s1, a1) 이면 P(s2| s1, a1)만 남는다. (여기서는 s1과 a1을 알아야 s2가 되기에)
1번 >> Policy : State에서 어떤 action을 할지에 대한 분포가 정책이다.
2번 >> Transition(이동) probability
강화학습의 목표(Goal) = Maximize Reward (즉, Maximize Expected Return)
Return은 무엇인가?
Policy만 가지고 있으면 어떻게 행동할지 다 나온다. 여기서의 Goal은 Maximize Expected Return을 구하는 것이다.
728x90
LIST
'7. 수학공부 > 기타' 카테고리의 다른 글
[U of T.Reinforcement Learning] Q-Learning, Greedy, exploration, exploitation, discount factor, 그리디, 탐색, Q-러닝 (1) | 2025.01.14 |
---|---|
Lecture 5 Training Neural Networks, Part I (1) | 2024.12.06 |
Lecture 5 Training Neural Networks, Part I (0) | 2024.12.06 |
Lecture 4 Introduction to Neural Networks (3) | 2024.12.05 |
Lecture 3 | Loss Functions and Optimization (0) | 2024.12.03 |