7. 수학공부/기타

Reinforcement Learning_ Markov Decision Process

First man 2025. 1. 17. 10:50

 

안녕하세요,

오늘은 토론토대학교 강화학습 수업을 들으면서 이해가 되지 않는 부분이 있어 유튜브 혁펜하임으로 공부한 내용을 업로드합니다.

 


Markov Decision Process

 

중요한 성질 : State와 Action이 Random하다.

s1와 주어져 있으면 s0과 a0을 알건 모르건 상관없이 a1의 확률이 정해진다.

 

두다리는 지워주고, 한다리는 남긴다. 

1. P(a1 | s0, a0, s1) 이면 P(a1| s1)만 남는다. (여기서는 s1만 알면 a1이 되기에) 

2. P(s2 | s0, a0, s1, a1) 이면 P(s2| s1, a1)만 남는다. (여기서는 s1과 a1을 알아야 s2가 되기에)

 

 1번 >> Policy : State에서 어떤 action을 할지에 대한 분포가 정책이다.  

 2번 >> Transition(이동) probability

 

 

강화학습의 목표(Goal) = Maximize Reward (즉, Maximize Expected Return)

 

Return은 무엇인가? 

 

 

Policy만 가지고 있으면 어떻게 행동할지 다 나온다. 여기서의 Goal은 Maximize Expected Return을 구하는 것이다.

 

 

728x90
LIST