안녕하세요,오늘은 토론토대학교 강화학습 수업을 들으면서 이해가 되지 않는 부분이 있어 유튜브 혁펜하임으로 공부한 내용을 업로드합니다. Markov Decision Process 중요한 성질 : State와 Action이 Random하다.s1와 주어져 있으면 s0과 a0을 알건 모르건 상관없이 a1의 확률이 정해진다. 두다리는 지워주고, 한다리는 남긴다. 1. P(a1 | s0, a0, s1) 이면 P(a1| s1)만 남는다. (여기서는 s1만 알면 a1이 되기에) 2. P(s2 | s0, a0, s1, a1) 이면 P(s2| s1, a1)만 남는다. (여기서는 s1과 a1을 알아야 s2가 되기에) 1번 >> Policy : State에서 어떤 action을 할지에 대한 분포가 정책이다. 2번 >>..