안녕하세요,오늘은 토론토대학교 강화학습 수업을 들으면서 Q-Learning 부분에 대해 유튜브 혁펜하임으로 공부한 내용을 업로드합니다. Reinforcement Learning 이란, 맛집 찾기 이다. Q-Learning (Greedy action)맛집을 찾을 때, Q-Learning은 Greedy aciton(탐욕행동?)을 씁니다. 이동을 하면서 점수를 매길 것이고, 점수가 가장 큰 쪽으로 이동하는 것이 Greedy Action입니다.처음에는 0이다.위의 X표시의 모든 S(State, 상태)는 다 0이다. 맛집에 들어가면서 에피소드가 끝난다. 첫번째 에피소드맛집에 들어가면 R=1 리워드를 받는다. 위로 가면 리워드를 받기에 위쪽에 1 표시. 두번째 에피소드이동할 때, 오른쪽으로 고르는 동시에 Q-Le..