'2025/01/14 글 목록

[U of T.Reinforcement Learning] Q-Learning, Greedy, exploration, exploitation, discount factor, 그리디, 탐색, Q-러닝

안녕하세요,오늘은 토론토대학교 강화학습 수업을 들으면서 Q-Learning 부분에 대해 유튜브 혁펜하임으로 공부한 내용을 업로드합니다. Reinforcement Learning 이란, 맛집 찾기 이다. Q-Learning (Greedy action)맛집을 찾을 때, Q-Learning은 Greedy aciton(탐욕행동?)을 씁니다. 이동을 하면서 점수를 매길 것이고, 점수가 가장 큰 쪽으로 이동하는 것이 Greedy Action입니다.처음에는 0이다.위의 X표시의 모든 S(State, 상태)는 다 0이다. 맛집에 들어가면서 에피소드가 끝난다. 첫번째 에피소드맛집에 들어가면 R=1 리워드를 받는다. 위로 가면 리워드를 받기에 위쪽에 1 표시. 두번째 에피소드이동할 때, 오른쪽으로 고르는 동시에 Q-Le..

7. 수학공부/기타 2025.01.14

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

비전공자의 인공지능 고군분투기

2025/01/14 1

티스토리툴바