안녕하세요,
오늘은 토론토대학교 강화학습 수업을 들으면서 Q-Learning 부분에 대해 유튜브 혁펜하임으로 공부한 내용을 업로드합니다.
Reinforcement Learning 이란, 맛집 찾기 이다.
Q-Learning (Greedy action)
맛집을 찾을 때, Q-Learning은 Greedy aciton(탐욕행동?)을 씁니다.
이동을 하면서 점수를 매길 것이고, 점수가 가장 큰 쪽으로 이동하는 것이 Greedy Action입니다.
처음에는 0이다.
위의 X표시의 모든 S(State, 상태)는 다 0이다. 맛집에 들어가면서 에피소드가 끝난다.
첫번째 에피소드
맛집에 들어가면 R=1 리워드를 받는다. 위로 가면 리워드를 받기에 위쪽에 1 표시.
두번째 에피소드
이동할 때, 오른쪽으로 고르는 동시에 Q-Learning은 평가를 계속 매긴다.
오른쪽 판 가장 큰 값을 Scoring 한다.
세번째, 네번째, 다섯번째 에피소드도 동일하게
위의 행동을 반복한다.
근데 뭔가 부족하다? 첫번째 Row 왼쪽으로 쭉가면 더 짧으니까 !
이럴 때 사용하는 것이 Exploration
Exploration
더 좋은 길은 없냐? 라는 식으로 탐험하는 것이다.
여기서 입실론-Greedy가 나온다.
0~1 만큼은 Random.
판에 써있는 값에 상관없이 랜덤하게 움직이니까 좋은 맛집을 찾았을 때 유도를 해줘야하는데 해주지 못한다.
너무 탐험만 해도 안되고, 너무 그리디한 액션만 해도 안된다.
Exploration & Exploitation
Exploitation 장점 2가지
1) 새로운 path
2) 새로운 맛집
Exploitation을 하면 조금 멀지만 더 맛있는 맛집을 찾을 수 있다.
90%는 아무곳이나 다 가보게 하면서 0으로 수렴해나가게 한다.
처음에는 0.9
두번째 에피소드는 0.7 등 점점 줄여나가는 것.
즉, Epi 별로 입실론을 줄여나가는 것이다.
적절히 탐험하다가 안하는 방식으로 exploration과 exploitation을 trade off 한다.
아래는 Exploration 적용한 경우
효율적인 path를 찾게 해주는 것 Discount factor (감마) .
𝜞(감마) : 0 ~ 1 사이 값
Discount factor(𝜞)의 장점
1) 효율적 path
2) 현재 vs 미래 reward
(오른쪽에서 왼쪽으로 이동한다.)
다음 리워드 일 경우 리워드 복사,
다음 것을 가져올 때는 𝜞(감마)를 곱해서 가져온다.
그 다음 다음 것을 가져올 때 𝜞(감마)를 곱해서 가져온다.
위에도 동일하게 𝜞(감마) path 생성.
최종적으로 𝜞(감마) 4승보다 𝜞(감마) 2승이 더 효율적이므로 빨간색 path로 간다.
Q-update
오른쪽 화살표 (<--) 의미 : Q(s,a)에 오른쪽의 식을 집어 넣어라
알파 : 0~1의 값
화살표 오른쪽 (1-알파)Q(s,a)부분은 0이니까 3번째 Row는 R인 1이 된다.
*at를 했을 때 받는 reward를 Rt로 표기한다.
알파 : 새로운 걸 얼마나 받아들이냐?
알파가 커지면 b부분이 커지고, a부분이 작아진다.
알파가 0~1사이의 값을 넣었을 때, 원래 가지고 있던 것을 지킨 상태로 새로운 것을 받아들이게 된다.
따라서, Q-update는 업데이트를 차근차근한다.
'7. 수학공부 > 기타' 카테고리의 다른 글
Reinforcement Learning_ Markov Decision Process (0) | 2025.01.17 |
---|---|
Lecture 5 Training Neural Networks, Part I (1) | 2024.12.06 |
Lecture 5 Training Neural Networks, Part I (0) | 2024.12.06 |
Lecture 4 Introduction to Neural Networks (3) | 2024.12.05 |
Lecture 3 | Loss Functions and Optimization (0) | 2024.12.03 |