7. 수학공부/기타

[U of T.Reinforcement Learning] Q-Learning, Greedy, exploration, exploitation, discount factor, 그리디, 탐색, Q-러닝

First man 2025. 1. 14. 12:36

 

안녕하세요,

오늘은 토론토대학교 강화학습 수업을 들으면서 Q-Learning 부분에 대해 유튜브 혁펜하임으로 공부한 내용을 업로드합니다.

 


Reinforcement Learning 이란, 맛집 찾기 이다.

 

Q-Learning (Greedy action)

맛집을 찾을 때, Q-Learning은 Greedy aciton(탐욕행동?)을 씁니다.

 

이동을 하면서 점수를 매길 것이고, 점수가 가장 큰 쪽으로 이동하는 것이 Greedy Action입니다.

처음에는 0이다.

위의 X표시의 모든 S(State, 상태)는 다 0이다. 맛집에 들어가면서 에피소드가 끝난다. 

 

첫번째 에피소드

맛집에 들어가면 R=1 리워드를 받는다. 위로 가면 리워드를 받기에 위쪽에 1 표시.

 

두번째 에피소드

이동할 때, 오른쪽으로 고르는 동시에 Q-Learning은 평가를 계속 매긴다.

오른쪽 판 가장 큰 값을 Scoring 한다.

 

세번째, 네번째, 다섯번째 에피소드도 동일하게

 

위의 행동을 반복한다.

 

근데 뭔가 부족하다? 첫번째 Row 왼쪽으로 쭉가면 더 짧으니까 !

 

 

이럴 때 사용하는 것이 Exploration


Exploration

더 좋은 길은 없냐? 라는 식으로 탐험하는 것이다.

여기서 입실론-Greedy가 나온다.

0~1 만큼은 Random.

판에 써있는 값에 상관없이 랜덤하게 움직이니까 좋은 맛집을 찾았을 때 유도를 해줘야하는데 해주지 못한다.

 

너무 탐험만 해도 안되고, 너무 그리디한 액션만 해도 안된다.


Exploration & Exploitation

 

Exploitation 장점 2가지

1) 새로운 path

2) 새로운 맛집

Exploitation을 하면 조금 멀지만 더 맛있는 맛집을 찾을 수 있다.

 

90%는 아무곳이나 다 가보게 하면서 0으로 수렴해나가게 한다.

처음에는 0.9

두번째 에피소드는 0.7 등 점점 줄여나가는 것.

즉, Epi 별로 입실론을 줄여나가는 것이다.

 

적절히 탐험하다가 안하는 방식으로 exploration과 exploitation을 trade off 한다.

 

아래는 Exploration 적용한 경우


효율적인 path를 찾게 해주는 것 Discount factor (감마) .

𝜞(감마) : 0 ~ 1 사이 값

Discount factor(𝜞)의 장점

1) 효율적 path

2) 현재 vs 미래 reward 

 

(오른쪽에서 왼쪽으로 이동한다.)

다음 리워드 일 경우 리워드 복사,

다음 것을 가져올 때는 𝜞(감마)를 곱해서 가져온다.

그 다음 다음 것을 가져올 때 𝜞(감마)를 곱해서 가져온다.

 

위에도 동일하게 𝜞(감마) path 생성.

 

최종적으로 𝜞(감마) 4승보다 𝜞(감마) 2승이 더 효율적이므로 빨간색 path로 간다.

 


Q-update

오른쪽 화살표 (<--) 의미 : Q(s,a)에 오른쪽의 식을 집어 넣어라

알파 : 0~1의 값 

 

화살표 오른쪽 (1-알파)Q(s,a)부분은 0이니까 3번째 Row는 R인 1이 된다.

 

*at를 했을 때 받는 reward를 Rt로 표기한다.

 

알파 : 새로운 걸 얼마나 받아들이냐?

알파가 커지면 b부분이 커지고, a부분이 작아진다.

 

알파가 0~1사이의 값을 넣었을 때, 원래 가지고 있던 것을 지킨 상태로 새로운 것을 받아들이게 된다.

 

따라서, Q-update는 업데이트를 차근차근한다.

 

 

 

 

 

 

 

 

 

 

 

728x90
LIST