개인 공부

Q-Learning

Beige00 2024. 6. 24. 14:56

1. Model-Based Algorithm

Model-Based Algorithm에서의 Model은 일종의 Transition model로써, 상태의 전이를 모델링한 것을 의미한다.

쉽게 접근해보면, 사진과 같이 파악된 Real World의 상태들에 대한 전이 확률을 모델링하는 것이다.

이렇듯 Model-Based 에서 model은 World environment에 대한 것을 파악하고 있으며, 이에 따라 우리의 행동이 어떤 환경의 변화를 가져올지를 예측하는 알고리즘이 Model-based algorithm이다.

그러나, Real World에서 가능한 모든 상태를 알고 있는 것이 가능할까? 안다고 하더라도, 그 정보가 얼마나 유지될까?

 

2. Model-Free Algorithm

이에 대한 대안으로 고안된 것이 Model-Free-Algorithm이다. 환경을 전부 파악하고 있기는 현실적으로 어렵기에, 직접 Action을 취해보고 그에 대한 Reward로 다음 행동 양식을 수정하는 것이 Model-Free Algorithm의 골자이다.

즉, Action -> state, reward ->action을 반복하며 Policy Function을 학습해나가는 것이다.

 

3. Q-Learning

그렇다면 Q-Learning이란 무엇일까? 

Q-Learning은 Model-Free Algorithm의 일종으로써, 강화학습 알고리즘의 일부이다.

Q-Learning의 목표는 Finite Markov Decision Process에서 Agent가 특정 상황에서 특정 행동을 하려는 최적의 Policy를 배우는 것으로, 현재 상태로부터 시작하여 모든 연속적인 단계들을 거쳤을 때, 전체적인 reward return을 최대화하는 것이다.

여기서 "Q"는 현재 상태에서 취한 행동의 보상에 대한 quality를 의미한다.

더보기

- Finite Markov Decision Process란?

Finite 는 상태, 행동 그리고 시간 스텝이 모두 유한하다는 것을 의미한다.

State Space 는 에이전트가 취할 수 있는 모든 가능한 상태의 집합이다.

Action Space 는 에이전트가 취할 수 있는 모든 행동의 집합이다.

Transition Probability 는 특정 상태에서 어떤 행동을 취했을 때 다음 상태로 이동할 확률이다.

( P( nextState | nowState, action)

Reward Function : 특정 상태에서 특정 행동을 했을 때 주어지는 reward의 기대값을 의미한다.

( R(s,a) )

Discount Factor : 주로 감마로 표현되며, 미래의 보상을 현재 가치로 환산할 때 사용되는 계수이다. (미래 보상의 중요성)

 

-> MDP의 솔루션 접근법으로는 동적 계획법, 몬테 카를로 방법, 시간차 학습이 있는데, Q-Learning은 Experience를 실시간으로 반영하기 때문에 시간차 학습으로 분류된다.

- Q-Value

State S에서 Action A를 하였을 때 그 Action이 가지는 Value.

출처 : https://mangkyu.tistory.com/61

식을 보면 이해가 쉽다. 어떤 상태 s에서 행동 a를 선택했을 때의 Q-value는 매 단위시간 t+1,t+2,...마다 

(Discount Factor) * RewardFunction(s,a; t) 들의 합의 기대 값이라는 의미이다.

이 Q-Value를 매 step마다 업데이트를 하는 것이 Q-Learning Algorithm이 된다.

=> 다음 Q value는 이전 Q-value + (reward + 미래 Q-value 최대값 * discount factor)로 평가된다.

여기서 Discount factor가 커지면 미래 보상에 대한 평가가 떨어져 보다 보수적인 모델이 된다.

또한 Learning Rate를 잘 조절하면, 평가된 learned value가 일정 Threshold를 만족시킬때, Learning rate를 1로 두어 아예 이전 상태를 버리는 등 여러가지 방법의 학습이 가능하다.