1. 마르코프 리워드 프로세스
아래그림은 잠에 드는 마르코프 리워드 프로세스를 도식화 한것이다.
마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 정의되었는데, $MRP$를 정의하기위해서는 보상함수$R$과 할인계수$\gamma$(감마)라는 2가지 요소가 추가로 필요하다.
$$MRP \equiv (S,P,R,\gamma)$$
1-1. 보상함수$R$(Reward Function)
보상함수는 상태또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.
보상함수는 기대보상함수와 즉시보상함수로 나뉜다.
- 즉시보상(Immediate Reward)
에이전트가 특정 상태에서 특정 상태로 전이될때 즉각적으로 얻는 보상이다(MRP)
에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을때 얻는 즉각적으로 얻는 보상이다(MDP)
일반적으로 아래와 같이 표기된다
$R(s, s') \text{또는} R(s, a, s') $ - 기대보상(Expected Reward)
기대보상은 특정 상태에서 가능한 다음 상태의 보상의 기댓값을 나타낸다 (MRP)
기대보상은 특정 상태에서 특정 행동을 취했을때 가능한 다음 상태의 보상의 기댓값을 나타낸다(MDP)
일반적으로 아래와 같이 표기된다
$R(s) \text{또는} R(s, a)$
1-2. 할인계수$\gamma$(Discount Factor)
- 누적보상(Return)
특정 에피소드의 특정 시점$t$ 이후에 받은 가중치가 적용된 실제 보상들의 총합 - 가치(Value)
누적보상을 예측한값
할인계수$\gamma$는 미래의 보상을 얼마나 중요시 여길것인지를 결정하는 인자로,이 값은 0과 1사이에 존재한다.
할인계수$\gamma$는 누적보상$G_t$이 무한대의 값을 가지는것을 방지하기위해, 그리고 가치를 계산함에 있어서 먼 미래의 보상에 대한 예측의 불확실성과 정확도의 감소를 반영하기위해서 필요하다.
이 할인계수를 활용하여, 누적보상$G_t$을 아래와 같이 계산할 수 있다.
$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots$$
할인계수$\gamma$의값이 더 클수록, 먼 미래에 받을 보상을 더 가치있게 여긴다.
2. 상태가치 함수(State Value Function)
상태가치함수란 상태를 입력값으로 넣으면 그 상태의 가치를 출력하는 함수이다.
$$V(s) = \mathbb {E}[G_t|S_t = s]$$
'공부 정리 > 강화 학습' 카테고리의 다른 글
[강화학습4]벨만 방정식(Bellman Equation) (0) | 2023.09.27 |
---|---|
[강화학습3]마르코프 결정 프로세스(Markov Decision Process) (0) | 2023.09.24 |
[강화학습2]마르코프 프로세스(Markov Process) (0) | 2023.09.04 |
[강화학습1]강화학습의 기본개념 이해 (0) | 2023.09.01 |
Policy Gradient Methods의 구현 (0) | 2023.05.28 |
댓글