본문 바로가기
공부 정리/강화 학습

마르코프 리워드 프로세스(Markov Reward Process, MRP)

by 블로그별명 2023. 9. 10.

1. 마르코프 리워드 프로세스

아래그림은 잠에 드는 마르코프 리워드 프로세스를 도식화 한것이다.

마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 정의되었는데, $MRP$를 정의하기위해서는 보상함수$R$과 할인계수$\gamma$(감마)라는 2가지 요소가 추가로 필요하다. 

$$MRP \equiv (S,P,R,\gamma)$$

1-1. 보상함수$R$(Reward Function)

보상함수는 상태또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.

보상함수는 기대보상함수와 즉시보상함수로 나뉜다.

  • 즉시보상(Immediate Reward)
    에이전트가 특정 상태에서 특정 상태로 전이될때 즉각적으로 얻는 보상이다(MRP)
    에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을때 얻는 즉각적으로 얻는 보상이다(MDP)
    일반적으로 아래와 같이 표기된다
    $R(s, s') \text{또는} R(s, a, s') $
  • 기대보상(Expected Reward)
    기대보상은 특정 상태에서 가능한 다음 상태의 보상의 기댓값을 나타낸다 (MRP) 
    기대보상은 특정 상태에서 특정 행동을 취했을때 가능한 다음 상태의 보상의 기댓값을 나타낸다(MDP)
    일반적으로 아래와 같이 표기된다
    $R(s) \text{또는} R(s, a)$

1-2. 할인계수$\gamma$(Discount Factor)

  • 누적보상(Return)
    특정 에피소드의 특정 시점$t$ 이후에 받은 가중치가 적용된 실제 보상들의 총합
  • 가치(Value)
    누적보상을 예측한값

할인계수$\gamma$는 미래의 보상을 얼마나 중요시 여길것인지를 결정하는 인자로,이 값은 0과 1사이에 존재한다. 

할인계수$\gamma$는 누적보상$G_t$이 무한대의 값을 가지는것을 방지하기위해, 그리고 가치를 계산함에 있어서 먼 미래의 보상에 대한 예측의 불확실성과 정확도의 감소를 반영하기위해서 필요하다. 

이 할인계수를 활용하여, 누적보상$G_t$을 아래와 같이 계산할 수 있다.

$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots$$

할인계수$\gamma$의값이 더 클수록, 먼 미래에 받을 보상을 더 가치있게 여긴다. 

2. 상태가치 함수(State Value Function)

상태가치함수란 상태를 입력값으로 넣으면 그 상태의 가치를 출력하는 함수이다. 

$$V(s) = \mathbb {E}[G_t|S_t = s]$$

댓글