본문 바로가기
공부 정리/강화 학습

[강화학습3]마르코프 결정 프로세스(Markov Decision Process)

by 블로그별명 2023. 9. 24.

MDP의 정의

아래의 사진은 MDP를 도식화한 것이다

$$MDP \equiv (S, A, P, R,\gamma)$$

마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 구성된 프로세스였다면, $MDP$를 정의하기 위해서는 보상함수$R$과 할인계수$\gamma$(감마), 행동의 집합$A$ 총 3가지 요소가 추가로 필요하다

$$MDP \equiv (S, A, P, R,\gamma)$$

상태의 집합 $S$

$$S = \{s_0, s_1, s_2, \ldots, s_n\}$$

가능한 상태들을 모두 모아놓은 집합이다. 

액션의 집합 $A$

$$S = \{a_0, a_1, a_2, \ldots, a_n\}$$

에이전트가 취할 수 있는 액션들을 모아놓은 집합이다

전이 확률 행렬 $P$

전이 확률은 일반적으로 다음과 같은 형태로 나타낼 수 있다

$$P(s′ \mid s, a)$$
위의 수식은 상태$s$에서 액션$a$를 취했을 때, 상태$s'$로 전이될 확률을 나타낸다

전이 확률 행렬은 3차원 텐서로 나타낼 수 있으며,
텐서의 각 요소는 주어진 상태와 행동에 대해 다음 상태로 전이될 확률이다.

보상함수 $R$

보상함수는 상태 또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.

보상함수는 기대보상함수와 즉시보상함수로 나뉜다.

  • 즉시보상(Immediate Reward)
    $$R(s, a, s') $$
    에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을 때 얻는 즉각적으로 얻는 보상이다.
  • 기대보상(Expected Reward)
    $$R(s, a) = \sum_{s'} P(s′ \mid s, a) \cdot R(s, a, s')$$
    기대보상은 특정 상태에서 특정 행동을 취했을 때 가능한 다음 상태의 보상의 기댓값을 나타낸다.

할인계수 $\gamma$

  • 누적보상(Return)
    특정 에피소드의 특정 시점$t$ 이후에 받은 가중치가 적용된 실제 보상들의 총합
  • 가치(Value)
    누적보상의 기댓값(이 부분에 대해서는 벨만방정식 포스팅에서 자세하게 다룬다.) 

할인계수$\gamma$는 미래의 보상을 얼마나 중요시 여길 것인지를 결정하는 인자로, 이 값은 0과 1 사이에 존재한다.

할인계수$\gamma$는 누적보상$G_t$이 무한대의 값을 가지는 것을 방지하기 위해, 그리고 가치를 계산함에 있어서 먼 미래의 보상에 대한 예측의 불확실성과 정확도의 감소를 반영하기 위해서 필요하다. 

이 할인계수를 활용하여, 누적보상$G_t$을 아래와 같이 계산할 수 있다.

$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots$$

할인계수$\gamma$의값이 더 클수록, 먼 미래에 받을 보상을 더 가치 있게 여긴다. 

댓글