MDP의 정의
아래의 사진은 MDP를 도식화한 것이다
$$MDP \equiv (S, A, P, R,\gamma)$$
마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 구성된 프로세스였다면, $MDP$를 정의하기 위해서는 보상함수$R$과 할인계수$\gamma$(감마), 행동의 집합$A$ 총 3가지 요소가 추가로 필요하다
$$MDP \equiv (S, A, P, R,\gamma)$$
상태의 집합 $S$
$$S = \{s_0, s_1, s_2, \ldots, s_n\}$$
가능한 상태들을 모두 모아놓은 집합이다.
액션의 집합 $A$
$$S = \{a_0, a_1, a_2, \ldots, a_n\}$$
에이전트가 취할 수 있는 액션들을 모아놓은 집합이다
전이 확률 행렬 $P$
전이 확률은 일반적으로 다음과 같은 형태로 나타낼 수 있다
$$P(s′ \mid s, a)$$
위의 수식은 상태$s$에서 액션$a$를 취했을 때, 상태$s'$로 전이될 확률을 나타낸다
전이 확률 행렬은 3차원 텐서로 나타낼 수 있으며,
텐서의 각 요소는 주어진 상태와 행동에 대해 다음 상태로 전이될 확률이다.
보상함수 $R$
보상함수는 상태 또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.
보상함수는 기대보상함수와 즉시보상함수로 나뉜다.
- 즉시보상(Immediate Reward)
$$R(s, a, s') $$
에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을 때 얻는 즉각적으로 얻는 보상이다. - 기대보상(Expected Reward)
$$R(s, a) = \sum_{s'} P(s′ \mid s, a) \cdot R(s, a, s')$$
기대보상은 특정 상태에서 특정 행동을 취했을 때 가능한 다음 상태의 보상의 기댓값을 나타낸다.
할인계수 $\gamma$
- 누적보상(Return)
특정 에피소드의 특정 시점$t$ 이후에 받은 가중치가 적용된 실제 보상들의 총합 - 가치(Value)
누적보상의 기댓값(이 부분에 대해서는 벨만방정식 포스팅에서 자세하게 다룬다.)
할인계수$\gamma$는 미래의 보상을 얼마나 중요시 여길 것인지를 결정하는 인자로, 이 값은 0과 1 사이에 존재한다.
할인계수$\gamma$는 누적보상$G_t$이 무한대의 값을 가지는 것을 방지하기 위해, 그리고 가치를 계산함에 있어서 먼 미래의 보상에 대한 예측의 불확실성과 정확도의 감소를 반영하기 위해서 필요하다.
이 할인계수를 활용하여, 누적보상$G_t$을 아래와 같이 계산할 수 있다.
$$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \ldots$$
할인계수$\gamma$의값이 더 클수록, 먼 미래에 받을 보상을 더 가치 있게 여긴다.
'공부 정리 > 강화 학습' 카테고리의 다른 글
[강화학습5]최적 정책(Optimal Policy) (0) | 2023.10.09 |
---|---|
[강화학습4]벨만 방정식(Bellman Equation) (0) | 2023.09.27 |
마르코프 리워드 프로세스(Markov Reward Process, MRP) (0) | 2023.09.10 |
[강화학습2]마르코프 프로세스(Markov Process) (0) | 2023.09.04 |
[강화학습1]강화학습의 기본개념 이해 (0) | 2023.09.01 |
댓글