Processing math: 100%
본문 바로가기
공부 정리/강화 학습

[강화학습3]마르코프 결정 프로세스(Markov Decision Process)

by 블로그별명 2023. 9. 24.

MDP의 정의

아래의 사진은 MDP를 도식화한 것이다

MDP(S,A,P,R,γ)

마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 S와 전이확률행렬P로 구성된 프로세스였다면, MDP를 정의하기 위해서는 보상함수R과 할인계수γ(감마), 행동의 집합A 총 3가지 요소가 추가로 필요하다

MDP(S,A,P,R,γ)

상태의 집합 S

S={s0,s1,s2,,sn}

가능한 상태들을 모두 모아놓은 집합이다. 

액션의 집합 A

S={a0,a1,a2,,an}

에이전트가 취할 수 있는 액션들을 모아놓은 집합이다

전이 확률 행렬 P

전이 확률은 일반적으로 다음과 같은 형태로 나타낼 수 있다

P(ss,a)
위의 수식은 상태s에서 액션a를 취했을 때, 상태s로 전이될 확률을 나타낸다

전이 확률 행렬은 3차원 텐서로 나타낼 수 있으며,
텐서의 각 요소는 주어진 상태와 행동에 대해 다음 상태로 전이될 확률이다.

보상함수 R

보상함수는 상태 또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.

보상함수는 기대보상함수와 즉시보상함수로 나뉜다.

  • 즉시보상(Immediate Reward)
    R(s,a,s)
    에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을 때 얻는 즉각적으로 얻는 보상이다.
  • 기대보상(Expected Reward)
    R(s,a)=sP(ss,a)R(s,a,s)
    기대보상은 특정 상태에서 특정 행동을 취했을 때 가능한 다음 상태의 보상의 기댓값을 나타낸다.

할인계수 γ

  • 누적보상(Return)
    특정 에피소드의 특정 시점t 이후에 받은 가중치가 적용된 실제 보상들의 총합
  • 가치(Value)
    누적보상의 기댓값(이 부분에 대해서는 벨만방정식 포스팅에서 자세하게 다룬다.) 

할인계수γ는 미래의 보상을 얼마나 중요시 여길 것인지를 결정하는 인자로, 이 값은 0과 1 사이에 존재한다.

할인계수γ는 누적보상Gt이 무한대의 값을 가지는 것을 방지하기 위해, 그리고 가치를 계산함에 있어서 먼 미래의 보상에 대한 예측의 불확실성과 정확도의 감소를 반영하기 위해서 필요하다. 

이 할인계수를 활용하여, 누적보상Gt을 아래와 같이 계산할 수 있다.

Gt=Rt+1+γRt+2+γ2Rt+3+

할인계수γ의값이 더 클수록, 먼 미래에 받을 보상을 더 가치 있게 여긴다. 

댓글