MDP의 정의
아래의 사진은 MDP를 도식화한 것이다

마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합
상태의 집합 S
가능한 상태들을 모두 모아놓은 집합이다.
액션의 집합 A
에이전트가 취할 수 있는 액션들을 모아놓은 집합이다
전이 확률 행렬 P
전이 확률은 일반적으로 다음과 같은 형태로 나타낼 수 있다
위의 수식은 상태
전이 확률 행렬은 3차원 텐서로 나타낼 수 있으며,
텐서의 각 요소는 주어진 상태와 행동에 대해 다음 상태로 전이될 확률이다.
보상함수 R
보상함수는 상태 또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.
보상함수는 기대보상함수와 즉시보상함수로 나뉜다.
- 즉시보상(Immediate Reward)
R(s,a,s′)
에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을 때 얻는 즉각적으로 얻는 보상이다. - 기대보상(Expected Reward)
R(s,a)=∑s′P(s′∣s,a)⋅R(s,a,s′)
기대보상은 특정 상태에서 특정 행동을 취했을 때 가능한 다음 상태의 보상의 기댓값을 나타낸다.
할인계수 γ
- 누적보상(Return)
특정 에피소드의 특정 시점 이후에 받은 가중치가 적용된 실제 보상들의 총합t - 가치(Value)
누적보상의 기댓값(이 부분에 대해서는 벨만방정식 포스팅에서 자세하게 다룬다.)
할인계수
할인계수
이 할인계수를 활용하여, 누적보상
할인계수
'공부 정리 > 강화 학습' 카테고리의 다른 글
[강화학습5]최적 정책(Optimal Policy) (0) | 2023.10.09 |
---|---|
[강화학습4]벨만 방정식(Bellman Equation) (0) | 2023.09.27 |
마르코프 리워드 프로세스(Markov Reward Process, MRP) (0) | 2023.09.10 |
[강화학습2]마르코프 프로세스(Markov Process) (0) | 2023.09.04 |
[강화학습1]강화학습의 기본개념 이해 (0) | 2023.09.01 |
댓글