MDP의 정의
아래의 사진은 MDP를 도식화한 것이다

마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합
상태의 집합 SS
가능한 상태들을 모두 모아놓은 집합이다.
액션의 집합 AA
에이전트가 취할 수 있는 액션들을 모아놓은 집합이다
전이 확률 행렬 PP
전이 확률은 일반적으로 다음과 같은 형태로 나타낼 수 있다
위의 수식은 상태
전이 확률 행렬은 3차원 텐서로 나타낼 수 있으며,
텐서의 각 요소는 주어진 상태와 행동에 대해 다음 상태로 전이될 확률이다.
보상함수 R
보상함수는 상태 또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.
보상함수는 기대보상함수와 즉시보상함수로 나뉜다.
- 즉시보상(Immediate Reward)
R(s,a,s′)
에이전트가 특정 상태에서 특정 행동을 취해 특정상태로 상태 전이되었을 때 얻는 즉각적으로 얻는 보상이다. - 기대보상(Expected Reward)
R(s,a)=∑s′P(s′∣s,a)⋅R(s,a,s′)
기대보상은 특정 상태에서 특정 행동을 취했을 때 가능한 다음 상태의 보상의 기댓값을 나타낸다.
할인계수 γ
- 누적보상(Return)
특정 에피소드의 특정 시점 이후에 받은 가중치가 적용된 실제 보상들의 총합t - 가치(Value)
누적보상의 기댓값(이 부분에 대해서는 벨만방정식 포스팅에서 자세하게 다룬다.)
할인계수
할인계수
이 할인계수를 활용하여, 누적보상
할인계수
'공부 정리 > 강화 학습' 카테고리의 다른 글
[강화학습5]최적 정책(Optimal Policy) (0) | 2023.10.09 |
---|---|
[강화학습4]벨만 방정식(Bellman Equation) (0) | 2023.09.27 |
마르코프 리워드 프로세스(Markov Reward Process, MRP) (0) | 2023.09.10 |
[강화학습2]마르코프 프로세스(Markov Process) (0) | 2023.09.04 |
[강화학습1]강화학습의 기본개념 이해 (0) | 2023.09.01 |
댓글