Processing math: 100%

본문 바로가기

mdp1

[강화학습3]마르코프 결정 프로세스(Markov Decision Process) MDP의 정의 아래의 사진은 MDP를 도식화한 것이다

M D P \equiv (S, A, P, R, γ) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>M</mi><mi>D</mi><mi>P</mi><mo>\equiv</mo><mo stretchy="false">(</mo><mi>S</mi><mo>,</mo><mi>A</mi><mo>,</mo><mi>P</mi><mo>,</mo><mi>R</mi><mo>,</mo><mi>γ</mi><mo stretchy="false">)</mo></math>

마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합

$S$ 와 전이확률행렬

$P$ 로 구성된 프로세스였다면,

$MDP$ 를 정의하기 위해서는 보상함수

$R$ 과 할인계수

$\gamma$ (감마), 행동의 집합

$A$ 총 3가지 요소가 추가로 필요하다

M D P \equiv (S, A, P, R, γ) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>M</mi><mi>D</mi><mi>P</mi><mo>\equiv</mo><mo stretchy="false">(</mo><mi>S</mi><mo>,</mo><mi>A</mi><mo>,</mo><mi>P</mi><mo>,</mo><mi>R</mi><mo>,</mo><mi>γ</mi><mo stretchy="false">)</mo></math>

상태의 집합

$S$

S = {s 0, s 1, s 2, \dots, s n} <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>S</mi><mo>=</mo><mo fence="false" stretchy="false">{</mo><msub><mi>s</mi><mn>0</mn></msub><mo>,</mo><msub><mi>s</mi><mn>1</mn></msub><mo>,</mo><msub><mi>s</mi><mn>2</mn></msub><mo>,</mo><mo>\dots</mo><mo>,</mo><msub><mi>s</mi><mi>n</mi></msub><mo fence="false" stretchy="false">}</mo></math>

가능한 상태들을 모두 모아놓은 집합이다. 액션의 집합

$A$

S = {a 0, a 1, a 2, \dots, a n} <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>S</mi><mo>=</mo><mo fence="false" stretchy="false">{</mo><msub><mi>a</mi><mn>0</mn></msub><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo>,</mo><mo>\dots</mo><mo>,</mo><msub><mi>a</mi><mi>n</mi></msub><mo fence="false" stretchy="false">}</mo></math>

.. 2023. 9. 24.

이전 1 다음

티스토리툴바