Loading [MathJax]/jax/output/CommonHTML/jax.js

본문 바로가기

상태가치함수1

[강화학습4]벨만 방정식(Bellman Equation) 벨만 방정식을 통해 계산되는 가치(value)는 특정 상태(또는 상태-행동 쌍)에서 시작하여 미래에 받게 될 모든 보상의 기댓값, 즉 누적보상(return)의 기댓값이다. 벨만방정식은 크게 기대벨만방정식과 최적벨만방정식으로 나뉘는데, 이번포스팅에서는 기대벨만방정식에 대해서만 다룬다. 정책(Policy)

π (a ∣ s) = P [A t = a ∣ S t = s] <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>π</mi><mo stretchy="false">(</mo><mi>a</mi><mo>∣</mo><mi>s</mi><mo stretchy="false">)</mo><mo>=</mo><mrow><mi mathvariant="double-struck">P</mi></mrow><mo stretchy="false">[</mo><msub><mi>A</mi><mi>t</mi></msub><mo>=</mo><mi>a</mi><mo>∣</mo><msub><mi>S</mi><mi>t</mi></msub><mo>=</mo><mi>s</mi><mo stretchy="false">]</mo></math>

하나의 정책은 모든 가능한 상태들에 대해 행동을 선택하는 방법을 제공한다 상태가치함수(State Value Function)와 상태-행동가치함수 (State-Action Value Function) 상태 가치 함수

$v_\pi$ 주어진 정책

$\pi$ 아래, 상태

$s$ 의 기대 리턴 상태-행동 가치 함수

$q_\pi$ .. 2023. 9. 27.

이전 1 다음

티스토리툴바