Policy1 [강화학습4]벨만 방정식(Bellman Equation) 벨만 방정식을 통해 계산되는 가치(value)는 특정 상태(또는 상태-행동 쌍)에서 시작하여 미래에 받게 될 모든 보상의 기댓값, 즉 누적보상(return)의 기댓값이다. 벨만방정식은 크게 기대벨만방정식과 최적벨만방정식으로 나뉘는데, 이번포스팅에서는 기대벨만방정식에 대해서만 다룬다. 정책(Policy) $$\pi(a \mid s) = \mathbb {P}[A_t = a \mid S_t = s]$$ 하나의 정책은 모든 가능한 상태들에 대해 행동을 선택하는 방법을 제공한다 상태가치함수(State Value Function)와 상태-행동가치함수 (State-Action Value Function) 상태 가치 함수$v_\pi$ 주어진 정책$\pi$아래, 상태 $s$의 기대 리턴 상태-행동 가치 함수$q_\pi$.. 2023. 9. 27. 이전 1 다음