상태가치함수1 [강화학습4]벨만 방정식(Bellman Equation) 벨만 방정식을 통해 계산되는 가치(value)는 특정 상태(또는 상태-행동 쌍)에서 시작하여 미래에 받게 될 모든 보상의 기댓값, 즉 누적보상(return)의 기댓값이다. 벨만방정식은 크게 기대벨만방정식과 최적벨만방정식으로 나뉘는데, 이번포스팅에서는 기대벨만방정식에 대해서만 다룬다. 정책(Policy) π(a∣s)=P[At=a∣St=s] 하나의 정책은 모든 가능한 상태들에 대해 행동을 선택하는 방법을 제공한다 상태가치함수(State Value Function)와 상태-행동가치함수 (State-Action Value Function) 상태 가치 함수vπ 주어진 정책π아래, 상태 s의 기대 리턴 상태-행동 가치 함수qπ.. 2023. 9. 27. 이전 1 다음