Optimal Policy1 [강화학습5]최적 정책(Optimal Policy) 최적정책에 대한 정의는 다음과 같이 내릴 수 있다. π∗≥π⟺vπ∗(s)≥vπ(s),∀s∈S 이번 포스팅에서는 최적정책의 존재에 대해서 증명해보려고 한다. 벨만최적방정식(Bellman optimality equation) v∗(s)=vπ∗(s) v∗(s)를 최적가치(Optimal value)라고 한다 v∗(s)는 vπ(s)중 최대 가치를 가져야 한다. 그러므로 가장 큰 q∗(s,a)를 가지는 행동을 선택해야 한다. v∗(s)=max $$q^*(s, a) = R(s, a) + \gamma \sum_{s'} P(.. 2023. 10. 9. 이전 1 다음