정책반복1 [강화학습6]정책 반복(Policy Iteration) 정책반복은 가치반복과 마찬가지로 강화학습 알고리즘 중 하나이다. 정책반복은 다음과 같은 절차로 진행된다. 초기정책 설정 모든 상태에 대해 임의의 행동을 선택하는 정책을 설정한다. 정책 평가 모든 상태가치를 0으로 초기화한다. 가치함수의 업데이트는 벨만 기대방정식을 사용하여 수행된다. 업데이트는 다음수식을 사용하여 계산된다. $$ v_{k+1}(s) = \sum_{a}\pi(a \mid s) \sum_{s', r} P(s', r \mid s, a) [ r + \gamma v_k(s') ]$$ $k$번의 반복을 거치면서 $v_k$는 실제 가치함수에 점점더 가까워지게 된다. 이과정에 대한 증명은 전포스팅의 가치반복 증명과정과 유사해 생략했다. 가치함수의 변화가 특정 임계값보다 작아지면, 정책평가 과정을 종료한.. 2023. 10. 25. 이전 1 다음