Sarsa1 [강화학습9]Q-learning 저번 포스팅에서는 MC와 TD를 이용한 강화학습 방법들에 대해서 다뤘다. 이번포스팅에서는 On-Policy와 Off-Policy라는 새로운 개념을 소개하고 이를 활용한 새로운 강화학습 방법에 대해서 다뤄본다. SARSA의 문제점 SARSA는 한 가지 단점을 가지고 있는데, 바로 탐험이 가치함수 업데이트에 직접적인 영향을 미친 다는 점이다. 이는 정확한 정책평가를 하는 데 있어서 방해가 된다. 비유를 들어보면 다음과 같다. 철수는 강화학습 에이전트로. SARSA알고리즘을 통해 학습을 진행하고 있다. 학교상태S에서 열심히 공부하는 행동A를 선택하여 즉시보상R을 얻고 선생님께 칭찬을 받는 상태S′로 전이되었다. 다만 원래계획은 선생님께 감사의 표시를 하는 행동A′를 취하는 것이었지만 $\ep.. 2023. 12. 5. 이전 1 다음