Q-learning2 Q-learning 기반 틱택토 강화학습 모델 개발 들어가기 전에...여태까지 강화학습 전반에대해 학습한 내용을 기반으로 틱택토 게임을 플레이하는 강화학습 모델을 개발해보았습니다. 틱택토 게임을 선택한 이유는 다음과 같습니다.1. 틱택도 게임특성상 가능한 경우의수가 많지않아 모든 Q value를 Q table에 표시할수있습니다.2. 나중에 구현하고자 하는 오목 강화학습 모델이나 바둑 강화학습 모델과 마찬가지로 1대1 보드게임이라는 환경적인 유사성이 있어 향후 프로젝트에 도움이 될것이라 판단했습니다. 전체코드는 포스팅말미의 깃허브주소를 참고해주세요.구현 목표1. 실제 틱택토 게임을 만든후, 강화학습모델과 연동시켜 사람과 틱택토 모델간의 대국이 가능하게 구현하는것(play기능).2. 에피소드가 진행되며 발전하는 에이전트를 확인할수있도록 구현하는것(repla.. 2023. 12. 15. [강화학습9]Q-learning 저번 포스팅에서는 MC와 TD를 이용한 강화학습 방법들에 대해서 다뤘다. 이번포스팅에서는 On-Policy와 Off-Policy라는 새로운 개념을 소개하고 이를 활용한 새로운 강화학습 방법에 대해서 다뤄본다. SARSA의 문제점 SARSA는 한 가지 단점을 가지고 있는데, 바로 탐험이 가치함수 업데이트에 직접적인 영향을 미친 다는 점이다. 이는 정확한 정책평가를 하는 데 있어서 방해가 된다. 비유를 들어보면 다음과 같다. 철수는 강화학습 에이전트로. SARSA알고리즘을 통해 학습을 진행하고 있다. 학교상태$S$에서 열심히 공부하는 행동$A$를 선택하여 즉시보상$R$을 얻고 선생님께 칭찬을 받는 상태$S'$로 전이되었다. 다만 원래계획은 선생님께 감사의 표시를 하는 행동$A'$를 취하는 것이었지만 $\ep.. 2023. 12. 5. 이전 1 다음