본문 바로가기

강화학습6

Q-learning 기반 틱택토 강화학습 모델 개발 들어가기 전에...여태까지  강화학습 전반에대해 학습한 내용을 기반으로 틱택토 게임을 플레이하는 강화학습 모델을 개발해보았습니다. 틱택토 게임을 선택한 이유는 다음과 같습니다.1. 틱택도 게임특성상 가능한 경우의수가 많지않아 모든 Q value를 Q table에 표시할수있습니다.2. 나중에 구현하고자 하는 오목 강화학습 모델이나 바둑 강화학습 모델과 마찬가지로 1대1 보드게임이라는 환경적인 유사성이 있어 향후 프로젝트에 도움이 될것이라 판단했습니다. 전체코드는 포스팅말미의 깃허브주소를 참고해주세요.구현 목표1. 실제 틱택토 게임을 만든후, 강화학습모델과 연동시켜 사람과 틱택토 모델간의 대국이 가능하게 구현하는것(play기능).2. 에피소드가 진행되며 발전하는 에이전트를 확인할수있도록 구현하는것(repla.. 2023. 12. 15.
[강화학습8]SARSA 저번 포스팅에서는 model-free환경에서 정책$\pi$에 대해 가치추정을 할 수 있는 방법인 MC와 TD에 대해서 알아보았다. 이제 우리의 목표는 저 두 방법을 활용해 최적정책$\pi^*$를 찾는 것이다. MC를 활용한 정책반복 예전포스팅에서 다룬 정책 반복은, 정책 평가와 정책 개선을 반복적으로 수행하며 최적정책을 찾는 방법이다. MC는 정책평가단계의 기존 방법을 대체할 수 있다. 다만 정책개선 단계 쪽에 작은 문제가 있다. 새로운 정책$\pi'$는 각 상태 $s$에서 $q_{\pi}(s, a)$를 최대화하는 행동 $a$를 선택하는데. 수식으로 표현하면 다음과 같다. $$\pi'(s) = \underset {a}{\text {argmax}} \, \, q_{\pi}(s, a), \forall s \.. 2023. 12. 3.
[강화학습7] MC(Monte Carlo Methods)와 TD(Temporal Difference Learning) 이번 포스팅에서는 MC와 TD에 대해서 알아보도록 하자. 두 방법 모두 model-free일 때 가치 추정을 할 수 있게 해 준다. model-based와 model-free 이번 포스팅에서는 에이전트가 MDP의 구조를 알지 못할 때 어떻게 가치를 추정하는지에 대해 이야기해보려고 한다. '에이전트가 MDP를 모른다'는 것은 에이전트가 자신의 행동에 대해 환경이 어떻게 반응할지 알지 못한다는 의미이다. 이런 상황을 model-free라고 부르며, 반대로 에이전트가 MDP를 알고 있는 상황은 model-based라고 부른다. 몬테카를로 방법(Monte Carlo Methods, MC) 100원짜리 동전을 던졌을 때 앞면이 나온다면 동전을 갖고 뒷면이 나오면 가질 수 없다고 가정해 보자. 우리는 정확한 확률은.. 2023. 12. 1.
[강화학습6]정책 반복(Policy Iteration) 정책반복은 가치반복과 마찬가지로 강화학습 알고리즘 중 하나이다. 정책반복은 다음과 같은 절차로 진행된다. 초기정책 설정 모든 상태에 대해 임의의 행동을 선택하는 정책을 설정한다. 정책 평가 모든 상태가치를 0으로 초기화한다. 가치함수의 업데이트는 벨만 기대방정식을 사용하여 수행된다. 업데이트는 다음수식을 사용하여 계산된다. $$ v_{k+1}(s) = \sum_{a}\pi(a \mid s) \sum_{s', r} P(s', r \mid s, a) [ r + \gamma v_k(s') ]$$ $k$번의 반복을 거치면서 $v_k$는 실제 가치함수에 점점더 가까워지게 된다. 이과정에 대한 증명은 전포스팅의 가치반복 증명과정과 유사해 생략했다. 가치함수의 변화가 특정 임계값보다 작아지면, 정책평가 과정을 종료한.. 2023. 10. 25.
마르코프 리워드 프로세스(Markov Reward Process, MRP) 1. 마르코프 리워드 프로세스아래그림은 잠에 드는 마르코프 리워드 프로세스를 도식화 한것이다.마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 정의되었는데, $MRP$를 정의하기위해서는 보상함수$R$과 할인계수$\gamma$(감마)라는 2가지 요소가 추가로 필요하다. $$MRP \equiv (S,P,R,\gamma)$$1-1. 보상함수$R$(Reward Function)보상함수는 상태또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.보상함수는 기대보상함수와 즉시보상함수로 나뉜다.즉시보상(Immediate Reward)에이전트가 특정 상태에서 특정 상태로 전이될때 즉각적으로 얻는 보상이다(MRP)에이전트가 특정.. 2023. 9. 10.
[강화학습1]강화학습의 기본개념 이해 이 포스팅 시리즈는 강화학습에 대해 깊이 있게 이해하고자 하는 여정의 일환으로 작성되었습니다. "바닥부터 배우는 강화학습"과 "심층 강화학습 인 액션" 두 권의 책을 베이스로 공부했으며, 학습중에 생기는 추가적인 궁금증은 chatgpt나 구글링으로 해소하고자 노력했습니다. 만약 내용 중 오류를 발견하시면, 댓글로 알려주시면 매우 감사하겠습니다. 강화학습은 한계가 없다 강화학습과 지도학습의 차이를 생각해 보면, 지도학습은 마치 부모님으로부터 자전거 타는 방법을 배우는 것과 유사하다고 볼 수 있다. 지도학습의 경우, 최적의 결과는 부모님이 보여주는 수준의 자전거 타기 능력에 불과할 수 있다. 반면에 강화학습은 스스로 시행착오를 겪으며 자전거 타기를 배우는 과정과 같다. 강화학습은 이러한 학습 방식으로 인해,.. 2023. 9. 1.