심층 강화학습 인 액션1 Policy Gradient Methods의 구현 심층 강화학습 인 액션의 chater4내용을 나름대로 이해한내용을 바탕으로 정리해보았습니다부정확한 내용이 있다면 피드백 부탁드립니다정책망이 뭐에요?정책망은 상태를 받고 모든 가능한 동작들의 확률분포를 돌려주는 함수 최종적으로 동작을 선택하는 방식은 다음과 같다정책망이 가능한 동작 4가지에대해 확률분포를 예측한다 (각 동작의 확률을 모두 더하면 1이된다)만약 2번 동작의 보상이 가장 클것이라고 예측한다면 2번의 확률이 가장높다 이상태에서 확률분포에 따라 모델은 동작을 선택을 하게된다2번 동작이 뽑힐 확률이 가장 높겠지만 다른 동작이 뽑힐수도있다 게임소개CartPole강화학습에서 많이 사용되는 클래식한 환경중 하나이다 막대기와 수래로 구성되어있다목표: 막대가 넘어지지않고 수레를 제어하여 막대를 가능한 오랫.. 2023. 5. 28. 이전 1 다음