Processing math: 100%
본문 바로가기

공부 정리/강화 학습14

[강화학습2]마르코프 프로세스(Markov Process) 마르코프 프로세스 아래 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 위 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 마르코프 프로세스는 상태의 집합S와 각 상태 간의 전이 확률P를 통해 구성된 확률적인 구조로 정의할 수 있다 MP(S,P) 상태의 집합 S 가능한 상태들을 모두 모아놓은 집합이다. 아래와 같이 표기된다 S={s0,s1,s2,,sn}이다 전이 확률 행렬 P 전이 확률은 특정상태에서 특정상태로 상태전이 될 때의 확률을 말한다. 이 확률은 여러 방식으로 표현될 수 있으며, 예를 들어 상태 s0에서 상태 s1로의 전이확률을 표기한다고 할 때Ps0s1 또는 P(s1|s0)의 .. 2023. 9. 4.
[강화학습1]강화학습의 기본개념 이해 이 포스팅 시리즈는 강화학습에 대해 깊이 있게 이해하고자 하는 여정의 일환으로 작성되었습니다. "바닥부터 배우는 강화학습"과 "심층 강화학습 인 액션" 두 권의 책을 베이스로 공부했으며, 학습중에 생기는 추가적인 궁금증은 chatgpt나 구글링으로 해소하고자 노력했습니다. 만약 내용 중 오류를 발견하시면, 댓글로 알려주시면 매우 감사하겠습니다. 강화학습은 한계가 없다 강화학습과 지도학습의 차이를 생각해 보면, 지도학습은 마치 부모님으로부터 자전거 타는 방법을 배우는 것과 유사하다고 볼 수 있다. 지도학습의 경우, 최적의 결과는 부모님이 보여주는 수준의 자전거 타기 능력에 불과할 수 있다. 반면에 강화학습은 스스로 시행착오를 겪으며 자전거 타기를 배우는 과정과 같다. 강화학습은 이러한 학습 방식으로 인해,.. 2023. 9. 1.
Policy Gradient Methods의 구현 심층 강화학습 인 액션의 chater4내용을 나름대로 이해한내용을 바탕으로 정리해보았습니다부정확한 내용이 있다면 피드백 부탁드립니다정책망이 뭐에요?정책망은 상태를 받고 모든 가능한 동작들의 확률분포를 돌려주는 함수 최종적으로 동작을 선택하는 방식은 다음과 같다정책망이 가능한 동작 4가지에대해 확률분포를 예측한다 (각 동작의 확률을 모두 더하면 1이된다)만약 2번 동작의 보상이 가장 클것이라고 예측한다면 2번의 확률이 가장높다 이상태에서 확률분포에 따라 모델은 동작을 선택을 하게된다2번 동작이 뽑힐 확률이 가장 높겠지만 다른 동작이 뽑힐수도있다  게임소개CartPole강화학습에서 많이 사용되는 클래식한 환경중 하나이다 막대기와 수래로 구성되어있다목표: 막대가 넘어지지않고 수레를 제어하여 막대를 가능한 오랫.. 2023. 5. 28.
목표망(target network)이 있는 Q학습 예제를 실행하기위해 필요한 코드(Gridworld, GridBoard등등)및 전체 코드는 책 깃허브를 참고하자https://github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction/tree/master/Chapter%203 목표망이 있는 Q학습목표망과 경험재현이 추가된 딥Q학습의 관계도를 그려보았다강화학습에서 경험재현에 관한 내용은 이전 포스팅에 적어놓았다 https://doingcomputer.tistory.com/22Q 신경망과, 목표 Q신경망 총 두가지 모델을 사용하게되는데둘의 용도는 각각 X값예측과  y값 예측으로 다르다역전파는 오로지 Q신경망에서만 일어나며목표 Q신경망은 일정 학습 주기마다 Q신경망으로부터 가중치를 업데이트 받.. 2023. 3. 18.
파국적 망각 방지: 경험재현 예제를 실행하기위해 필요한 코드(Gridworld, GridBoard등등)는 책 깃허브를 참고하자https://github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction/tree/master/Chapter%203파국적 망각파국적 망각은 서로 아주 비슷하지만그 결과는 상당히 다른 두 게임 상태에 대해서 학습이 제대로 일어나지않는것을 말한다예제를 보면 게임1과 게임2는 비슷하기때문에 이전에 배운 가중치들이 새 가중치로 대체된다 (망각) 경험 재현기존 학습방법이 action을 취하고 그후 바로 학습(역전파)이 진행되는 온라인(실시간) 학습이었다면기본적으로 경험재현은 온라인 학습에 배치 훈련 방식을 도입하는것이다 경험목록과 배치1. 상태 s에서.. 2023. 3. 13.