MRP1 마르코프 리워드 프로세스(Markov Reward Process, MRP) 1. 마르코프 리워드 프로세스아래그림은 잠에 드는 마르코프 리워드 프로세스를 도식화 한것이다.마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 정의되었는데, $MRP$를 정의하기위해서는 보상함수$R$과 할인계수$\gamma$(감마)라는 2가지 요소가 추가로 필요하다. $$MRP \equiv (S,P,R,\gamma)$$1-1. 보상함수$R$(Reward Function)보상함수는 상태또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.보상함수는 기대보상함수와 즉시보상함수로 나뉜다.즉시보상(Immediate Reward)에이전트가 특정 상태에서 특정 상태로 전이될때 즉각적으로 얻는 보상이다(MRP)에이전트가 특정.. 2023. 9. 10. 이전 1 다음