mdp1 [강화학습3]마르코프 결정 프로세스(Markov Decision Process) MDP의 정의 아래의 사진은 MDP를 도식화한 것이다 MDP≡(S,A,P,R,γ) 마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 S와 전이확률행렬P로 구성된 프로세스였다면, MDP를 정의하기 위해서는 보상함수R과 할인계수γ(감마), 행동의 집합A 총 3가지 요소가 추가로 필요하다 MDP≡(S,A,P,R,γ) 상태의 집합 S S={s0,s1,s2,…,sn} 가능한 상태들을 모두 모아놓은 집합이다. 액션의 집합 A S={a0,a1,a2,…,an}.. 2023. 9. 24. 이전 1 다음