Processing math: 100%
본문 바로가기

mdp1

[강화학습3]마르코프 결정 프로세스(Markov Decision Process) MDP의 정의 아래의 사진은 MDP를 도식화한 것이다 MDP(S,A,P,R,γ) 마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 S와 전이확률행렬P로 구성된 프로세스였다면, MDP를 정의하기 위해서는 보상함수R과 할인계수γ(감마), 행동의 집합A 총 3가지 요소가 추가로 필요하다 MDP(S,A,P,R,γ) 상태의 집합 S S={s0,s1,s2,,sn} 가능한 상태들을 모두 모아놓은 집합이다. 액션의 집합 A S={a0,a1,a2,,an}.. 2023. 9. 24.