마르코프 프로세스
아래 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다.
위 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 마르코프 프로세스는 상태의 집합$S$와 각 상태 간의 전이 확률$P$를 통해 구성된 확률적인 구조로 정의할 수 있다
$$MP \equiv (S, P)$$
- 상태의 집합 $S$
가능한 상태들을 모두 모아놓은 집합이다. 아래와 같이 표기된다
$S = \{s_0, s_1, s_2, \ldots, s_n\}$이다 - 전이 확률 행렬 $P$
전이 확률은 특정상태에서 특정상태로 상태전이 될 때의 확률을 말한다. 이 확률은 여러 방식으로 표현될 수 있으며, 예를 들어 상태 $s_0$에서 상태 $s_1$로의 전이확률을 표기한다고 할 때$P_{s_0s_1}$ 또는 $P(s_1|s_0)$의 형태로 일반적으로 표현된다. 전이 확률 행렬은 마르코프 프로세스 내 모든 전이확률을 포함한 행렬이다.
$\begin {array}{c|cccc}
& s_1 & s_2 & \cdots & s_n \\
\hline
s_1 & p_{11} & p_{12} & \cdots & p_{1n} \\
s_2 & p_{21} & p_{22} & \cdots & p_{2n} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
s_n & p_{n1} & p_{n2} & \cdots & p_{nn} \\
\end {array}$
마르코프 성질
$\mathbb {P}[s_{t+1} | s_t] = \mathbb {P}[s_{t+1} | s_1, s_2, \ldots, s_t]$
마르코프 성질은 마르코프 프로세스의 핵심적인 특징이다. 과거의 모든 상태$s_1, s_2, \ldots, s_t$를 고려하여 다음 상태 $s_{t+1}$로 전이할 확률이 현재상태 $s_t$만을 고려할 때의 전이 확률과 동일하다는 것을 의미한다 즉 과거의 상태들은 다음상태를 예측하는 데 있어 추가적인 정보를 제공하지 않으며, 주어진 상태 $s_t$만을 기반으로 다음 상태 $s_{t+1}$의 확률을 결정할 수 있다.
미래는 오로지 현재에 의해 결정된다.
'공부 정리 > 강화 학습' 카테고리의 다른 글
[강화학습3]마르코프 결정 프로세스(Markov Decision Process) (0) | 2023.09.24 |
---|---|
마르코프 리워드 프로세스(Markov Reward Process, MRP) (0) | 2023.09.10 |
[강화학습1]강화학습의 기본개념 이해 (0) | 2023.09.01 |
Policy Gradient Methods의 구현 (0) | 2023.05.28 |
목표망(target network)이 있는 Q학습 (0) | 2023.03.18 |
댓글