본문 바로가기
공부 정리/강화 학습

[강화학습2]마르코프 프로세스(Markov Process)

by 블로그별명 2023. 9. 4.

마르코프 프로세스

아래 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다.

위 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 마르코프 프로세스는 상태의 집합$S$와 각 상태 간의 전이 확률$P$를 통해 구성된 확률적인 구조로 정의할 수 있다

$$MP \equiv (S, P)$$

  • 상태의 집합 $S$
    가능한 상태들을 모두 모아놓은 집합이다. 아래와 같이 표기된다
    $S = \{s_0, s_1, s_2, \ldots, s_n\}$이다
  • 전이 확률 행렬 $P$
    전이 확률은 특정상태에서 특정상태로 상태전이 될 때의 확률을 말한다. 이 확률은 여러 방식으로 표현될 수 있으며, 예를 들어 상태 $s_0$에서 상태 $s_1$로의 전이확률을 표기한다고 할 때$P_{s_0s_1}$ 또는 $P(s_1|s_0)$의 형태로 일반적으로 표현된다. 전이 확률 행렬은 마르코프 프로세스 내 모든 전이확률을 포함한 행렬이다. 
    $\begin {array}{c|cccc}
    & s_1 & s_2 & \cdots & s_n \\
    \hline
    s_1 & p_{11} & p_{12} & \cdots & p_{1n} \\
    s_2 & p_{21} & p_{22} & \cdots & p_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    s_n & p_{n1} & p_{n2} & \cdots & p_{nn} \\
    \end {array}$

마르코프 성질

$\mathbb {P}[s_{t+1} | s_t] = \mathbb {P}[s_{t+1} | s_1, s_2, \ldots, s_t]$

마르코프 성질은 마르코프 프로세스의 핵심적인 특징이다. 과거의 모든 상태$s_1, s_2, \ldots, s_t$를 고려하여 다음 상태 $s_{t+1}$로 전이할 확률이 현재상태 $s_t$만을 고려할 때의 전이 확률과 동일하다는 것을 의미한다 즉 과거의 상태들은 다음상태를 예측하는 데 있어 추가적인 정보를 제공하지 않으며, 주어진 상태 $s_t$만을 기반으로 다음 상태 $s_{t+1}$의 확률을 결정할 수 있다.

미래는 오로지 현재에 의해 결정된다.

댓글