[강화학습5]최적 정책(Optimal Policy)

최적정책에 대한 정의는 다음과 같이 내릴 수 있다.

$π * \geq π ⟺ v π * (s) \geq v π (s), \forall s \in S <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>π</mi><mo>*</mo></msup><mo>\geq</mo><mi>π</mi><mstyle scriptlevel="0"><mspace width="thickmathspace"></mspace></mstyle><mo stretchy="false">⟺</mo><mstyle scriptlevel="0"><mspace width="thickmathspace"></mspace></mstyle><msub><mi>v</mi><mrow><msup><mi>π</mi><mo>*</mo></msup></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>\geq</mo><msub><mi>v</mi><mrow><mi>π</mi></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>,</mo><mi mathvariant="normal">\forall</mi><mi>s</mi><mo>\in</mo><mi>S</mi></math>$

이번 포스팅에서는 최적정책의 존재에 대해서 증명해보려고 한다.

벨만최적방정식(Bellman optimality equation)

$v * (s) = v π * (s) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>=</mo><msub><mi>v</mi><mrow><msup><mi>π</mi><mo>*</mo></msup></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo></math>$

$v * (s) <math xmlns="http://www.w3.org/1998/Math/MathML"><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo></math>$ 는 $v π (s) <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>v</mi><mrow data-mjx-texclass="ORD"><mi>π</mi></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo></math>$ 중 최대 가치를 가져야 한다. 그러므로 가장 큰 $q * (s, a) <math xmlns="http://www.w3.org/1998/Math/MathML"><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo></math>$ 를 가지는 행동을 선택해야 한다.

$v * (s) = max a q * (s, a) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>=</mo><munder><mo data-mjx-texclass="OP">max</mo><mi>a</mi></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo></math>$

$q * (s, a) = R (s, a) + γ \sum s' P (s' ∣ a, s) v * (s') <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>=</mo><mi>R</mi><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>+</mo><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow><msup><mi>s</mi><mo>'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo>∣</mo><mi>a</mi><mo>,</mo><mi>s</mi><mo stretchy="false">)</mo><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo stretchy="false">)</mo></math>$

$v * (s) = max a R (s, a) + γ \sum s' P (s' ∣ s, a) v * (s') <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>=</mo><munder><mo data-mjx-texclass="OP">max</mo><mi>a</mi></munder><mi>R</mi><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>+</mo><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow><msup><mi>s</mi><mo>'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo>∣</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo stretchy="false">)</mo></math>$

$q * (s, a) = R (s, a) + γ \sum s' P (s' ∣ a, s) max a' q * (s', a') <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>=</mo><mi>R</mi><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>+</mo><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow><msup><mi>s</mi><mo>'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo>∣</mo><mi>a</mi><mo>,</mo><mi>s</mi><mo stretchy="false">)</mo><munder><mo data-mjx-texclass="OP">max</mo><msup><mi>a</mi><mo>'</mo></msup></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo>,</mo><msup><mi>a</mi><mo>'</mo></msup><mo stretchy="false">)</mo></math>$

가치반복(Value Iteration)

벨만최적 방정식은 재귀적인 형태를 띠고 있기 때문에, 주어진 상태에 대한 최적가치는 다른 상태의 최적가치에
의존한다. 그렇기에 단순히 벨만 방정식만 사용해서는 바로 최적가치를 계산하는 것이 어렵다. 하지만 가치반복을 이용하여 최적가치의 근사치를 구하는 것은 가능하다. 가치반복은 다음과 같은 방식으로 진행된다:

모든 상태에 대한 초기 가치를 임의로 설정한다. 이를 $v 0 (s) <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>v</mi><mn>0</mn></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo></math>$ 라고 하자.
각 반복마다, 각 상태에 대해 최적가치를 계산하려고 한다. 즉, 아래의 방정식을 사용한다:
$v k + 1 (s) = max a (R (s, a) + γ \sum s' P (s' ∣ s, a) v k (s')) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msub><mi>v</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>=</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mi>a</mi></munder><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">(</mo><mi>R</mi><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>+</mo><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow><msup><mi>s</mi><mo>'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo>∣</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><msub><mi>v</mi><mi>k</mi></msub><mo stretchy="false">(</mo><msup><mi>s</mi><mo>'</mo></msup><mo stretchy="false">)</mo><mo data-mjx-texclass="CLOSE">)</mo></mrow></math>$
반복을 진행할수록 최적가치에 더 가까워진다.

그렇다면 왜 가치반복을 진행할수록 $v k <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>v</mi><mi>k</mi></msub></math>$ 는 최적가치에 가까워질까? 아래는 이에 대한 증명 과정이다

$Δ k = max s | v * (s) - v k (s) | <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi mathvariant="normal">Δ</mi><mi>k</mi></msub><mo>=</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>v</mi><mrow data-mjx-texclass="ORD"><mi>k</mi></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

$Δ k + 1 = max s | v * (s) - v k + 1 (s) | <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi mathvariant="normal">Δ</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>=</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>v</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

$= max s | max a q * (s, a) - max a q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo>=</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

$\leq max s max a | q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo>\leq</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

잠깐 $max s | max a q * (s, a) - max a q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$ 이 어째서
$max s | max a q * (s, a) - max a q k + 1 (s, a) | \leq max s max a | q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>\leq</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$
로 전개되는지 설명하겠습니다

$a 1 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mn>1</mn></msub></math>$ 은 $q * <math xmlns="http://www.w3.org/1998/Math/MathML"><msup><mi>q</mi><mo>*</mo></msup></math>$ 에 대해 최적행동 $a 2 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mn>2</mn></msub></math>$ 는 $q k + 1 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub></math>$ 에 대해 최적행동일 때

case1: $a 1 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mn>1</mn></msub></math>$ 과 $a 2 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mn>2</mn></msub></math>$ 가 같은 행동

만약 다른 행동 $| q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$ 이 $| q * (s, a 1) - q k + 1 (s, a 2) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$ 보다 작거나 같다면
$max s | max a q * (s, a) - max a q k + 1 (s, a) | = max s max a | q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>=</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$
만약 다른 행동 $| q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$ 이 $| q * (s, a 1) - q k + 1 (s, a 2) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$ 보다 크다면
$max s | max a q * (s, a) - max a q k + 1 (s, a) | < max s max a | q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo><</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

case2: $a 1 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mn>1</mn></msub></math>$ 과 $a 2 <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mn>2</mn></msub></math>$ 가 다른 행동
$A = | q * (s, a 1) - q k + 1 (s, a 2) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>A</mi><mo>=</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$ , $n <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>n</mi></math>$ 은 양수

$| a 1 - a 2 | \geq 0 <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msub><mi>a</mi><mn>1</mn></msub><mo>-</mo><msub><mi>a</mi><mn>2</mn></msub><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>\geq</mo><mn>0</mn></math>$
$| q * (s, a 1) - (q k + 1 (s, a 2) - n) | = A + n <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mo stretchy="false">(</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mi>n</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>=</mo><mi>A</mi><mo>+</mo><mi>n</mi></math>$
$| q k + 1 (s, a 2) - (q * (s, a 1) - n) | = ? ? ? <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mo stretchy="false">(</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mi>n</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>=</mo><mo>?</mo><mo>?</mo><mo>?</mo></math>$
$| a 1 - a 2 | < 0 <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msub><mi>a</mi><mn>1</mn></msub><mo>-</mo><msub><mi>a</mi><mn>2</mn></msub><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo><</mo><mn>0</mn></math>$
$| q * (s, a 1) - (q k + 1 (s, a 2) - n) | = ? ? ? <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mo stretchy="false">(</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mi>n</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>=</mo><mo>?</mo><mo>?</mo><mo>?</mo></math>$
$| q k + 1 (s, a 2) - (q * (s, a 1) - n) | = A + n <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mo stretchy="false">(</mo><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><msub><mi>a</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo>-</mo><mi>n</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>=</mo><mi>A</mi><mo>+</mo><mi>n</mi></math>$

따라서 $max s | max a q * (s, a) - max a q k + 1 (s, a) | \leq max s max a | q * (s, a) - q k + 1 (s, a) | <math xmlns="http://www.w3.org/1998/Math/MathML"><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>\leq</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>q</mi><mo>*</mo></msup><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo>-</mo><msub><mi>q</mi><mrow data-mjx-texclass="ORD"><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo stretchy="false">(</mo><mi>s</mi><mo>,</mo><mi>a</mi><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

같은 MDP라면 가치함수가 다르더라도 같은 상태전이확률을 공유하기 때문에

$\leq max s max a | γ \sum s' P (s' ∣ a, s) (v * (s') - v k (s')) | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo>\leq</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow data-mjx-texclass="ORD"><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo>∣</mo><mi>a</mi><mo>,</mo><mi>s</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">(</mo><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo stretchy="false">)</mo><mo>-</mo><msub><mi>v</mi><mi>k</mi></msub><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo stretchy="false">)</mo><mo data-mjx-texclass="CLOSE">)</mo></mrow><mo stretchy="false">|</mo></math>$

삼각부등식을 사용하여

$\leq max s max a γ \sum s' P (s' ∣ a, s) | v * (s') - v k (s') | <math xmlns="http://www.w3.org/1998/Math/MathML"><mo>\leq</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow data-mjx-texclass="ORD"><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo>∣</mo><mi>a</mi><mo>,</mo><mi>s</mi><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo stretchy="false">)</mo><mo>-</mo><msub><mi>v</mi><mi>k</mi></msub><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo stretchy="false">)</mo><mo stretchy="false">|</mo></math>$

이때 $| v * (s') - v k (s') | \leq Δ k <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">|</mo><msup><mi>v</mi><mo>*</mo></msup><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo stretchy="false">)</mo><mo>-</mo><msub><mi>v</mi><mi>k</mi></msub><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo stretchy="false">)</mo><mrow data-mjx-texclass="ORD"><mo stretchy="false">|</mo></mrow><mo>\leq</mo><msub><mi mathvariant="normal">Δ</mi><mi>k</mi></msub></math>$ 이므로

$\leq max s max a γ \sum s' P (s' ∣ a, s) Δ k <math xmlns="http://www.w3.org/1998/Math/MathML"><mo>\leq</mo><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>s</mi></mrow></munder><munder><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mi>a</mi></mrow></munder><mi>γ</mi><munder><mo data-mjx-texclass="OP">\sum</mo><mrow data-mjx-texclass="ORD"><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup></mrow></munder><mi>P</mi><mo stretchy="false">(</mo><msup><mi>s</mi><mo data-mjx-alternate="1">'</mo></msup><mo>∣</mo><mi>a</mi><mo>,</mo><mi>s</mi><mo stretchy="false">)</mo><msub><mi mathvariant="normal">Δ</mi><mi>k</mi></msub></math>$

$∴ <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mo>∴</mo><msub><mi mathvariant="normal">Δ</mi><mrow><mi>k</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>\leq</mo><mi>γ</mi><msub><mi mathvariant="normal">Δ</mi><mi>k</mi></msub></math>$

$0 < γ < 1$ 일 때 가치반복을 진행할수록 최적가치에 가까워진다.

마무리

최적가치는 아래와 같이 표현할 수 있다.

$v^{*} (s) = lim_{k \to \infty} v_{k} (s)$

최적가치가 존재하므로 최적정책 역시 존재한다.

추가적으로 최적정책의 정의에 따르면, 환경에 따라 최적정책은 하나가 아닌 여러 개가 존재할 수도 있다. 나는 이 부분에 대해서 실제로 최적정책이 여러 개인 환경이 있다면 해당 정의에 대해 납득할 수 있다고 생각했다.

간단한 그리드 월드(grid world) 문제를 생각해 보자.

그리드는 2x2크기이며 상하좌우로 한 칸씩 움직일 수 있으며, 이동시 목적지에 도착하면 10의 보상을 그렇지 않을 경우 -1의 보상을 받는다. 이때 1번 정책과 2번 정책은 모두 최적정책이다. 따라서 이 같은 측면에서도 타당하다고 볼 수 있다.

'공부 정리 > 강화 학습' 카테고리의 다른 글

[강화학습7] MC(Monte Carlo Methods)와 TD(Temporal Difference Learning) (0)	2023.12.01
[강화학습6]정책 반복(Policy Iteration) (0)	2023.10.25
[강화학습4]벨만 방정식(Bellman Equation) (0)	2023.09.27
[강화학습3]마르코프 결정 프로세스(Markov Decision Process) (0)	2023.09.24
마르코프 리워드 프로세스(Markov Reward Process, MRP) (0)	2023.09.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발자K씨

[강화학습5]최적 정책(Optimal Policy)

벨만최적방정식(Bellman optimality equation)

가치반복(Value Iteration)

마무리

'공부 정리 > 강화 학습' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[강화학습5]최적 정책(Optimal Policy)

벨만최적방정식(Bellman optimality equation)

가치반복(Value Iteration)

마무리

'공부 정리 > 강화 학습' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역