본문 바로가기

전체 글48

[강화학습5]최적 정책(Optimal Policy) 최적정책에 대한 정의는 다음과 같이 내릴 수 있다. $$\pi^* \geq \pi \iff v_{\pi^*}(s) \geq v_{\pi}(s) , \forall s \in S$$ 이번 포스팅에서는 최적정책의 존재에 대해서 증명해보려고 한다. 벨만최적방정식(Bellman optimality equation) $$v^*(s) = v_{\pi^*}(s)$$ $v^*(s)$를 최적가치(Optimal value)라고 한다 $v^*(s)$는 $v_{\pi}(s)$중 최대 가치를 가져야 한다. 그러므로 가장 큰 $q^*(s, a)$를 가지는 행동을 선택해야 한다. $$v^*(s) = \underset {a}{\max} q^*(s, a)$$ $$q^*(s, a) = R(s, a) + \gamma \sum_{s'} P(.. 2023. 10. 9.
[강화학습4]벨만 방정식(Bellman Equation) 벨만 방정식을 통해 계산되는 가치(value)는 특정 상태(또는 상태-행동 쌍)에서 시작하여 미래에 받게 될 모든 보상의 기댓값, 즉 누적보상(return)의 기댓값이다. 벨만방정식은 크게 기대벨만방정식과 최적벨만방정식으로 나뉘는데, 이번포스팅에서는 기대벨만방정식에 대해서만 다룬다. 정책(Policy) $$\pi(a \mid s) = \mathbb {P}[A_t = a \mid S_t = s]$$ 하나의 정책은 모든 가능한 상태들에 대해 행동을 선택하는 방법을 제공한다 상태가치함수(State Value Function)와 상태-행동가치함수 (State-Action Value Function) 상태 가치 함수$v_\pi$ 주어진 정책$\pi$아래, 상태 $s$의 기대 리턴 상태-행동 가치 함수$q_\pi$.. 2023. 9. 27.
[강화학습3]마르코프 결정 프로세스(Markov Decision Process) MDP의 정의 아래의 사진은 MDP를 도식화한 것이다 $$MDP \equiv (S, A, P, R,\gamma)$$ 마르코프 프로세스에 보상, 할인계수, 행동의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 구성된 프로세스였다면, $MDP$를 정의하기 위해서는 보상함수$R$과 할인계수$\gamma$(감마), 행동의 집합$A$ 총 3가지 요소가 추가로 필요하다 $$MDP \equiv (S, A, P, R,\gamma)$$ 상태의 집합 $S$ $$S = \{s_0, s_1, s_2, \ldots, s_n\}$$ 가능한 상태들을 모두 모아놓은 집합이다. 액션의 집합 $A$ $$S = \{a_0, a_1, a_2, \ldots, a_n\}$$.. 2023. 9. 24.
코랩 셀 실행 끝날때 소리로 알림받는방법 별건아니구... tts라이브러리를 이용해서 셀실행이 완료되었을때 알림을 받을수있는 코드 공유입니다중간에 오디오파일이 저장되지만 어차피 런타임종료되면 자동으로 사라지기때문에 큰 상관은 없을것이라고 생각합니다# !pip install gttsfrom gtts import gTTSimport IPython.display as ipd# 한글 텍스트text = "모델 학습이 완료됐습니다"# 한글 텍스트를 음성으로 변환tts = gTTS(text=text, lang='ko')# 저장할 음성 파일의 이름filename = "example_ko.mp3"# 음성 파일로 저장tts.save(filename)print('작업중')# 음성 파일을 Colab에서 재생ipd.Audio(filename=filename, autop.. 2023. 9. 15.
우선순위 큐 우선순위 큐 개념정리 우선순위 큐의 기능 우선순위 큐는 주로 다음과 같은 연산을 지원한다 Insertion(삽입): 원소를 큐에 삽입할때는 해당 원소의 우선순위도 함께 지정된다 Deletion(삭제): 큐에서 원소를 삭제할때는 가장 높은(또는 낮은) 우선순위를 가진 원소가 제거된다 우선순위 큐는 언제 사용될수있을까 우선순위 큐는 다양한 상황에서 요소들 사이의 상대적인 '중요성' 또는 '우선순위'를 고려하여 처리해야 할 때 유용하게 사용된다. 병원의 응급실은 이에 대한 아주 좋은 예다. 응급실에서 환자들은 단순히 먼저 도착한 순서대로 진료를 받는 것이 아니라, 그들의 상태나 '중증도'에 따라 진료 우선순위가 결정된다. 이러한 방식은 특히 생명을 구하는 긴급한 상황에서 필수적이다. 단순한 감기 증상으로 응급.. 2023. 9. 15.
마르코프 리워드 프로세스(Markov Reward Process, MRP) 1. 마르코프 리워드 프로세스아래그림은 잠에 드는 마르코프 리워드 프로세스를 도식화 한것이다.마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 정의되었는데, $MRP$를 정의하기위해서는 보상함수$R$과 할인계수$\gamma$(감마)라는 2가지 요소가 추가로 필요하다. $$MRP \equiv (S,P,R,\gamma)$$1-1. 보상함수$R$(Reward Function)보상함수는 상태또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.보상함수는 기대보상함수와 즉시보상함수로 나뉜다.즉시보상(Immediate Reward)에이전트가 특정 상태에서 특정 상태로 전이될때 즉각적으로 얻는 보상이다(MRP)에이전트가 특정.. 2023. 9. 10.
[강화학습2]마르코프 프로세스(Markov Process) 마르코프 프로세스 아래 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 위 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 마르코프 프로세스는 상태의 집합$S$와 각 상태 간의 전이 확률$P$를 통해 구성된 확률적인 구조로 정의할 수 있다 $$MP \equiv (S, P)$$ 상태의 집합 $S$ 가능한 상태들을 모두 모아놓은 집합이다. 아래와 같이 표기된다 $S = \{s_0, s_1, s_2, \ldots, s_n\}$이다 전이 확률 행렬 $P$ 전이 확률은 특정상태에서 특정상태로 상태전이 될 때의 확률을 말한다. 이 확률은 여러 방식으로 표현될 수 있으며, 예를 들어 상태 $s_0$에서 상태 $s_1$로의 전이확률을 표기한다고 할 때$P_{s_0s_1}$ 또는 $P(s_1|s_0)$의 .. 2023. 9. 4.
[강화학습1]강화학습의 기본개념 이해 이 포스팅 시리즈는 강화학습에 대해 깊이 있게 이해하고자 하는 여정의 일환으로 작성되었습니다. "바닥부터 배우는 강화학습"과 "심층 강화학습 인 액션" 두 권의 책을 베이스로 공부했으며, 학습중에 생기는 추가적인 궁금증은 chatgpt나 구글링으로 해소하고자 노력했습니다. 만약 내용 중 오류를 발견하시면, 댓글로 알려주시면 매우 감사하겠습니다. 강화학습은 한계가 없다 강화학습과 지도학습의 차이를 생각해 보면, 지도학습은 마치 부모님으로부터 자전거 타는 방법을 배우는 것과 유사하다고 볼 수 있다. 지도학습의 경우, 최적의 결과는 부모님이 보여주는 수준의 자전거 타기 능력에 불과할 수 있다. 반면에 강화학습은 스스로 시행착오를 겪으며 자전거 타기를 배우는 과정과 같다. 강화학습은 이러한 학습 방식으로 인해,.. 2023. 9. 1.
우분투 hdmi포트 인식불량 해결법 drivers autoinstallsudo reboot 이후에 해결되지않으면 삭제후 재설치를 시도해본다(나는 이 방법으로 해결되었다)sudo apt-get purge nvidia-*sudo ubuntu-drivers autoinstallsudo reboot 2023. 7. 27.