본문 바로가기

전체 글52

마르코프 리워드 프로세스(Markov Reward Process, MRP) 1. 마르코프 리워드 프로세스아래그림은 잠에 드는 마르코프 리워드 프로세스를 도식화 한것이다.마르코프 프로세스에 보상의 개념이 추가되면 마르코프 리워드 프로세스가 된다. 아까 마르코프 프로세스는 상태의 집합 $S$와 전이확률행렬$P$로 정의되었는데, $MRP$를 정의하기위해서는 보상함수$R$과 할인계수$\gamma$(감마)라는 2가지 요소가 추가로 필요하다. $$MRP \equiv (S,P,R,\gamma)$$1-1. 보상함수$R$(Reward Function)보상함수는 상태또는 행동을 입력값으로 받아 보상을 출력하는 함수이다.보상함수는 기대보상함수와 즉시보상함수로 나뉜다.즉시보상(Immediate Reward)에이전트가 특정 상태에서 특정 상태로 전이될때 즉각적으로 얻는 보상이다(MRP)에이전트가 특정.. 2023. 9. 10.
[강화학습2]마르코프 프로세스(Markov Process) 마르코프 프로세스 아래 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 위 그림은 잠에 드는 마르코프 프로세스를 도식화한 것이다. 마르코프 프로세스는 상태의 집합$S$와 각 상태 간의 전이 확률$P$를 통해 구성된 확률적인 구조로 정의할 수 있다 $$MP \equiv (S, P)$$ 상태의 집합 $S$ 가능한 상태들을 모두 모아놓은 집합이다. 아래와 같이 표기된다 $S = \{s_0, s_1, s_2, \ldots, s_n\}$이다 전이 확률 행렬 $P$ 전이 확률은 특정상태에서 특정상태로 상태전이 될 때의 확률을 말한다. 이 확률은 여러 방식으로 표현될 수 있으며, 예를 들어 상태 $s_0$에서 상태 $s_1$로의 전이확률을 표기한다고 할 때$P_{s_0s_1}$ 또는 $P(s_1|s_0)$의 .. 2023. 9. 4.
[강화학습1]강화학습의 기본개념 이해 이 포스팅 시리즈는 강화학습에 대해 깊이 있게 이해하고자 하는 여정의 일환으로 작성되었습니다. "바닥부터 배우는 강화학습"과 "심층 강화학습 인 액션" 두 권의 책을 베이스로 공부했으며, 학습중에 생기는 추가적인 궁금증은 chatgpt나 구글링으로 해소하고자 노력했습니다. 만약 내용 중 오류를 발견하시면, 댓글로 알려주시면 매우 감사하겠습니다. 강화학습은 한계가 없다 강화학습과 지도학습의 차이를 생각해 보면, 지도학습은 마치 부모님으로부터 자전거 타는 방법을 배우는 것과 유사하다고 볼 수 있다. 지도학습의 경우, 최적의 결과는 부모님이 보여주는 수준의 자전거 타기 능력에 불과할 수 있다. 반면에 강화학습은 스스로 시행착오를 겪으며 자전거 타기를 배우는 과정과 같다. 강화학습은 이러한 학습 방식으로 인해,.. 2023. 9. 1.
우분투 hdmi포트 인식불량 해결법 drivers autoinstallsudo reboot 이후에 해결되지않으면 삭제후 재설치를 시도해본다(나는 이 방법으로 해결되었다)sudo apt-get purge nvidia-*sudo ubuntu-drivers autoinstallsudo reboot 2023. 7. 27.
파워룰의 증명(자연수범위) 본문에 틀린내용이 있으면 지적부탁드리겠습니다!!🙏 이항정리에 대한 이해가 있으면 좋습니다https://doingcomputer.tistory.com/40도함수 소개도함수는 미분계수를 일반화한 개념으로 함수의 x값에대한 접선의 기울기(y)를 나타내는 함수이다파워룰의 증명  참고https://color-change.tistory.com/41 2023. 7. 17.
이항정리의 증명 조합에 대한 이해가 필요하다https://doingcomputer.tistory.com/38소개이항정리는 (a+b)ⁿ 형태의 식, 예를 들면 (x+y)⁷ 과 같은 식을 어떻게 전개하는지 알려준다지수가 커질수록 식을 전개해지기 어렵지만, 이항정리를 이용하면 빠르게 전개할수있다  증명n=1일때 공식이 성립한다 n=k일때 공식이 성립한다고 가정한다 그러므로 양변에 (a+1)을 곱해도 등식은 성립할것이다  만약 n=k일때 공식이 성립하면 n=k+1일때도 공식이 성립한다n=1일때 공식이 성립하므로 이항정리는 모든 자연수 n에 대하여 성립한다 2023. 7. 1.
순열과 조합 공식 이해 조합개념은 순열개념과 연결되기때문에 순열을 먼저 이해하면 조합의 이해가 쉽다 순열: n개에서 r개를 뽑는 경우의 수, 순서 영향o 조합: n개에서 r개를 뽑는 경우의 수, 순서 영향x (a,b,c)에서 두개를 뽑아 만들수있는 순열은 (a,b) (a,c) (b,a) (b,c) (c,a) (c,b) 총 6개이다 (a,b,c)에서 두개를 뽑아 만들수있는 조합은 (a,b) (a,c) (b,c) 총 3개이다 순열 공식의 이해 이제 순열을 계산해보자 n개에서 r개를 뽑아 만들수있는 경우의 수는 몇가지일까? 처음에는 n개중에 하나를 고르면 되니까 n가지방법 두번째는 아까 고른것을 빼고 (n-1)개중에 하나를 고르면 되니까 (n-1)가지 방법 세번째는 ... 이런식으로 r개까지 뽑으면된다 팩토리얼로도 표현할수있다 조합.. 2023. 6. 18.
LIS길이를 이분탐색으로 구해보자(python) 가장 긴 증가하는 부분수열(LIS)의 길이를 이분탐색을 이용해 구해보자 먼저 가장 긴 증가하는 부분 수열이 뭔지 이해해보자 수열: 숫자들의 나열 ex) [5,3,8,2] 부분수열: 수열안에서 몇몇 숫자들을 골라서 만든 새로운 수열 ex) [5,8,3,2] => [5,8,2] 따라서 수열 [10, 20, 10, 30, 20, 50]이 있을때 따라서 가장 긴 증가하는 부분 수열은 [10, 20, 10, 30, 20, 50]이고 길이는 4이다 이분탐색을 이용한 풀이 주어진 수열의 각 원소를 순회하면서 이분탐색을 적용해나간다 따라서 시간복잡도는 O(nlogn) 이된다 세부적인 이진탐색 과정은 아래와 같다 현재 원소를 이진 탐색을 통해 LIS 배열에 삽입할 위치를 찾는다 (LIS배열은 항상 정렬된 상태를 유지한다.. 2023. 6. 6.
Policy Gradient Methods의 구현 심층 강화학습 인 액션의 chater4내용을 나름대로 이해한내용을 바탕으로 정리해보았습니다부정확한 내용이 있다면 피드백 부탁드립니다정책망이 뭐에요?정책망은 상태를 받고 모든 가능한 동작들의 확률분포를 돌려주는 함수 최종적으로 동작을 선택하는 방식은 다음과 같다정책망이 가능한 동작 4가지에대해 확률분포를 예측한다 (각 동작의 확률을 모두 더하면 1이된다)만약 2번 동작의 보상이 가장 클것이라고 예측한다면 2번의 확률이 가장높다 이상태에서 확률분포에 따라 모델은 동작을 선택을 하게된다2번 동작이 뽑힐 확률이 가장 높겠지만 다른 동작이 뽑힐수도있다  게임소개CartPole강화학습에서 많이 사용되는 클래식한 환경중 하나이다 막대기와 수래로 구성되어있다목표: 막대가 넘어지지않고 수레를 제어하여 막대를 가능한 오랫.. 2023. 5. 28.