태그
강화학습
Q-learning
유니티
단층퍼셉트론
결정경계
n step TD
비선형변환
정책반복
Policy Iteration
Optimal value
Bellman optimality equation
Value Iteration
최적 정책
Optimal Policy
마르코프 결정 프로세스
마르코프 프로세스
계단함수
상태가치함수
정책기울기
Policy Gradient Methods
심층 강화학습 인 액션
임베딩모델
벨만방정식
Sarsa
off-policy
on-policy
다층퍼셉트론
Okt
FaceNet
Markov Process
heapify
이진힙
Bellman Equation
우선순위큐
활성화함수
이분탐색
퍼셉트론
koNLPy
PriorityQueue
Unity3D
가중치
선형변환
틱택토
DQN
mdp
작곡프로그램
Lis
토이프로젝트
MRP
td
탐색
자료구조
unity
편향
탐험
Policy
heap
활용
작곡
알고리즘
정책
힙
MC
스크롤바