강화학습 Chapter 5. MDP를 모를 때 밸류 평가하기

참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. MDP를 모를 때 밸류 평가하기 이번 챕터에서 다룰 내용의 전제 조건 작은 문제 MDP를 모름 모델 프리 상황에서의 prediction 방법에 대해 다룸 \(\pi\)가...

Dec 27, 2023 Artificial Intelligence, Reinforcement Learning

강화학습 Chapter 4. MDP를 알 때의 플래닝

참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. MDP를 알 때의 플래닝 이번 챕터에서 다룰 내용의 전제 조건 작은 문제 상태 집합 \(S\)나 액션 집합 \(A\)의 크기가 작은 경우 MD...

Dec 25, 2023 Artificial Intelligence, Reinforcement Learning

강화학습 Chapter 3. 벨만 방정식(Bellman Equation)

참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. 벨만 방정식(Bellman Equation) 주어진 상태의 밸류를 계산하는 방정식 재귀적 관계를 이용 시점 \(r\)과 \(r + 1\) 사이의 관계를 이용 1. 벨만 기대 방정식(Bellman...

Dec 24, 2023 Artificial Intelligence, Reinforcement Learning

강화학습 Chapter 2. 마르코프 결정 프로세스(Markov Decision Process)

참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. 1. 마르코프 프로세스(Markov Process) 마르코프 성질(Markov property) 미래는 오직 현재에 의해 결정된다는 성질 \(\mathbb{P}[s_{t+1}\mid s_t] = \mathbb{P}[s_{t+...

Dec 22, 2023 Artificial Intelligence, Reinforcement Learning

강화학습 Chapter 1. 강화 학습이란

참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. 1. 기계 학습(machine learning)의 분류 지도 학습(supervised learning) 정답이 있는 데이터를 통해 학습 회귀, 분류 등이 해당 비지도 학습(unsuperv...

Dec 21, 2023 Artificial Intelligence, Reinforcement Learning