강화학습 Chapter 5. MDP를 모를 때 밸류 평가하기
참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. MDP를 모를 때 밸류 평가하기 이번 챕터에서 다룰 내용의 전제 조건 작은 문제 MDP를 모름 모델 프리 상황에서의 prediction 방법에 대해 다룸 \(\pi\)가...
참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. MDP를 모를 때 밸류 평가하기 이번 챕터에서 다룰 내용의 전제 조건 작은 문제 MDP를 모름 모델 프리 상황에서의 prediction 방법에 대해 다룸 \(\pi\)가...
참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. MDP를 알 때의 플래닝 이번 챕터에서 다룰 내용의 전제 조건 작은 문제 상태 집합 \(S\)나 액션 집합 \(A\)의 크기가 작은 경우 MD...
참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. 벨만 방정식(Bellman Equation) 주어진 상태의 밸류를 계산하는 방정식 재귀적 관계를 이용 시점 \(r\)과 \(r + 1\) 사이의 관계를 이용 1. 벨만 기대 방정식(Bellman...
참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. 1. 마르코프 프로세스(Markov Process) 마르코프 성질(Markov property) 미래는 오직 현재에 의해 결정된다는 성질 \(\mathbb{P}[s_{t+1}\mid s_t] = \mathbb{P}[s_{t+...
참고 자료 이 글은 [노승은, 바닥부터 배우는 강화 학습, 영진닷컴(2020)]을 바탕으로 작성되었습니다. 1. 기계 학습(machine learning)의 분류 지도 학습(supervised learning) 정답이 있는 데이터를 통해 학습 회귀, 분류 등이 해당 비지도 학습(unsuperv...