AI/Reinforcement Learning
2022. 7. 5.
[강화학습] CH02-1. 마르코프 결정 프로세스(MDP; Markov Decision Process)
저번 챕터에서 강화학습이 해결하고자 하는 순차적인 의사결정 문제란 무엇인지 간략하게 살펴보았다. 순차적인 의사결정 문제는 마르코프 결정 프로세스(MDP)라는 개념을 통해 수식으로 더 명확하게 이해할 수 있다. 이를 위해 마르코프 프로세스부터 차례차례 알아보자. 1. 마르코프 프로세스 (Markov Process) \( s_0 \)부터 시작하는 5가지 상태 \( {s_0, s_1, s_2, s_3, s_4} \)가 있다고 가정해보자. \( s_0\)에서 시작하는 여정은 다음 상태로 넘어가는 상태 전이(state transition)을 통해 진행된다. \( s_4 \)는 종료 상태(terminal state)로, 이곳에 도달하는 순간 마르코프 프로세스는 끝난다. 여기서 마르코프 프로세스란 미리 정의된 어떤 ..