AI/Reinforcement Learning
2022. 7. 12.
[강화학습] CH02-2. 정책과 가치 함수 - policy, value function
1. 상태 가치 함수 (State Value Function) in MRP 상태 \(s \)의 밸류(value) 혹은 가치를 숫자 하나로 평가하고 싶다면 그 시점으로부터 미래에 일어날 보상을 기준으로 평가해야 한다. 즉, \( s\)부터 시작하여 리턴(return; 자세한 설명은 이전 포스트 참조)을 측정하면 된다. $$ v(s) = E[G_t|S_t=s] $$ 리턴의 값은 확률적인 요소에 의하여 다음 상태가 정해지므로, 같은 \(s \)에서 출발해도 리턴 값이 달라질 수 있다. 따라서 리턴의 기댓값을 사용해 value를 계산한다. episode sampling 시작 상태(initial state)부터 종료 상태(terminal state)까지 에이전트가 거친 상태, 행동, 보상의 sequence를 에피..