본문 바로가기

heeee__ya

Notice

Contact Me 🙌

Visits

Today

Yesterday

Popular Posts

Calendar

Tags

더보기

Archives

AI/Reinforcement Learning

[강화학습] CH02-2. 정책과 가치 함수 - policy, value function

AI/Reinforcement Learning 2022. 7. 12. [강화학습] CH02-2. 정책과 가치 함수 - policy, value function 1. 상태 가치 함수 (State Value Function) in MRP 상태 \(s \)의 밸류(value) 혹은 가치를 숫자 하나로 평가하고 싶다면 그 시점으로부터 미래에 일어날 보상을 기준으로 평가해야 한다. 즉, \( s\)부터 시작하여 리턴(return; 자세한 설명은 이전 포스트 참조)을 측정하면 된다. $$ v(s) = E[G_t|S_t=s] $$ 리턴의 값은 확률적인 요소에 의하여 다음 상태가 정해지므로, 같은 \(s \)에서 출발해도 리턴 값이 달라질 수 있다. 따라서 리턴의 기댓값을 사용해 value를 계산한다. episode sampling 시작 상태(initial state)부터 종료 상태(terminal state)까지 에이전트가 거친 상태, 행동, 보상의 sequence를 에피..

[강화학습] CH02-1. 마르코프 결정 프로세스(MDP; Markov Decision Process)

AI/Reinforcement Learning 2022. 7. 5. [강화학습] CH02-1. 마르코프 결정 프로세스(MDP; Markov Decision Process) 저번 챕터에서 강화학습이 해결하고자 하는 순차적인 의사결정 문제란 무엇인지 간략하게 살펴보았다. 순차적인 의사결정 문제는 마르코프 결정 프로세스(MDP)라는 개념을 통해 수식으로 더 명확하게 이해할 수 있다. 이를 위해 마르코프 프로세스부터 차례차례 알아보자. 1. 마르코프 프로세스 (Markov Process) \( s_0 \)부터 시작하는 5가지 상태 \( {s_0, s_1, s_2, s_3, s_4} \)가 있다고 가정해보자. \( s_0\)에서 시작하는 여정은 다음 상태로 넘어가는 상태 전이(state transition)을 통해 진행된다. \( s_4 \)는 종료 상태(terminal state)로, 이곳에 도달하는 순간 마르코프 프로세스는 끝난다. 여기서 마르코프 프로세스란 미리 정의된 어떤 ..

[강화학습] CH01. 강화학습이란?

AI/Reinforcement Learning 2022. 6. 30. [강화학습] CH01. 강화학습이란? 지도학습 vs 비지도학습 vs 강화학습 지도학습(supervised learning): 정답(라벨)이 지정된 데이터를 사용해 모델 학습 비지도학습(unsupervised learning): 정답(라벨)이 없는 데이터를 사용해 모델 학습 강화학습(reinforcement learning): 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습과정 지도학습, 비지도학습과 강화학습은 모두 기계 학습(machine learning)에 속하는 개념이다. 흔히 머신러닝과 인공지능(AI)를 혼용해 쓰곤 하는데, 엄밀히 말하면 머신러닝은 AI를 구현하는 하나의 방법론이라 할 수 있다. AI는 인위적으로 사람과 같이 사고할 수 있는 지능을 폭넓게 지칭하는 말이고, 머신러닝은 컴퓨터..

이전 1 다음

티스토리툴바