[LG Aimers] 강화학습2 - Model-Free Policy Evaluation
LG Aimers 학습 내용을 정리한 글입니다
상태와 보상과 같이 부분적으로 알고 있지, MDP를 전체적으로 알고 있는 경우는 없다.
그런 샘플들만 주어지는 상황에서 문제를 어떻게 해결해 나갈 수 있을 것인가 → 강화학습 알고리즘의 본질
이전 강의 )
Return : 현재 Step에서 Horizon까지 감쇄된, Discount된 보상합
State Value Function : 보상합을 가지고 현재 State가 주어져 있을 때 오는 미래의 감쇄 보상합
State-Action Value Function : State action이 주어져 있을 때 기대되는 미래의 감쇄 보상합
Policy Evaluation
: MDP에 관련된 실제 정보가 없을 경우 (전이모델(Transition Probability)과 보상모델(Reward) 관련된 정보가 없을 때) 정책의 예상되는 Return을 어떻게 계산할 것인가
Algorithm 1. Monte Carlo(MC) Policy Evaluation
Value Function : Return의 평균값(현재 State에서 시작 했을 때의 평균값)
→ MDP의 전이모델이나 보상모델을 필요로 하지 않는다.
→ Markov 성징도 필요로 하지 않는다.
→ 단점 : Can only be applied to episodic MDPs (ends up in terminal state with probability 1)
방법 1. First-Visit Monte Carlo(MC) In Policy Evaluation
: Trajectory를 진행하면서 처음 만나는 State에 대해서만 Return, Value Function 사용(나중에 만나는 State는 Return과 Value Function에 사용하지 않는다)
→ Unbiased Estimator
Estimator 평가

방법 2. Every-Visit Monte Carlo(MC) On Policy Evaluation
→ 여러번 만난 State에 대한 Return을 전부 Value에 넣는다.
→ Biased Estimator
방법 3. Incremental Monte Carlo(MC) On Policy Evaluation
MC Policy Evaluation은
- High variance estimator
- Requires episodic settings
Algorithm 2.Temporal Difference Learning : 강화학습에서 중심이 되는 알고리즘 !!!!!!!
→ Monte Carlo + dynamic programming method
→ Model-free (MDP필요없다)
→ Can be used in episodic or infinite-horizon non-episodic settings
Temporal Difference [TD(0)] Learning
→ TD can learn before knowing the final outcome
→ TD can learn withour the final outcome
Algorithm 3. Certainty Equivalent Learning
: MDP를 알고 있지는 않지만, 샘플을 이용하여 Transition 모델과 Reward 모델을 학습하고, Planning 알고리즘 기존에 있던 DP 모델을 돌리는 것
→ Model Based
- Model Free : 모델을 학습하지 않고 Policy Evaluation을 진행하거나, Policy를 찾아내는 알고리즘
예) MC, TD - Model Based : 기존의 샘플을 이용해서 모델을 학습하고 학습된 모델을 기반해서 강화학습 진행
예) Certainty Equivalent Learning
Properties of Algorithm for Evaluation