[LG Aimers] 강화학습2 - Model-Free Policy Evaluation

Add,/LG Aimers

싱브이 2023. 7. 27. 12:53

728x90

LG Aimers 학습 내용을 정리한 글입니다

상태와 보상과 같이 부분적으로 알고 있지, MDP를 전체적으로 알고 있는 경우는 없다.

그런 샘플들만 주어지는 상황에서 문제를 어떻게 해결해 나갈 수 있을 것인가 → 강화학습 알고리즘의 본질

이전 강의 )

Return : 현재 Step에서 Horizon까지 감쇄된, Discount된 보상합

State Value Function : 보상합을 가지고 현재 State가 주어져 있을 때 오는 미래의 감쇄 보상합

State-Action Value Function : State action이 주어져 있을 때 기대되는 미래의 감쇄 보상합

Policy Evaluation

: MDP에 관련된 실제 정보가 없을 경우 (전이모델(Transition Probability)과 보상모델(Reward) 관련된 정보가 없을 때) 정책의 예상되는 Return을 어떻게 계산할 것인가

Algorithm 1. Monte Carlo(MC) Policy Evaluation

Value Function : Return의 평균값(현재 State에서 시작 했을 때의 평균값)

→ MDP의 전이모델이나 보상모델을 필요로 하지 않는다.

→ Markov 성징도 필요로 하지 않는다.

→ 단점 : Can only be applied to episodic MDPs (ends up in terminal state with probability 1)

방법 1. First-Visit Monte Carlo(MC) In Policy Evaluation

: Trajectory를 진행하면서 처음 만나는 State에 대해서만 Return, Value Function 사용(나중에 만나는 State는 Return과 Value Function에 사용하지 않는다)

→ Unbiased Estimator

Estimator 평가

방법 2. Every-Visit Monte Carlo(MC) On Policy Evaluation

→ 여러번 만난 State에 대한 Return을 전부 Value에 넣는다.

→ Biased Estimator

방법 3. Incremental Monte Carlo(MC) On Policy Evaluation

MC Policy Evaluation은

Algorithm 2.Temporal Difference Learning : 강화학습에서 중심이 되는 알고리즘 !!!!!!!

→ Monte Carlo + dynamic programming method

→ Model-free (MDP필요없다)

→ Can be used in episodic or infinite-horizon non-episodic settings

Temporal Difference [TD(0)] Learning

→ TD can learn before knowing the final outcome

→ TD can learn withour the final outcome

Algorithm 3. Certainty Equivalent Learning

: MDP를 알고 있지는 않지만, 샘플을 이용하여 Transition 모델과 Reward 모델을 학습하고, Planning 알고리즘 기존에 있던 DP 모델을 돌리는 것

→ Model Based

Model Free : 모델을 학습하지 않고 Policy Evaluation을 진행하거나, Policy를 찾아내는 알고리즘
예) MC, TD
Model Based : 기존의 샘플을 이용해서 모델을 학습하고 학습된 모델을 기반해서 강화학습 진행
예) Certainty Equivalent Learning

Properties of Algorithm for Evaluation

728x90