Add,/LG Aimers

[LG Aimers] 강화학습2 - Model-Free Policy Evaluation

싱브이 2023. 7. 27. 12:53
728x90
반응형

 

LG Aimers 학습 내용을 정리한 글입니다

 

 

 

상태와 보상과 같이 부분적으로 알고 있지, MDP를 전체적으로 알고 있는 경우는 없다. 

그런 샘플들만 주어지는 상황에서 문제를 어떻게 해결해 나갈 수 있을 것인가 → 강화학습 알고리즘의 본질

 

이전 강의 )

Return : 현재 Step에서 Horizon까지 감쇄된, Discount된 보상합

State Value Function : 보상합을 가지고 현재 State가 주어져 있을 때 오는 미래의 감쇄 보상합

State-Action Value Function : State action이 주어져 있을 때 기대되는 미래의 감쇄 보상합

 

Policy Evaluation

 : MDP에 관련된 실제 정보가 없을 경우 (전이모델(Transition Probability)과 보상모델(Reward) 관련된 정보가 없을 때) 정책의 예상되는 Return을 어떻게 계산할 것인가

 Algorithm 1. Monte Carlo(MC) Policy Evaluation

Value Function : Return의 평균값(현재 State에서 시작 했을 때의 평균값)

    → MDP의 전이모델이나 보상모델을 필요로 하지 않는다.

    → Markov 성징도 필요로 하지 않는다.

      단점 : Can only be applied to episodic MDPs (ends up in terminal state with probability 1)

 방법 1. First-Visit Monte Carlo(MC) In Policy Evaluation

          : Trajectory를 진행하면서 처음 만나는 State에 대해서만 Return, Value Function 사용(나중에 만나는 State는 Return과 Value Function에 사용하지 않는다)

→ Unbiased Estimator

 

더보기

Estimator 평가

 

 

 

 

 

 

 

 

방법 2. Every-Visit Monte Carlo(MC) On Policy Evaluation

          → 여러번 만난 State에 대한 Return을 전부 Value에 넣는다. 

→ Biased Estimator

 

  방법 3. Incremental Monte Carlo(MC) On Policy Evaluation

   

 

더보기

MC Policy Evaluation은

  • High variance estimator
  • Requires episodic settings

 

 

Algorithm 2.Temporal Difference Learning : 강화학습에서 중심이 되는 알고리즘 !!!!!!!

          → Monte Carlo + dynamic programming method

            Model-free (MDP필요없다)

            Can be used in episodic or infinite-horizon non-episodic settings

  Temporal Difference [TD(0)] Learning

          → TD can learn before knowing the final outcome

          → TD can learn withour the final outcome

 

 

 Algorithm 3. Certainty Equivalent Learning

          : MDP를 알고 있지는 않지만, 샘플을 이용하여 Transition 모델과 Reward 모델을 학습하고, Planning 알고리즘 기존에 있던 DP 모델을 돌리는 것

           Model Based

더보기
  • Model Free : 모델을 학습하지 않고 Policy Evaluation을 진행하거나, Policy를 찾아내는 알고리즘
    예) MC, TD
  • Model Based : 기존의 샘플을 이용해서 모델을 학습하고 학습된 모델을 기반해서 강화학습 진행
    예) Certainty Equivalent Learning

Properties of Algorithm for Evaluation

 

 

 

 

 

출처 : https://www.lgaimers.ai/ 

728x90
반응형