본문 바로가기
Add,/LG Aimers

[LG Aimers] 강화학습2 - Model-Free Policy Evaluation

by 싱브이 2023. 7. 27.
728x90
반응형

 

LG Aimers 학습 내용을 정리한 글입니다

 

 

 

상태와 보상과 같이 부분적으로 알고 있지, MDP를 전체적으로 알고 있는 경우는 없다. 

그런 샘플들만 주어지는 상황에서 문제를 어떻게 해결해 나갈 수 있을 것인가 → 강화학습 알고리즘의 본질

 

이전 강의 )

Return : 현재 Step에서 Horizon까지 감쇄된, Discount된 보상합

State Value Function : 보상합을 가지고 현재 State가 주어져 있을 때 오는 미래의 감쇄 보상합

State-Action Value Function : State action이 주어져 있을 때 기대되는 미래의 감쇄 보상합

 

Policy Evaluation

 : MDP에 관련된 실제 정보가 없을 경우 (전이모델(Transition Probability)과 보상모델(Reward) 관련된 정보가 없을 때) 정책의 예상되는 Return을 어떻게 계산할 것인가

 Algorithm 1. Monte Carlo(MC) Policy Evaluation

Value Function : Return의 평균값(현재 State에서 시작 했을 때의 평균값)

    → MDP의 전이모델이나 보상모델을 필요로 하지 않는다.

    → Markov 성징도 필요로 하지 않는다.

      단점 : Can only be applied to episodic MDPs (ends up in terminal state with probability 1)

 방법 1. First-Visit Monte Carlo(MC) In Policy Evaluation

          : Trajectory를 진행하면서 처음 만나는 State에 대해서만 Return, Value Function 사용(나중에 만나는 State는 Return과 Value Function에 사용하지 않는다)

→ Unbiased Estimator

 

더보기

Estimator 평가

 

 

 

 

 

 

 

 

방법 2. Every-Visit Monte Carlo(MC) On Policy Evaluation

          → 여러번 만난 State에 대한 Return을 전부 Value에 넣는다. 

→ Biased Estimator

 

  방법 3. Incremental Monte Carlo(MC) On Policy Evaluation

   

 

더보기

MC Policy Evaluation은

  • High variance estimator
  • Requires episodic settings

 

 

Algorithm 2.Temporal Difference Learning : 강화학습에서 중심이 되는 알고리즘 !!!!!!!

          → Monte Carlo + dynamic programming method

            Model-free (MDP필요없다)

            Can be used in episodic or infinite-horizon non-episodic settings

  Temporal Difference [TD(0)] Learning

          → TD can learn before knowing the final outcome

          → TD can learn withour the final outcome

 

 

 Algorithm 3. Certainty Equivalent Learning

          : MDP를 알고 있지는 않지만, 샘플을 이용하여 Transition 모델과 Reward 모델을 학습하고, Planning 알고리즘 기존에 있던 DP 모델을 돌리는 것

           Model Based

더보기
  • Model Free : 모델을 학습하지 않고 Policy Evaluation을 진행하거나, Policy를 찾아내는 알고리즘
    예) MC, TD
  • Model Based : 기존의 샘플을 이용해서 모델을 학습하고 학습된 모델을 기반해서 강화학습 진행
    예) Certainty Equivalent Learning

Properties of Algorithm for Evaluation

 

 

 

 

 

출처 : https://www.lgaimers.ai/ 

728x90
반응형

댓글