본문 바로가기
Add,/LG Aimers

[LG Aimers] 강화학습5 - Deep Q Learning

by 싱브이 2023. 7. 29.
728x90
반응형

 

LG Aimers 학습 내용을 정리한 글입니다.

 

 

Last lecture :

   Value Function Approximation 

      - value function approximation을 이용한 approximate policy evaluation

      - ε-greedy policy improvement를 반복

      - Can be unstable, function approximation/boorstrapping/off-policy learning

   RL with function approximation

      - linear value function approximation을 쓰면 value function이 feature의 linear combination이고, feature는 state function.

 

Deep Neural Networks(DNN)

   - Classifier들이 이루는 function들을 composition한 형태 

   - chain rule을 이용하여 gradient를 backpropagate할 수 있다.

   - distributed representations

   - 충분히 많은 뉴런만 있으면 모든 함수를 appriximate할 수 있다. 

   - shallow network에 비유해서 deep layer를 쌓아 갈수록 exponential하게 기하급수적으로 적은 뉴런의 개수를 필요로 한다.

   - stochastic gradient descent(SGD)를 이용하여 parameter 학습한다.  

 -> 손으로 feature set을 디자인해야하는 VFA의 단점을 극복할 수 있다.

 

Convolutional NN

   : pooling과 convolution 연산을 반복적으로 진행함으로써 일반적인 fully connected neural network보다 훨씬 더 적은 parameter 개수로 효율적인 feature의 extraction이 가능하게 된다.  

 

Deep RL in ATARI

   - pixels s부터 end-to-end로 learning 

   - input : image(네 개의 프레임을 stack),output :  Q(s,a) for 18개

 

DQNs

   1. Experience Replay : sample들 사이에 correlation을 없애는 것 ( 기존의 경험들을 replay buffer(dataset)에 저장하고, 매번 트레이닝은 방금 전에 샘플 된 experience가 아니라 기존에 replay buffer에서 하나를 골라서 이것을 통해 트레이닝을 한다.)

      - Behavior policy에서 action 뽑고 experience를 완성한 다음에 replay buffer에 넣고, 이거와 상관없이 dataset에서 replay buffer에서 experience를 하나 뽑아서 그것으로 w를 update.

   2. Fixed A-Targets : target이 nonstationary한 (target이 w에 dependent한) 문제 해결.  → target의 weight를 고정

DQN 수도코드 

 

 

성능향상 

1. Double DQN(DDQN)

   - overestimation을 막는다. 

2. replay buffer에서 replay를 뽑을 때, TD learning에서 update를 어떤 순서대로 하는지에서 영향을 받는다.

   - Prioritized Experience Replay :  DQN error(TD error)가 클 수록 학습이 좋아질 수 있는 여지가 많다. 

3. Dueling DQN

 

 

 

출처 : https://www.lgaimers.ai/ 

728x90
반응형

댓글