LG Aimers 학습 내용을 정리한 글입니다.
Last lecture :
Value Function Approximation
- value function approximation을 이용한 approximate policy evaluation
- ε-greedy policy improvement를 반복
- Can be unstable, function approximation/boorstrapping/off-policy learning
RL with function approximation
- linear value function approximation을 쓰면 value function이 feature의 linear combination이고, feature는 state function.
Deep Neural Networks(DNN)
- Classifier들이 이루는 function들을 composition한 형태
- chain rule을 이용하여 gradient를 backpropagate할 수 있다.
- distributed representations
- 충분히 많은 뉴런만 있으면 모든 함수를 appriximate할 수 있다.
- shallow network에 비유해서 deep layer를 쌓아 갈수록 exponential하게 기하급수적으로 적은 뉴런의 개수를 필요로 한다.
- stochastic gradient descent(SGD)를 이용하여 parameter 학습한다.
-> 손으로 feature set을 디자인해야하는 VFA의 단점을 극복할 수 있다.
Convolutional NN
: pooling과 convolution 연산을 반복적으로 진행함으로써 일반적인 fully connected neural network보다 훨씬 더 적은 parameter 개수로 효율적인 feature의 extraction이 가능하게 된다.
Deep RL in ATARI
- pixels s부터 end-to-end로 learning
- input : image(네 개의 프레임을 stack),output : Q(s,a) for 18개
DQNs
1. Experience Replay : sample들 사이에 correlation을 없애는 것 ( 기존의 경험들을 replay buffer(dataset)에 저장하고, 매번 트레이닝은 방금 전에 샘플 된 experience가 아니라 기존에 replay buffer에서 하나를 골라서 이것을 통해 트레이닝을 한다.)
- Behavior policy에서 action 뽑고 experience를 완성한 다음에 replay buffer에 넣고, 이거와 상관없이 dataset에서 replay buffer에서 experience를 하나 뽑아서 그것으로 w를 update.
2. Fixed A-Targets : target이 nonstationary한 (target이 w에 dependent한) 문제 해결. → target의 weight를 고정
DQN 수도코드
성능향상
1. Double DQN(DDQN)
- overestimation을 막는다.
2. replay buffer에서 replay를 뽑을 때, TD learning에서 update를 어떤 순서대로 하는지에서 영향을 받는다.
- Prioritized Experience Replay : DQN error(TD error)가 클 수록 학습이 좋아질 수 있는 여지가 많다.
3. Dueling DQN
'Add, > LG Aimers' 카테고리의 다른 글
[LG Aimers] Deep Neural Networks 딥러닝1 - DNN (0) | 2023.07.30 |
---|---|
[LG Aimers] 강화학습6 - Policy Gradient (0) | 2023.07.29 |
[LG Aimers] 강화학습4 - Function Approximation (0) | 2023.07.28 |
[LG Aimers] 강화학습3 - Model-Free Control (0) | 2023.07.27 |
[LG Aimers] 강화학습2 - Model-Free Policy Evaluation (0) | 2023.07.27 |
댓글