[LG Aimers] 강화학습5 - Deep Q Learning

728x90

LG Aimers 학습 내용을 정리한 글입니다.

Last lecture :

Value Function Approximation

- value function approximation을 이용한 approximate policy evaluation

- ε-greedy policy improvement를 반복

- Can be unstable, function approximation/boorstrapping/off-policy learning

RL with function approximation

- linear value function approximation을 쓰면 value function이 feature의 linear combination이고, feature는 state function.

Deep Neural Networks(DNN)

- Classifier들이 이루는 function들을 composition한 형태

- chain rule을 이용하여 gradient를 backpropagate할 수 있다.

- distributed representations

- 충분히 많은 뉴런만 있으면 모든 함수를 appriximate할 수 있다.

- shallow network에 비유해서 deep layer를 쌓아 갈수록 exponential하게 기하급수적으로 적은 뉴런의 개수를 필요로 한다.

- stochastic gradient descent(SGD)를 이용하여 parameter 학습한다.

-> 손으로 feature set을 디자인해야하는 VFA의 단점을 극복할 수 있다.

Convolutional NN

: pooling과 convolution 연산을 반복적으로 진행함으로써 일반적인 fully connected neural network보다 훨씬 더 적은 parameter 개수로 효율적인 feature의 extraction이 가능하게 된다.

Deep RL in ATARI

- pixels s부터 end-to-end로 learning

- input : image(네 개의 프레임을 stack),output : Q(s,a) for 18개

DQNs

1. Experience Replay : sample들 사이에 correlation을 없애는 것 ( 기존의 경험들을 replay buffer(dataset)에 저장하고, 매번 트레이닝은 방금 전에 샘플 된 experience가 아니라 기존에 replay buffer에서 하나를 골라서 이것을 통해 트레이닝을 한다.)

- Behavior policy에서 action 뽑고 experience를 완성한 다음에 replay buffer에 넣고, 이거와 상관없이 dataset에서 replay buffer에서 experience를 하나 뽑아서 그것으로 w를 update.

2. Fixed A-Targets : target이 nonstationary한 (target이 w에 dependent한) 문제 해결. → target의 weight를 고정

DQN 수도코드

성능향상

1. Double DQN(DDQN)

- overestimation을 막는다.

2. replay buffer에서 replay를 뽑을 때, TD learning에서 update를 어떤 순서대로 하는지에서 영향을 받는다.

- Prioritized Experience Replay : DQN error(TD error)가 클 수록 학습이 좋아질 수 있는 여지가 많다.

3. Dueling DQN

출처 : https://www.lgaimers.ai/

728x90

'Add, > LG Aimers' 카테고리의 다른 글

[LG Aimers] Deep Neural Networks 딥러닝1 - DNN (0)	2023.07.30
[LG Aimers] 강화학습6 - Policy Gradient (0)	2023.07.29
[LG Aimers] 강화학습4 - Function Approximation (0)	2023.07.28
[LG Aimers] 강화학습3 - Model-Free Control (0)	2023.07.27
[LG Aimers] 강화학습2 - Model-Free Policy Evaluation (0)	2023.07.27

알쓸싱잡

[LG Aimers] 강화학습5 - Deep Q Learning

'Add, > LG Aimers' 카테고리의 다른 글

댓글

티스토리툴바

[LG Aimers] 강화학습5 - Deep Q Learning

'Add, > LG Aimers' 카테고리의 다른 글

관련글

댓글

티스토리툴바