jam 블로그

[강화 학습] 1990년 이후 강화학습 관련 모델이나 기법 본문

인공지능

[강화 학습] 1990년 이후 강화학습 관련 모델이나 기법

kid1412 2023. 2. 27. 21:07
728x90

Q-Learning (1992): 이후 강화학습 분야의 대표적인 알고리즘 중 하나인 Q-Learning이 Watkins와 Dayan에 의해 제안됨. [논문: "Q-Learning", 1992]

 

TD-Gammon (1995): 텐니스 게임에서의 자가 학습을 통해 세계 챔피언을 이긴 최초의 강화학습 모델인 TD-Gammon이 제안됨. [논문: "Temporal Difference Learning of Backgammon Strategy", 1995]

 

DQN (2013): DeepMind에서 개발된 Deep Q-Network(DQN)은 딥러닝을 강화학습에 적용한 첫번째 모델로, Atari 게임에서 인간 수준의 성능을 보임. [논문: "Playing Atari with Deep Reinforcement Learning", 2013]

 

Actor-Critic (2016): 대표적인 강화학습 알고리즘 중 하나인 Actor-Critic은 신경망 모델을 사용하여 정책(policy)과 가치함수(value function)를 동시에 학습하는 방식으로 구현됨. [논문: "Asynchronous Methods for Deep Reinforcement Learning", 2016]

AlphaGo (2016): 구글 딥마인드 팀에서 개발한 인공지능 기반의 바둑 프로그램으로, 강화학습, 신경망, 몬테카를로 트리 탐색 등의 기술을 사용하여 이세돌 9단과 대국을 했을 때 4승 1패의 기록을 달성하는 등 바둑 역사상 최초로 프로 수준의 기량을 보여주었다. AlphaGo의 성공은 인공지능의 발전에 큰 기여를 하였으며, 이후 알파고 제로와 알파제로 등 다양한 알파고 시리즈가 개발되어 대표적인 강화학습 모델로 자리 잡았다. [논문: "Mastering the Game of Go with Deep Neural Networks and Tree Search", 2016]

Dueling DQN (2016): 강화학습 분야에서 딥러닝 모델을 사용하여 Atari 게임에서 인간 수준의 성능을 보인 첫 모델 중 하나인 Dueling DQN이 소개됨. [논문: "Dueling Network Architectures for Deep Reinforcement Learning", 2016]

 

Rainbow (2017): 다양한 강화학습 모델의 장점을 합친 Rainbow가 발표되어 Atari 게임에서 최고 성능을 달성함. [논문: "Rainbow: Combining Improvements in Deep Reinforcement Learning", 2017]

 

Proximal Policy Optimization (PPO) (2017): OpenAI에서 제안한 Proximal Policy Optimization(PPO)은 안정적인 정책 최적화 알고리즘으로, Atari 게임과 로봇 제어 문제에서 우수한 성능을 보임. [논문: "Proximal Policy Optimization Algorithms", 2017]

 

Soft Actor-Critic (SAC) (2018): 연속적인 행동 공간(Continuous Action Space)에서 안정적인 학습을 위해 제안된 SAC는 안정적이면서도 높은 성능을 보이는 대표적인 알고리즘 중 하나임. [논문: "Soft Actor-Critic Algorithms and Applications", 2018]

 

AlphaZero (2018): 딥러닝을 이용한 강화학습 알고리즘의 한계를 극복한 AlphaZero는, 오로지 게임 규칙만을 입력으로 받아 최적의 전략을 스스로 학습하고, 세계 최고 수준의 바둑, 장기, 체스 선수들을 이길 정도의 실력을 보임. [논문: "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm", 2018]

 

RL^2 (2018): 강화학습을 위한 메타-러닝 방법인 RL^2는, 새로운 태스크를 빠르게 학습할 수 있는 강화학습 모델을 학습하는 모델로, 최신 연구 주제 중 하나임. [논문: "Meta-Learning with Reinforcement Learning", 2018]

 

A3C (2018): Asynchronous Advantage Actor-Critic(A3C)은 비동기적으로 여러 환경에서 학습하는 방식으로, 실시간으로 대규모 데이터를 학습할 수 있음. [논문: "Asynchronous Methods for Deep Reinforcement Learning", 2018]

 

RAINBOW (2018): Google DeepMind에서 제안한 RAINBOW는 다양한 강화학습 알고리즘들을 융합하여 개발한 모델로, Atari 게임에서 DQN보다 더욱 높은 성능을 보임. [논문: "Rainbow: Combining Improvements in Deep Reinforcement Learning", 2018]

 

World Models (2019): 강화학습 모델에 베이지안 네트워크와 생성모델을 결합하여 게임에서 좋은 성능을 보이는 World Models가 소개됨. [논문: "World Models", 2019]

 

PlaNet (2019): Model-based 강화학습 알고리즘인 PlaNet은 모델 학습에 Variational Auto-Encoder(VAE)를 사용하여 높은 성능을 보이며, 예측 정확도가 높아서 몇몇 문제에서는 Model-Free 알고리즘과 견줄만한 성능을 보인다. 또한, 비교적 적은 수의 환경 탐색으로도 높은 성능을 얻을 수 있는 장점이 있다. [논문: "Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction", 2019]

 

MuZero (2019): 일반 게임과 바둑, 체스 등의 게임에서 뛰어난 성능을 보이는 모델로, 강화학습, 자가 대국, 신경망 등의 기술을 활용하여 구현되었다. MuZero는 특히 게임에 대한 사전 지식 없이도 학습 가능하며, 게임 상태의 내부 모델을 학습하여 미래의 게임 상태를 예측하여 최적의 행동을 결정한다. [논문: "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", 2019]

 

D4RL (2020): 데이터셋 구축 및 평가를 위한 강화학습 벤치마크인 D4RL(Dataset for Deep Data-Driven Reinforcement Learning)이 소개됩니다. [논문: "D4RL: Datasets for Deep Data-Driven Reinforcement Learning", 2020]

DreamerV2 (2021): 자기 대국과 같은 높은 차원의 문제를 해결하기 위한 강화학습 알고리즘인 DreamerV2가 소개됩니다. [논문: "DreamerV2: Deep Reinforcement Learning for Vision-Based Robotic Manipulation with Latent Imagination", 2021]

MOReL (2021): 도메인 어댑티브 강화학습을 위한 모델 기반 강화학습 알고리즘인 MOReL(Model-Based Offline Reinforcement Learning)이 소개됩니다. [논문: "MOReL: Model-Based Offline Reinforcement Learning for Non-Stationary Environments", 2021]

 

Muzero General (2021): MuZero 모델을 보완한 Muzero General이 발표되었다. Muzero General은 MuZero와 같이 게임에서 높은 성능을 보이지만, 훨씬 더 광범위한 문제에 적용할 수 있다. [논문: "Muzero General: A Generalized Framework for Offline Planning", 2021]

R2D2 (2022): 대규모 분산 강화학습 시스템인 R2D2(Rollout2Distibuted Deep Reinforcement Learning)이 소개됩니다. [논문: "R2D2: Rollout2Distibuted Deep Reinforcement Learning for Large-Scale Multi-Agent Environments", 2022]

Comments