Similar to エンドツーエンドの強化学習

時間差分学習
Temporal difference learning
DQN (コンピュータ)

人間のフィードバックによる強化学習
Reinforcement learning from human feedback
ベイズ強化学習

モデルフリー (強化学習)
Model-free (reinforcement learning)
分布ソフト・アクター・クリティック法
Distributional Soft Actor Critic
近接方策最適化
Proximal policy optimization