Category:強化学習
人間のフィードバックによる強化学習
Reinforcement learning from human feedbackQ学習
Q-learning時間差分学習
Temporal difference learningエンドツーエンドの強化学習
End-to-end reinforcement learning近接方策最適化
Proximal policy optimizationSARSA法
State–action–reward–state–actionDQN (コンピュータ)
ベイズ強化学習
モデルフリー (強化学習)
Model-free (reinforcement learning)分布ソフト・アクター・クリティック法
Distributional Soft Actor Critic強化学習
Reinforcement learning階層型強化学習