Similar to 分布ソフト・アクター・クリティック法

Q学習
Q-learning
SARSA法
State–action–reward–state–action
強化学習
Reinforcement learning
時間差分学習
Temporal difference learning
近接方策最適化
Proximal policy optimization
ID3
ID3 algorithm
K近傍法
K-nearest neighbors algorithm
EMアルゴリズム
Expectation–maximization algorithm
ガウシアン・スプラッティング
Gaussian splatting
拡散モデル
Diffusion model確率的勾配降下法
Stochastic gradient descent
局所外れ値因子法
Local outlier factor
再帰的自己改善
Recursive self-improvement
単純ベイズ分類器
Naive Bayes classifier
バギング
Bootstrap aggregating
バックプロパゲーション
Backpropagation
非負値行列因子分解
Non-negative matrix factorization
オンライン学習
Online machine learning
ニューラル・ラディアンス・フィールド
Neural radiance field
エンドツーエンドの強化学習
End-to-end reinforcement learning
階層型強化学習

DQN (コンピュータ)

人間のフィードバックによる強化学習
Reinforcement learning from human feedback
ベイズ強化学習

モデルフリー (強化学習)
Model-free (reinforcement learning)