Similar to 分布ソフト・アクター・クリティック法
Q学習
Q-learningSARSA法
State–action–reward–state–action強化学習
Reinforcement learning時間差分学習
Temporal difference learning近接方策最適化
Proximal policy optimizationID3
ID3 algorithmK近傍法
K-nearest neighbors algorithmEMアルゴリズム
Expectation–maximization algorithm拡散モデル
Diffusion model確率的勾配降下法
Stochastic gradient descent局所外れ値因子法
Local outlier factor再帰的自己改善
Recursive self-improvement単純ベイズ分類器
Naive Bayes classifierバギング
Bootstrap aggregatingバックプロパゲーション
Backpropagationエンドツーエンドの強化学習
End-to-end reinforcement learningDQN (コンピュータ)
人間のフィードバックによる強化学習
Reinforcement learning from human feedbackモデルフリー (強化学習)
Model-free (reinforcement learning)