Similar to 近接方策最適化
Q学習
Q-learningSARSA法
State–action–reward–state–action強化学習
Reinforcement learning時間差分学習
Temporal difference learningID3
ID3 algorithmK近傍法
K-nearest neighbors algorithmEMアルゴリズム
Expectation–maximization algorithm拡散モデル
Diffusion model確率的勾配降下法
Stochastic gradient descent局所外れ値因子法
Local outlier factor再帰的自己改善
Recursive self-improvement単純ベイズ分類器
Naive Bayes classifierバギング
Bootstrap aggregatingバックプロパゲーション
Backpropagationエンドツーエンドの強化学習
End-to-end reinforcement learningDQN (コンピュータ)
人間のフィードバックによる強化学習
Reinforcement learning from human feedback