Similar to 人間のフィードバックによる強化学習
SARSA法
State–action–reward–state–actionエンドツーエンドの強化学習
End-to-end reinforcement learning時間差分学習
Temporal difference learningベイズ強化学習
モデルフリー (強化学習)
Model-free (reinforcement learning)分布ソフト・アクター・クリティック法
Distributional Soft Actor Critic近接方策最適化
Proximal policy optimization人工知能
Artificial intelligence▼-1 trendsTemplate:主な人工知能
Template:Generative AIAI JIMY Converter
AI JIMY Paperbot
Apple Intelligence
Apple IntelligenceCopilotキー
Copilot keyDABUS
DABUSDirectML
DyNet
FIELD system
Google AI
Google AIGPTs
ID3
ID3 algorithmJabberwacky
JabberwackyLogic Theorist
Logic TheoristMistral AI
Mistral AIMNISTデータベース
MNIST databaseNovelAI
NovelAIOpen Neural Network Exchange
Open Neural Network ExchangeOpenAI o1
OpenAI o1PARRY
PARRY