Discussion:Temporal difference learning

Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Article incohérent : <<Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.>> : donc il n'y a pas de "modèle". Puis << Ces méthodes échantillonnent l'environnement de manière aléatoire, à la manière des méthodes de Monte Carlo et mettent à jour leur modèle>> : donc il y a un modèle. Pourriez vous expliquer? Merci

Démarrer une discussion sur Temporal difference learning

Démarrer une discussion
Revenir à la page « Temporal difference learning ».