Échantillonnage de Thompson
Algorithme pour résoudre le dilemme exploration-exploitation dans le problème de bandits à K bras / De Wikipedia, l'encyclopédie encyclopedia
Cher Wikiwand IA, Faisons court en répondant simplement à ces questions clés :
Pouvez-vous énumérer les principaux faits et statistiques sur Échantillonnage de Thompson?
Résumez cet article pour un enfant de 10 ans
AFFICHER TOUTES LES QUESTIONS
L'échantillonnage de Thompson [1],[2] nommé d'après William R. Thompson, est un algorithme heuristique permettant de choisir des actions qui résolvent le dilemme exploration-exploitation dans le problème des bandits à K bras. Elle consiste à choisir l'action qui maximise la récompense attendue par rapport à une croyance tirée au hasard.