Processus de décision markovien partiellement observable

En théorie de la décision et de la théorie des probabilités, un processus de décision markovien partiellement observable (POMDP^[1] pour partially observable Markov decision process) est une généralisation d'un processus de décision markoviens (MDP pour Markov decision process). Comme dans un MDP, l'effet des actions est incertain mais, contrairement à ce qui se passe pour un MDP, l'agent n'a qu'une information partielle de l'état courant. Les POMDP sont des modèles de Markov cachés (HMM pour hidden Markov model) particuliers, dans lesquels on dispose d'actions probabilistes. Le tableau suivant montre la place des POMDP dans la famille des processus de décision^[2] :

Davantage d’informations aucun contrôle des transitions (i.e. pas de noms d'actions), contrôle des transitions (i.e. avec des noms d'actions) ...


	aucun contrôle des transitions (i.e. pas de noms d'actions)	contrôle des transitions (i.e. avec des noms d'actions)
états observables	Chaînes de Markov	MDP
états partiellement observables	HMM	POMDP

Fermer

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Les modèles de cette famille sont, entre autres, utilisés en intelligence artificielle pour le contrôle de systèmes complexes comme des agents intelligents.

[1]

[2]