Топ питань
Часова шкала
Чат
Перспективи

Безмодельне навчання

З Вікіпедії, вільної енциклопедії

Remove ads

У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.

Remove ads

Основні алгоритми безмодельного навчання з підкріпленням

Більше інформації Алгоритм, Опис ...
Remove ads

Примітки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads