Топ питань
Часова шкала
Чат
Перспективи
Безмодельне навчання
З Вікіпедії, вільної енциклопедії
Remove ads
У навчанні з підкріпленням безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, який не використовує розподіл ймовірностей переходу і функцію винагороди,[1] що пов'язані з Марковським процесом вирішування (МПВ), відображаючим необхідну для розв'язання проблему. Розподіл ймовірностей переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або МПВ), звідси й назва «безмодельний». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм спроб і помилок.[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.
Remove ads
Основні алгоритми безмодельного навчання з підкріпленням
Remove ads
Примітки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads