Топ питань
Часова шкала
Чат
Перспективи

Функція цінності

З Вікіпедії, вільної енциклопедії

Remove ads

Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі.[1][2] У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t1] при старті в момент часу t стану x(t)=x.[3] Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості».[4][5] В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.[6][7]

У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При , типова задача оптимального керування полягає в

за умови, що

з початковим станом .[8] Цільова функція має бути максимізовано за всіма допустимими діями , де є функцією вимірною за мірою Лебега, яка відображає інтервал у визначену підмножину . Тоді функція цінності має вигляд

з , де  — це «втрати». Якщо  — це оптимальна пара векторів дій та станів, то . Функція , яка повертає оптимальний вектор дій для стану називається функцією стратегії.[9]

Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі , приймаючи поточний стан за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою[10], то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,

де максимум у правій частині також можна переписати як Гамільтоніан[en],

, як

з відіграють роль спряжених змінних[en].[11] Враховуючи це, маємо , і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно рівняння має вигляд

яке після заміни відповідних членів відновлює спряжене рівняння[en]

де це нотація Ньютона для похідної за часом.[12]

Функція цінності є унікальним в'язкісним рішенням[en] рівняння Гамільтона–Якобі–Беллмана.[13] У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.[14]

Remove ads

Примітки

Подальше читання

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads