Функція цінності

Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі.^[1]^[2] У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t₁] при старті в момент часу t стану x(t)=x.^[3] Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості».^[4]^[5] В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.^[6]^[7]

У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При $(t_{0},x_{0})\in [0,t_{1}]\times \mathbb {R} ^{d}$ , типова задача оптимального керування полягає в

{\text{maximize}}\quad J(t_{0},x_{0};u)=\int _{t_{0}}^{t_{1}}I(t,x(t),u(t))\,\mathrm {d} t+\phi (x(t_{1}))

за умови, що

{\frac {\mathrm {d} x(t)}{\mathrm {d} t}}=f(t,x(t),u(t))

з початковим станом $x(t_{0})=x_{0}$ .^[8] Цільова функція $J(t_{0},x_{0};u)$ має бути максимізовано за всіма допустимими діями $u\in U[t_{0},t_{1}]$ , де $u$ є функцією вимірною за мірою Лебега, яка відображає інтервал $[t_{0},t_{1}]$ у визначену підмножину $\mathbb {R} ^{m}$ . Тоді функція цінності має вигляд

$V(t,x(t))=\max _{u\in U}\int _{t}^{t_{1}}I(\tau ,x(\tau ),u(\tau ))\,\mathrm {d} \tau +\phi (x(t_{1}))$

з $V(t_{1},x(t_{1}))=\phi (x(t_{1}))$ , де $\phi (x(t_{1}))$ — це «втрати». Якщо $(x^{\ast },u^{\ast })$ — це оптимальна пара векторів дій та станів, то $V(t_{0},x_{0})=J(t_{0},x_{0};u^{\ast })$ . Функція $h$ , яка повертає оптимальний вектор дій $u^{\ast }$ для стану $x$ називається функцією стратегії.^[9]

Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі $t$ , $t_{0}\leqslant t\leqslant t_{1}$ приймаючи поточний стан $x(t)$ за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою^[10], то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,

-{\frac {\partial V(t,x)}{\partial t}}=\max _{u}\left\{I(t,x,u)+{\frac {\partial V(t,x)}{\partial x}}f(t,x,u)\right\}

де максимум у правій частині також можна переписати як Гамільтоніан^[en],

$H\left(t,x,u,\lambda \right)=I(t,x,u)+\lambda (t)f(t,x,u)$ , як

-{\frac {\partial V(t,x)}{\partial t}}=\max _{u}H(t,x,u,\lambda )

з $\partial V(t,x)/\partial x=\lambda (t)$ відіграють роль спряжених змінних^[en].^[11] Враховуючи це, маємо $\mathrm {d} \lambda (t)/\mathrm {d} t=\partial ^{2}V(t,x)/\partial x\partial t+\partial ^{2}V(t,x)/\partial x^{2}\cdot f(x)$ , і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно $x$ рівняння має вигляд

-{\frac {\partial ^{2}V(t,x)}{\partial t\partial x}}={\frac {\partial I}{\partial x}}+{\frac {\partial ^{2}V(t,x)}{\partial x^{2}}}f(x)+{\frac {\partial V(t,x)}{\partial x}}{\frac {\partial f(x)}{\partial x}}

яке після заміни відповідних членів відновлює спряжене рівняння^[en]

-{\dot {\lambda }}(t)=\underbrace {{\frac {\partial I}{\partial x}}+\lambda (t){\frac {\partial f(x)}{\partial x}}} _{={\frac {\partial H}{\partial x}}}

де ${\dot {\lambda }}(t)$ це нотація Ньютона для похідної за часом.^[12]

Функція цінності є унікальним в'язкісним рішенням^[en] рівняння Гамільтона–Якобі–Беллмана.^[13] У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.^[14]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Функція цінності

Примітки

Подальше читання

Wikiwand - on