Рівняння Гамільтона — Якобі

У теорії оптимального управління рівняння Гамільтона — Якобі — Беллмана (HJB) дає необхідну та достатню умову оптимальності керування щодо функції втрат.^[1] Загалом це нелінійне диференціальне рівняння з частинними похідними у функції значення, що означає, що його розв'язком є сама функція значення. Як тільки цей розв'язок знайдено, його можна використовувати для отримання оптимального управління, взявши максимізер (або мінімізатор) гамільтоніан, що бере участь у рівнянні HJB.^[2]^[3]

Рівняння є результатом теорії динамічного програмування, яка була започаткована в 1950-х роках Річардом Беллманом та його колегами.^[4]^[5]^[6] Зв'язок із рівнянням Гамільтона–Якобі з класичної фізики вперше встановив Рудольф Кальман.^[7] У задачах з дискретним часом^[en] відповідне рекурентне співвідношення зазвичай називають рівнянням Беллмана.

Хоча класичні варіаційні задачі, такі як проблема брахістохрони, можна розв'язати за допомогою рівняння Гамільтона–Якобі–Беллмана,^[8] цей метод можна застосувати до більш широкого спектру задач. Далі його можна узагальнити на стохастичні системи, у цьому випадку рівняння HJB є еліптичним диференціальним рівнянням у частинних похідних другого порядку.^[9] Головним недоліком, однак, є те, що рівняння HJB допускає класичні рішення лише для достатньо гладкої функції значення, що не гарантується в більшості ситуацій. Натомість потрібне поняття в'язкісного рішення^[en], в якому звичайні похідні замінюються (з заданим значенням) підпохідними.^[10]

Remove ads

Проблеми оптимального управління

Узагальнити

Перспектива

Розглянемо наступну задачу детермінованого оптимального управління за період часу $[0,T]$ :

V_{T}(x(0),0)=\min _{u}\left\{\int _{0}^{T}C[x(t),u(t)]\,dt+D[x(T)]\right\}

де $C[\cdot ]$ — скалярна функція норми втрат і $D[\cdot ]$ є функцією, яка дає успадковану цінність^[en] у кінцевому стані, $x(t)$ — вектор стану системи, $x(0)$ передбачається даним, і $u(t)$ для $0\leq t\leq T$ — це вектор управління, який ми намагаємося знайти.

Система також повинна підпорядковуватися

{\dot {x}}(t)=F[x(t),u(t)]\,

де $F[\cdot ]$ дає вектор, що визначає фізичну зміну вектора стану з часом.

Remove ads

Диференціальне рівняння з частинними похідними

Узагальнити

Перспектива

Для цієї простої системи (нехай $V=V_{T}$ ), диференціальне рівняння з частинними похідними Гамільтона–Якобі–Беллмана представляє собою

{\frac {\partial V(x,t)}{\partial t}}+\min _{u}\left\{{\frac {\partial V(x,t)}{\partial x}}\cdot F(x,u)+C(x,u)\right\}=0

залежно від термінальної умови

V(x,T)=D(x),\,

Невідомий скаляр $V(x,t)$ у наведеному вище диференціальному рівнянні з частинними похідними є функцієї цінності Беллмана, яка представляє втрати, понесені від початку роботи в стані $x$ під час $t$ і оптимальне управління системою з тих пір і до часу $T$ .

Remove ads

Виведення рівняння

Узагальнити

Перспектива

Інтуїтивно рівняння HJB можна вивести наступним чином. Якщо $V(x(t),t)$ є оптимальною функцією втрат на доставку (також званою «функцією цінності»), то відповідно до принципу оптимальності Річарда Беллмана, переходячи від часу t до t + dt, маємо

V(x(t),t)=\min _{u}\left\{V(x(t+dt),t+dt)+\int _{t}^{t+dt}C(x(s),u(s))\,ds\right\}.

Зауважте, що розкладання Тейлора першого члена в правій частині є

V(x(t+dt),t+dt)=V(x(t),t)+{\frac {\partial V(x,t)}{\partial t}}\,dt+{\frac {\partial V(x,t)}{\partial x}}\cdot {\dot {x}}(t)\,dt+{\mathcal {o}}(dt),

де ${\mathcal {o}}(dt)$ позначає елементи в розкладанні Тейлора вищого порядку за одиницю у нотації з маленьким о. Тоді, якщо відняти $V(x(t),t)$ з обох сторін, поділити на dt і знайти границю, коли dt наближається до нуля, то ми отримуємо рівняння HJB, визначене вище.

Remove ads

Розв'язування рівняння

Узагальнити

Перспектива

Рівняння HJB зазвичай розв'язується у зворотному напрямку в часі, починаючи з $t=T$ і закінчується на $t=0$ .

При розв'язанні на всьому просторі станів $V(x)$ є безперервно диференційованою, рівняння HJB є необхідною та достатньою умовою оптимуму, коли кінцевий стан є необмеженим.^[11] Якщо ми зможемо вирішити $V$ , то матимемо змогу знайти з нього елемент управління $u$ , що забезпечує мінімальну вартість (цінність).

У загальному випадку рівняння HJB не має класичного (гладкого) розв'язку. Для охоплення таких ситуацій було розроблено кілька понять про узагальнені рішення, включаюч в'язкісне рішення (П'єр-Луї Лайонс і Майкл Крендалл^[en]),^[12] мінімаксне рішення (Андрій Ізмаїлович Субботін^[ru]), та інші.

Наближене динамічне програмування було введено Д. П. Берцекасом^[en] та Дж. Цициклісом^[en] із використанням штучних нейронних мереж (багатошарових персептронів) для апроксимації функції Беллмана в цілому.^[13] Це ефективна стратегія пом'якшення для зменшення впливу розмірності шляхом заміни запам'ятовування повного відображення функцій для всієї просторової області запам'ятовуванням окремих параметрів нейронної мережі. Зокрема, для систем безперервного часу введено наближений підхід динамічного програмування, який поєднує обидва ітераційних підходи з нейронними мережами.^[14] У дискретному часі було введено підхід до вирішення рівняння HJB, що поєднує ітерації значень і нейронні мережі.^[15]

Крім того, було показано, що оптимізація суми квадратів^[en] може дати наближений поліноміальний розв'язок рівняння Гамільтона-Якобі-Беллмана довільно добре по відношенню до $L^{1}$ норми.^[16]

Ідею вирішення задачі управління шляхом застосування з подальшою розробкою стратегії оптимізації назад у часі можна узагальнити на стохастичні задачі управління. Розглянемо

\min _{u}\mathbb {E} \left\{\int _{0}^{T}C(t,X_{t},u_{t})\,dt+D(X_{T})\right\}

де $(X_{t})_{t\in [0,T]}\,\!$ є стохастичним процесом для оптимізації та $(u_{t})_{t\in [0,T]}\,\!$ є управлінням. Спочатку використавши принцип оптимальності Беллмана, а потім розширивши $V(X_{t},t)$ за правилом Іто, можна знайти стохастичне рівняння HJB

\min _{u}\left\{{\mathcal {A}}V(x,t)+C(t,x,u)\right\}=0,

де ${\mathcal {A}}$ представляє стохастичний оператор диференціювання^[en], і підлягає термінальній умові

V(x,T)=D(x)\,\!.

Зауважте, що випадковість зникла. В даному випадку останнє рішення $V\,\!$ не обов'язково вирішує основну задачу, воно є лише кандидатом і потрібен додатковий перевіряючий аргумент. Цей метод широко використовується у фінансовій математиці для визначення оптимальних інвестиційних стратегій на ринку (див., наприклад, проблему портфеля Мертона^[en]).

Застосування до LQG Control

Як приклад можна розглянути систему з лінійною стохастичною динамікою та квадратичною вартістю. Якщо динаміка системи задана

dx_{t}=(ax_{t}+bu_{t})dt+\sigma dw_{t},

і вартість накопичується зі швидкістю $C(x_{t},u_{t})=r(t)u_{t}^{2}/2+q(t)x_{t}^{2}/2$ , рівняння HJB задається як

-{\frac {\partial V(x,t)}{\partial t}}={\frac {1}{2}}q(t)x^{2}+{\frac {\partial V(x,t)}{\partial x}}ax-{\frac {b^{2}}{2r(t)}}\left({\frac {\partial V(x,t)}{\partial x}}\right)^{2}+{\frac {\sigma ^{2}}{2}}{\frac {\partial ^{2}V(x,t)}{\partial x^{2}}}.

з оптимальною дією, заданою

u_{t}=-{\frac {b}{r(t)}}{\frac {\partial V(x,t)}{\partial x}}

Прийнявши квадратичну форму для функції значення, ми отримуємо звичайне рівняння Ріккаті для гесіана функції значення, як це зазвичай відбувається для лінійно-квадратично-гауссового управління^[en].

Remove ads

Див. також

Рівняння Беллмана, аналог рівняння Гамільтона–Якобі–Беллмана з дискретним часом.
Принцип максимуму Понтрягіна, необхідна, але не достатня умова для оптимуму, шляхом максимізації гамільтоніана, але він має перевагу над HJB, оскільки його необхідно задовольнити лише на одній розглянутій траєкторії.

Посилання

Loading content...

Бібліографія

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads