Лучшие вопросы
Таймлайн
Чат
Перспективы

Уравнение Гамильтона — Якоби — Беллмана

Из Википедии, свободной энциклопедии

Remove ads

Уравнение Гамильтона — Якоби — Беллмана — дифференциальное уравнение в частных производных, играющее центральную роль в теории оптимального управления. Решением уравнения является функция значения (англ. value function), которая даёт оптимальное значение для управляемой динамической системы с заданной функцией цены.

Если уравнения Гамильтона — Якоби — Беллмана решаются в какой-то части пространства, они играют роль необходимого условия; при решении во всём пространстве они также становятся достаточным условием для оптимального решения. Методика может быть также применена к стохастическим системам.

Классические вариационные задачи (например, задача о брахистохроне) могут быть решены с использованием этого метода.

Уравнение является результатом развития теории динамического программирования, первопроходцем которой является Ричард Беллман и его сотрудники.[1]

Соответствующее уравнение с дискретным временем называется просто уравнением Беллмана. При рассмотрении задачи с непрерывным временем полученные уравнения могут рассматриваться как продолжение более ранних работ в области теоретической физики, связанных с уравнением Гамильтона — Якоби.

Remove ads

Задачи оптимального управления

Суммиров вкратце
Перспектива

Рассмотрим следующую задачу оптимального управления на промежутке времени :

где С и D — функции стоимости, определяющие соответственно интегральную и терминальную часть функционала. x(t) — вектор, определяющий состояние системы в каждый момент времени. Его начальное значение x(0) считается известным. Вектор управления u(t) следует выбрать таким образом, чтобы добиться минимизации значения V.

Эволюция системы под действием управления u(t) описывается следующим образом:

Remove ads

Уравнение в частных производных

Суммиров вкратце
Перспектива

Для такой простой динамической системы, уравнения Гамильтона — Якоби — Беллмана принимают следующий вид:

(под подразумевается скалярное произведение) и задаются значением в конечный момент времени T:

Неизвестная в этом уравнении — беллмановская «функция значения» V(xt), которая отвечает максимальной цене, которую можно получить, ведя систему из состояния (xt) оптимальным образом до момента времени T. Соответственно, интересующая нас оптимальная стоимость — значение V = V(x(0), 0).

Remove ads

Вывод уравнения

Суммиров вкратце
Перспектива

Продемонстрируем интуитивные рассуждения, которые приводят к этому уравнению. Пусть  — функция значения, тогда рассмотрим переход от момента времени t к моменту t + dt в соответствии с принципом Беллмана:

Разложим последнее слагаемое по Тейлору:

Осталось перенести V(xt) влево, поделить на dt и перейти к пределу.

Remove ads

Примечания

Литература

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads