Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі.[1][2] У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t1] при старті в момент часу t стану x(t)=x.[3] Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості».[4][5] В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.[6][7]
У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При
, типова задача оптимального керування полягає в

за умови, що

з початковим станом
.[8] Цільова функція
має бути максимізовано за всіма допустимими діями
, де
є функцією вимірною за мірою Лебега, яка відображає інтервал
у визначену підмножину
. Тоді функція цінності має вигляд

з
, де
— це «втрати». Якщо
— це оптимальна пара векторів дій та станів, то
. Функція
, яка повертає оптимальний вектор дій
для стану
називається функцією стратегії.[9]
Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі
,
приймаючи поточний стан
за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою[10], то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,

де максимум у правій частині також можна переписати як Гамільтоніан[en],
, як

з
відіграють роль спряжених змінних[en].[11] Враховуючи це, маємо
, і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно
рівняння має вигляд

яке після заміни відповідних членів відновлює спряжене рівняння[en]

де
це нотація Ньютона для похідної за часом.[12]
Функція цінності є унікальним в'язкісним рішенням[en] рівняння Гамільтона–Якобі–Беллмана.[13] У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.[14]