Топ питань
Часова шкала
Чат
Перспективи

Спряжений апріорний розподіл

З Вікіпедії, вільної енциклопедії

Remove ads

У баєсівській теорії ймовірностей, якщо апостеріорні розподіли p(θ | x) належать до того ж сімейства розподілу ймовірностей, що і апріорний розподіл ймовірностей p(θ), то апріорний і постеріорний розподіли називають спряженими розподілами, а апріорний розподіл називають спряженим апріором (або апріорним спряженням) функції правдоподібности p(x|θ).

Наприклад, сімейство Гаусса є спряженим до себе (або самосопряженим) відносно функції правдоподібності Гаусса: якщо функція правдоподібності є Гауссівською, вибір гауссового апріору на противагу простому середньому значенню гарантує, що постеріорний розподіл буде також Гауссівським. Це означає, що розподіл Гауса є спряженим апріором для Гаусівської функції правдоподібности.

Поняття, а також термін "спряжений апріор" запроваджено Говардом Райффою та Робертом Шлайфером в їхній роботі з Баєсівської теорії прийняття рішень[1]. Подібну концепцію незалежно описав Джордж Альфред Барнард[2].

Розглянемо загальну задачу виведення (неперервного) розподілу параметра θ з урахуванням деякого даного чи даних x . За теоремою Баєса постеріорний розподіл дорівнює добутку функції правдоподібності і апраіорного розподілу , нормованого ймовірністю даних  :

Зафіксуємо функцію правдоподібності; функція правдоподібності, як правило, добре визначається на основі запису про твірний процес даних. Зрозуміло, що різні варіанти попереднього розподілу p ( θ ) можуть ускладнити обчислення інтегралу, а добуток p ( x | θ ) × p ( θ ) може приймати ту чи іншу алгебраїчну форму. Для певного вибору пріоритета, задній має ту саму алгебраїчну форму, що і пріоритет (як правило, з різними значеннями параметрів). Такий вибір є спряженим пріоритетом .

Спряжений апріор використовують для алгебричної зручности, за його допомогою можна отримати формулу для постеріорного розподілу; без нього може знадобитися чисельне інтегрування. Далі, спряжені апріори можуть давати інтуїтивне трактування, більш прозоро показуючи, як функція правдоподібності оновлює апріорний розподіл.

Усі члени експоненційної сім'ї мають спряжені апріори[3].

Remove ads

Приклад

Узагальнити
Перспектива

Форму спряженого апріора як правило, можне визначити шляхом перевірки густини ймовірності чи функції ймовірності розподілу. Наприклад, розглянемо випадкову величину, що складається з кількості успіхів в випробуваннях Бернуллі з невідомою ймовірністю успіху в [0,1]. Ця випадкова величина має біноміальний розподіл з функцією ймовірності у вигляді

Звичайним спряженим апріором такої функції є функція ймовірності бета-розподілу з параметрами ( , ):

де і вибираються для відображення будь-яких наявних переконань чи інформації ( = 1 і = 1 дасть рівномірний розподіл ) і Β ( ,  ) — бета-функція, яка діє як нормалізуюча константа .

У цьому контексті, і називаються гіперпараметрами (параметрами апріора), щоб відрізнити їх від параметрів базової моделі (тут q). Типовою характеристикою спряжених апріорів є те, що розмірність гіперпараметрів на одиницю більша, ніж розмірність параметрів вихідного розподілу. Якщо всі параметри є скалярними значеннями, то це означає, що буде на один гіперпараметр більше, ніж параметр; але це також стосується параметрів із векторними та матричними значеннями. (Див. загальну статтю про експоненційну сім’ю, а також розглянемо розподіл Вішарта, спряжений апріор коваріаційної матриці багатовимірного нормального розподілу, для прикладу, коли маємо справу з великою розмірністю).

Якщо ми потім виберемо цю випадкову величину і отримаємо s успіхів і f невдач, ми маємо

тобто ще один бета-розподіл з параметрами ( + s, + f ). Цей апостеріорний розподіл можна було б використовувати як апріор для більшої кількості вибірок, при цьому гіперпараметри просто щоразу додають додаткову порцію інформації щойно вона надходить.

Remove ads

Псевдоспостереження

Часто корисно вважати гіперпараметри спряженого апріора розподілу як відповідні спостереженню певної кількості псевдоспостережень із властивостями, заданими параметрами. Наприклад, значення і бета-розподілу можна вважати відповідним успіхам і невдачам, якщо постеріорний режим використовується для вибору оптимального параметра, або успіхів і невдач, якщо для вибору оптимального параметра використовується постеріорне середнє значенняя. Загалом, для майже всіх спряжених апріорів розподілів гіперпараметри можна інтерпретувати в термінах псевдоспостережень. Це може допомогти як в інтуїтивному трактуванні часто заплутаних оновлень рівняннянь, так і для вибору розумних гіперпараметрів для апріора.

Remove ads

Інтерпретації

Узагальнити
Перспектива

Аналогія з власними функціями 

Спряжені апріори аналогічні власним функціям в теорії операторів, оскільки вони є розподілами, на які «оператор зумовлення» діє зрозумілим чином. Для цього треба розглянути процес перетворення апріорного в апостеріорний розподіл як оператор.

І у випадку власних функцій, і у випадку спряжених апріорів скінченновимірні простори зберігаються при дії оператора: результат виражається тією ж формою (в тому самому просторі), що й вхідні дані. Це значно спрощує аналіз, оскільки в іншому випадку матимемо справу з нескінченновимірним простором (усіх функцій, чи усіх розподілів).

А проте процеси лише аналогічні, не ідентичні: оператор зумовлення не лінійний, оскільки простір розподілів не замкнений відносто лінійної комбінації, а тільки відносно опуклою комбінацією, а апостеріор має лише ту саму форму, що й апріор, але не є його лінійним перетворенням.

Подібно до того, як можна побачити, як виявляється лінійна комбінація власних функцій при застосуванні оператора (оскільки щодо цих функцій оператор діагоналізований), можна легко проаналізувати, як опукла комбінація спряжених апріорів розвивається в зумовности; це називається використання гіпер-апріорного і є відповідником використання щільності суміші спряжених апріорів, а не одного спряженого апріора.

Динамічна система

Можна розглядати умовність спряжених апріорів як задання певного роду (в дискретному часі) динамічної системи: із заданого набору гіперпараметрів вхідні дані оновлюють ці гіперпараметри, тож можна розглядати зміну гіперпараметрів як свого роду «еволюцію в часі» системи, яку можна вважати «навчанням». Різні початкові умови спричинюються до різних траєкторій. Знову ж таки таке трактування аналогічне динамічній системі, визначеній лінійним оператором, однак зауважте, що оскільки різні вибірки призводять до різних результатів, тут маємо не просто залежність від часу, а скоріше від потоку даних у часі. Для пов’язаних підходів див. Рекурсивна байєсівська оцінка та Засвоєння даних .

Remove ads

Практичний приклад

Узагальнити
Перспектива

Припустимо, у вашому місті працює служба прокату автомобілів. Водії можуть залишати та брати автомобілі в будь-якому місці в межах міста. Ви можете знайти та орендувати авто за допомогою програми.

Припустимо, ви хочете знайти ймовірність того, що ви зможете знайти авто для оренди на невеликій відстані від вашої домашньої адреси в будь-який час доби.

Протягом трьох днів ви переглядаєте додаток і знаходите таку кількість автомобілів на невеликій відстані від вашої домашньої адреси:

Якщо ми припустимо, що дані отримані з розподілу Пуассона, ми можемо обчислити оцінку максимальної правдоподібності параметра моделі Використовуючи цю оцінку максимальної ймовірності, ми можемо обчислити ймовірність того, що в певний день буде принаймні один автомобіль:

Цей розподіл Пуассона, який, скоріш за все, породив бачені нами дані . Але дані також могли бути отримані з іншого розподілу Пуассона, наприклад, з , або , тощо Насправді існує нескінченна кількість розподілів Пуассона, які могли б генерувати спостережувані дані, і з відносно невеликою кількістю спостережень ми не можемо бути досить впевнені щодо того, який саме розподіл Пуассона згенерував ці дані. Інтуїтивно ми повинні замість цього взяти середнє зважене значення ймовірності для кожного з цих розподілів Пуассона, зважених значенням того наскільки вони ймовірні, враховуючи дані, які ми спостерігали .

Як правило, ця величина відома як апостеріорний прогнозний розподіл де це нова точка даних, є спостережуваними даними і є параметрами моделі. Використовуючи теорему Баєса, можна розширити тому Як правило, цей інтеграл важко обчислити. Однак, якщо ви виберете спряжений апріорний розподіл , можна отримати явну формулу. Її можна знайти в останньому стовпці в таблицях нижче.

Повертаючись до нашого прикладу, якщо виберемо гамма-розподіл як наш апріорний розподіл параметра в розподілі Пуассона, то постеріорним розподілом для передбачення буде негативний біноміальний розподіл, як видно з останнього стовпця таблиці нижче. Гамма-розподіл параметризується двома гіперпараметрами які ми маємо вибрати. Зважаючи на графіки гамма-розподілу, вибираємо , що, видається обґрунтованим апріором для середньої кількості автівок. Вибір апріорних гіперпараметрів за своєю суттю є суб’єктивним і заснований на попередніх знаннях і досвіді.

Враховуючи апріорні гіперпараметри і ми можемо обчислити постеріорні гіперпараметри і

Враховуючи постеріорні гіперпараметри, ми можемо нарешті обчислити апостеріорний прогноз

Ця набагато більш консервативна оцінка відображає невизначеність параметрів моделі, яку враховує постеріорний прогноз.

Remove ads

Таблиця спряжених розподілів

Узагальнити
Перспектива

Нехай n - кількість спостережень. У всіх нижченаведених випадках передбачається, що дані складаються з n точок (які будуть випадковими векторами у багатовимірних випадках).

Якщо функція правдоподібності належить експоненціальному сімейству, то спряжений апріор існує, часто також з експоненціального сімейства.

Коли функція правдоподібності є дискретним розподілом

Більше інформації , ...

Коли функція ймовірності є безперервним розподілом

Більше інформації , ...
Remove ads

Див. також

Примітки

  1. Позначається тими ж символами що й апріорні гіперпараметри з апострофами('). Наприклад позначається
  2. Це постеріорний прогнозний розподіл нової точки зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів.
  3. Точна інтерпретація параметрів бета-розподілу з точки зору кількості успіхів і невдач залежить від того, яка функція використовується для отримання точкової оцінки з розподілу. Матсподівання бета-розподілу обчислюється як що відповідає успіхам і невдачам, тоді як його мода дорівнює що відповідає успіхам і невдачам. У Баєсівських обчисленнях точкових оцінок віддають перевагу постеріорному матсподіванню перед постеріорною модою, ґрунтуючись на квадратичній функції втрат, до того ж використання і математично зручніше, тоді як перевагою використання і є те, що рівномірний апріор відповідає випадку коли маємо 0 успіхів і 0 невдач. Аналогічні міркування мають місце при використанні розподілу Діріхле.
  4. β темп зміни чи обернений до параметра масштабу. В параметризації Гамма-розподіл, θ = 1/β і k = α.
  5. Це постеріорний прогнозний розподіл нової точки зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів. and позначають нормальний розподіл і t-розподіл Стьюдента або ж багатовимірний нормальний розподіл і багатовимірний t-розподіл Стьюдента у багатовиміних випадках відповідно.
Remove ads

Джерела

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads