Спряжений апріорний розподіл

У баєсівській теорії ймовірностей, якщо апостеріорні розподіли p(θ | x) належать до того ж сімейства розподілу ймовірностей, що і апріорний розподіл ймовірностей p(θ), то апріорний і постеріорний розподіли називають спряженими розподілами, а апріорний розподіл називають спряженим апріором (або апріорним спряженням) функції правдоподібности p(x|θ).

Наприклад, сімейство Гаусса є спряженим до себе (або самосопряженим) відносно функції правдоподібності Гаусса: якщо функція правдоподібності є Гауссівською, вибір гауссового апріору на противагу простому середньому значенню гарантує, що постеріорний розподіл буде також Гауссівським. Це означає, що розподіл Гауса є спряженим апріором для Гаусівської функції правдоподібности.

Поняття, а також термін "спряжений апріор" запроваджено Говардом Райффою та Робертом Шлайфером в їхній роботі з Баєсівської теорії прийняття рішень^[1]. Подібну концепцію незалежно описав Джордж Альфред Барнард^[2].

Розглянемо загальну задачу виведення (неперервного) розподілу параметра θ з урахуванням деякого даного чи даних x . За теоремою Баєса постеріорний розподіл дорівнює добутку функції правдоподібності $\theta \mapsto p(x\mid \theta )\!$ і апраіорного розподілу $p(\theta )\!$ , нормованого ймовірністю даних $p(x)\!$ :

{\begin{aligned}p(\theta \mid x)&={\frac {p(x\mid \theta )\,p(\theta )}{p(x)}}\\&={\frac {p(x\mid \theta )\,p(\theta )}{\int _{\theta '}p(x,\theta ')\,d\theta '}}\\&={\frac {p(x\mid \theta )\,p(\theta )}{\int _{\theta '}p(x\mid \theta ')\,p(\theta ')\,d\theta '}}\end{aligned}}

Зафіксуємо функцію правдоподібності; функція правдоподібності, як правило, добре визначається на основі запису про твірний процес даних. Зрозуміло, що різні варіанти попереднього розподілу p ( θ ) можуть ускладнити обчислення інтегралу, а добуток p ( x | θ ) × p ( θ ) може приймати ту чи іншу алгебраїчну форму. Для певного вибору пріоритета, задній має ту саму алгебраїчну форму, що і пріоритет (як правило, з різними значеннями параметрів). Такий вибір є спряженим пріоритетом .

Спряжений апріор використовують для алгебричної зручности, за його допомогою можна отримати формулу для постеріорного розподілу; без нього може знадобитися чисельне інтегрування. Далі, спряжені апріори можуть давати інтуїтивне трактування, більш прозоро показуючи, як функція правдоподібності оновлює апріорний розподіл.

Усі члени експоненційної сім'ї мають спряжені апріори^[3].

[1]

[2]

[3]

Правдоподібність	Параметри моделі	Розподіл спряженого апріора	Гіперпараметри апріора	Гіперпараметри постреріора^{[note 1]}	Інтерпретація гіперпараметрів	Постеріорний прогнозний розподіл^{[note 2]}
Бернуллі	p (ймовірність)	Бета	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!$	$\alpha$ успіхи, $\beta$ невдачі^{[note 3]}	$p({\tilde {x}}=1)={\frac {\alpha '}{\alpha '+\beta '}}$
Біноміальний	p (ймовірність)	Бета	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!$	$\alpha$ успіхи, $\beta$ невдачі^{[note 3]}	$\operatorname {BetaBin} ({\tilde {x}}\|\alpha ',\beta ')$ (Бета-біноміальний)
Від'ємний біноміальний з відомою кількістю невдач, r	p (ймовірність)	Бета	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +rn,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha$ число всіх успіхів, $\beta$ невдачі^{[note 3]} (тобто, ${\frac {\beta }{r}}$ експериментів, за умови, що $r$ фіксоване)	$\operatorname {BetaNegBin} ({\tilde {x}}\|\alpha ',\beta ')$ (Бета-негативний біноміальний)
Пуассон	λ (темп)	Гамма	$k,\,\theta \in \mathbb {R} \!$	$k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!$	$k$ загальна кількість випадань в ${\frac {1}{\theta }}$ інтервалах	$\operatorname {NB} \left({\tilde {x}}\mid k',{\frac {\theta '}{\theta '+1}}\right)$ (Від'ємний біноміальний)
Пуассон	λ (темп)	Гамма	$\alpha ,\,\beta \!$ ^{[note 4]}	$\alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!$	$\alpha$ загальна кількість випадань в $\beta$ інтервалах	$\operatorname {NB} \left({\tilde {x}}\mid \alpha ',{\frac {1}{1+\beta '}}\right)$ (Від'ємний біноміальний)
Категорійний	p (вектор ймовірності), k (число категорій; тобто, розмірність p)	Діріхле	${\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!$	${\boldsymbol {\alpha }}+(c_{1},\ldots ,c_{k}),$ де $c_{i}$ число спостережень в категорії i	$\alpha _{i}$ число випадінь категорії $i$ ^{[note 3]}	${\begin{aligned}p({\tilde {x}}=i)&={\frac {{\alpha _{i}}'}{\sum _{i}{\alpha _{i}}'}}\\&={\frac {\alpha _{i}+c_{i}}{\sum _{i}\alpha _{i}+n}}\end{aligned}}$
Поліноміальний	p (вектор ймовірності), k (число категорій; тобто, розмірність p)	Діріхле	${\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!$	${\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!$	$\alpha _{i}$ число випадінь категорії $i$ ^{[note 3]}	$\operatorname {DirMult} ({\tilde {\mathbf {x} }}\mid {\boldsymbol {\alpha }}')$ (Dirichlet-multinomial^[en])
Гіпергеометричний з відомим розміром загальної популяції, N	M (цільове число членів)	Бета-біноміальний^[4]	$n=N,\alpha ,\,\beta \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!$	$\alpha$ успіхи, $\beta$ невдачі^{[note 3]}
Геометричний	p₀ (ймовірність)	Бета	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha$ експерименти, $\beta$ всі невдачі^{[note 3]}

Правдоподібність	Параметри моделі	Розподіл спряженого апріора	Гіперпараметри апріора	Гіперпараметри постреріора^{[note 1]}	Інтерпретація гіперпараметрів	Постеріорний прогнозний розподіл^{[note 5]}
Нормальний з відомою дисперсією σ²	μ (середнє)	Нормальний	$\mu _{0},\,\sigma _{0}^{2}\!$	${\frac {1}{{\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}}}\left({\frac {\mu _{0}}{\sigma _{0}^{2}}}+{\frac {\sum _{i=1}^{n}x_{i}}{\sigma ^{2}}}\right),\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right)^{-1}$	mean was estimated from observations with total precision (sum of all individual precisions) $1/\sigma _{0}^{2}$ and with sample mean $\mu _{0}$	${\mathcal {N}}({\tilde {x}}\|\mu _{0}',{\sigma _{0}^{2}}'+\sigma ^{2})$ ^[5]
Нормальний with known precision τ	μ (середнє)	Нормальний	$\mu _{0},\,\tau _{0}\!$	${\frac {\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}}{\tau _{0}+n\tau }},\,\left(\tau _{0}+n\tau \right)^{-1}$	mean was estimated from observations with total precision (sum of all individual precisions) $\tau _{0}$ and with sample mean $\mu _{0}$	${\mathcal {N}}\left({\tilde {x}}\mid \mu _{0}',{\frac {1}{\tau _{0}'}}+{\frac {1}{\tau }}\right)$
Нормальний з відомим середнім μ	σ² (дисперсія)	Обернений гамма	$\mathbf {\alpha ,\,\beta }$	$\mathbf {\alpha } +{\frac {n}{2}},\,\mathbf {\beta } +{\frac {\sum _{i=1}^{n}{(x_{i}-\mu )^{2}}}{2}}$	variance was estimated from $2\alpha$ observations with sample variance $\beta /\alpha$ (i.e. with sum of squared deviations $2\beta$ , where deviations are from known mean $\mu$ )	$t_{2\alpha '}({\tilde {x}}\|\mu ,\sigma ^{2}=\beta '/\alpha ')$
Нормальний з відомим середнім μ	σ² (дисперсія)	Scaled inverse chi-squared	$\nu ,\,\sigma _{0}^{2}\!$	$\nu +n,\,{\frac {\nu \sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{\nu +n}}\!$	variance was estimated from $\nu$ observations with sample variance $\sigma _{0}^{2}$	$t_{\nu '}({\tilde {x}}\|\mu ,{\sigma _{0}^{2}}')$
Нормальний з відомим середнім μ	τ (прецизійність)	Гамма	$\alpha ,\,\beta \!$	$\alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\!$	precision was estimated from $2\alpha$ observations with sample variance $\beta /\alpha$ (i.e. with sum of squared deviations $2\beta$ , where deviations are from known mean $\mu$ )	$t_{2\alpha '}({\tilde {x}}\mid \mu ,\sigma ^{2}=\beta '/\alpha ')$
Нормальний	μ і σ² за умови взаємозамінности	Normal-inverse gamma	$\mu _{0},\,\nu ,\,\alpha ,\,\beta$	${\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,$ $\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}$ ${\bar {x}}$ середнє вибірки	mean was estimated from $\nu$ observations with sample mean $\mu _{0}$ ; variance was estimated from $2\alpha$ observations with sample mean $\mu _{0}$ and sum of squared deviations $2\beta$	$t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\nu '\alpha '}}\right)$
Нормальний	μ і τ за умови взаємозамінности	Normal-gamma	$\mu _{0},\,\nu ,\,\alpha ,\,\beta$	${\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,$ $\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}$ ${\bar {x}}$ середнє вибірки	mean was estimated from $\nu$ observations with sample mean $\mu _{0}$ , and precision was estimated from $2\alpha$ observations with sample mean $\mu _{0}$ and sum of squared deviations $2\beta$	$t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)$
Багатовимірний нормальний з відомою матрицею коваріації Σ	μ (вектор середнього)	Багатовимірний нормальний	${\boldsymbol {\boldsymbol {\mu }}}_{0},\,{\boldsymbol {\Sigma }}_{0}$	$\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}\left({\boldsymbol {\Sigma }}_{0}^{-1}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Sigma }}^{-1}\mathbf {\bar {x}} \right),$ $\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}$ $\mathbf {\bar {x}}$ середнє вибірки	mean was estimated from observations with total precision (sum of all individual precisions) ${\boldsymbol {\Sigma }}_{0}^{-1}$ and with sample mean ${\boldsymbol {\mu }}_{0}$	${\mathcal {N}}({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{\boldsymbol {\Sigma }}_{0}}'+{\boldsymbol {\Sigma }})$
Багатовимірний нормальний з відомою матрицею прецизійності Λ	μ (вектор середнього)	Багатовимірний нормальний	$\mathbf {\boldsymbol {\mu }} _{0},\,{\boldsymbol {\Lambda }}_{0}$	$\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)^{-1}\left({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Lambda }}\mathbf {\bar {x}} \right),\,\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)$ $\mathbf {\bar {x}}$ середнє вибірки	mean was estimated from observations with total precision (sum of all individual precisions) ${\boldsymbol {\Lambda }}_{0}$ and with sample mean ${\boldsymbol {\mu }}_{0}$	${\mathcal {N}}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{{\boldsymbol {\Lambda }}_{0}}'}^{-1}+{\boldsymbol {\Lambda }}^{-1}\right)$
Багатовимірний нормальний з відомим середнім μ	Σ (матриця коваріації)	Inverse-Wishart	$\nu ,\,{\boldsymbol {\Psi }}$	$n+\nu ,\,{\boldsymbol {\Psi }}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}$	covariance matrix was estimated from $\nu$ observations with sum of pairwise deviation products ${\boldsymbol {\Psi }}$	$t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Psi }}'\right)$
Багатовимірний нормальний з відомим середнім μ	Λ (матриця прецизійності)	Wishart	$\nu ,\,\mathbf {V}$	$n+\nu ,\,\left(\mathbf {V} ^{-1}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}\right)^{-1}$	covariance matrix was estimated from $\nu$ observations with sum of pairwise deviation products $\mathbf {V} ^{-1}$	$t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\mid {\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\mathbf {V} '}^{-1}\right)$
Багатовимірний нормальний	μ (вектор середнього) і Σ (матриця коваріації)	normal-inverse-Wishart	${\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Psi }}$	${\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,$ ${\boldsymbol {\Psi }}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}$ $\mathbf {\bar {x}}$ середнє вибірки $\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}$	mean was estimated from $\kappa _{0}$ observations with sample mean ${\boldsymbol {\mu }}_{0}$ ; covariance matrix was estimated from $\nu _{0}$ observations with sample mean ${\boldsymbol {\mu }}_{0}$ and with sum of pairwise deviation products ${\boldsymbol {\Psi }}=\nu _{0}{\boldsymbol {\Sigma }}_{0}$	$t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'\right)$
Багатовимірний нормальний	μ (вектор середнього) і Λ (матриця прецизійності)	normal-Wishart	${\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,\mathbf {V}$	${\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,$ $\left(\mathbf {V} ^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}\right)^{-1}$ $\mathbf {\bar {x}}$ середнє вибірки $\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}$	mean was estimated from $\kappa _{0}$ observations with sample mean ${\boldsymbol {\mu }}_{0}$ ; covariance matrix was estimated from $\nu _{0}$ observations with sample mean ${\boldsymbol {\mu }}_{0}$ and with sum of pairwise deviation products $\mathbf {V} ^{-1}$	$t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\mathbf {V} '}^{-1}\right)$
Рівномірний	$U(0,\theta )\!$	Парето	$x_{m},\,k\!$	$\max\{\,x_{1},\ldots ,x_{n},x_{\mathrm {m} }\},\,k+n\!$	$k$ observations with maximum value $x_{m}$
Парето з відомим мінімумом x_m	k (форма)	Гамма	$\alpha ,\,\beta \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!$	$\alpha$ observations with sum $\beta$ of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum $x_{m}$ )
Weibull з відомим параметром форми β	θ (масштаб)	Обернений гамма	$a,b\!$	$a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!$	$a$ observations with sum $b$ of the β'th power of each observation
Логнормальний	Same as for the normal distribution after applying the natural logarithm to the data for the posterior hyperparameters. Please refer to page 21 and 22 ^[4] to see the details.
Експоненційний	λ (темп)	Гамма	$\alpha ,\,\beta \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha -1$ observations that sum to $\beta$	$\operatorname {Lomax} ({\tilde {x}}\mid \beta ',\alpha ')$ (Lomax distribution)
Гамма з відомим параметром α	β (темп)	Гамма	$\alpha _{0},\,\beta _{0}\!$	$\alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!$	$\alpha _{0}/\alpha$ observations with sum $\beta _{0}$	$\operatorname {CG} ({\tilde {\mathbf {x} }}\mid \alpha ,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}\|\alpha ,{\alpha _{0}}',1,{\beta _{0}}')$
Обернений гамма з відомим параметром форми α	β (обернений масштаб)	Гамма	$\alpha _{0},\,\beta _{0}\!$	$\alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!$	$\alpha _{0}/\alpha$ observations with sum $\beta _{0}$
Гамма з відомим параметром темпу β	α (форма)	$\propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha )^{b}}}$	$a,\,b,\,c\!$	$a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!$	$b$ or $c$ observations ( $b$ for estimating $\alpha$ , $c$ for estimating $\beta$ ) with product $a$
Гамма	α (форма), β (обернений масштаб)	$\propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha )^{r}\beta ^{-\alpha s}}}$	$p,\,q,\,r,\,s\!$	$p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!$	$\alpha$ was estimated from $r$ observations with product $p$ ; $\beta$ was estimated from $s$ observations with sum $q$
Beta	α, β	$\propto {\frac {\Gamma (\alpha +\beta )^{k}\,p^{\alpha }\,q^{\beta }}{\Gamma (\alpha )^{k}\,\Gamma (\beta )^{k}}}$	$p,\,q,\,k\!$	$p\prod _{i=1}^{n}x_{i},\,q\prod _{i=1}^{n}(1-x_{i}),\,k+n\!$	$\alpha$ and $\beta$ were estimated from $k$ observations with product $p$ and product of the complements $q$

Спряжений апріорний розподіл

Приклад

Псевдоспостереження

Інтерпретації

Аналогія з власними функціями

Динамічна система

Практичний приклад

Таблиця спряжених розподілів

Коли функція правдоподібності є дискретним розподілом

Коли функція ймовірності є безперервним розподілом

Див. також

Примітки

Джерела

Wikiwand - on