Метад максімальнай праўдападобнасці

Метад максімальнай праўдападобнасці (ММП) — метад ацэньвання^[en] параметраў^[en] меркаванага размеркавання імавернасцей на аснове выбаркі назіранняў. Ацэнка дасягаецца максімізацыяй^[en] функцыі праўдападобнасці^[en] такім чынам, каб згодна з меркаванай статыстычнай мадэллю^[en] назіранні^[en] былі найбольш праўдабадобнымі. Пункт^[en] у прасторы параметраў^[en], які максімізуе функцыю праўдападобнасці, называецца ацэнкай максімальнай праўдападобнасці^[1]. Логіка метаду адначасова інтуіцыйная і гнуткая, таму ён стаў дамінуючым сродкам статыстычнага высноўвання^[en]^[2]^[3]^[4].

Калі функцыя праўдападобнасці дыферэнцавальная^[en], можна прымяніць метад вытворнай^[en] для знаходжання яе максімумаў. У некаторых выпадках максімум функцыі праўдападобнасці можна знайсці аналітычна; напрыклад, ацэнка звычайным метадам найменшых квадратаў^[en] для мадэлі лінейнай рэгрэсіі максімізуе праўдападобнасць, калі мяркуецца, што ўсе назіранні маюць нармальнае размеркаванне з роўнай дысперсіяй^[5].

З пункту гледжання баесаўскага высноўвання^[en], ацэнка максімальнай праўдападобнасці, як правіла, эквівалентная ацэнцы апастэрыёрнага максімуму^[en] з раўнамерным апрыёрным размеркаваннем (або нармальным апрыёрным размеркаваннем з бесканечным стандартным адхіленнем). У частотным высноўванні^[en] метад максімальнай праўдападобнасці — асаблівы выпадак экстрэмальнай ацэнкі^[en] з мэтавай функцыяй роўнай праўдападобнасці.

Remove ads

Прынцыпы

Набор назіранняў мадэлюецца як выпадковая выбарка^[en] з невядомага супольнага размеркавання, якое задаецца наборам параметраў^[en]. Мэта метаду максімальнай праўдападобнасці — знайсці параметры, для якіх назіранні маюць найбольшую супольную імавернасць. Параметры, якія задаюць супольнае размеркаванне, запісваюцца як вектар $\;\theta =\left[\theta _{1},\,\theta _{2},\,\ldots ,\,\theta _{k}\right]^{\mathsf {T}}\;$ , таму кажуць, што гэтае размеркаванне адносяцца да параметрычнага сямейства^[en] $\;\{f(\cdot \,;\theta )\mid \theta \in \Theta \}\;$ , дзе $\,\Theta \,$ — прастора параметраў^[en], канечнамернае падмноства Еўклідавай прасторы^[en]. Падстаўляючы назіранні $\;\mathbf {y} =(y_{1},y_{2},\ldots ,y_{n})\;$ у функцыю шчыльнасці супольнага размеркавання, атрымліваем рэчаісназначную функцыю

{\displaystyle {\mathcal {L}}_{n}(\theta )={\mathcal {L}}_{n}(\theta

якая называецца функцыяй праўдападобнасці^[en]. Для незалежных і аднолькава размеркаваных выпадковых велічынь^[en], $f_{n}(\mathbf {y$ можна запісаць як здабытак аднамерных функцый шчыльнасці імавернасці:

f_{n}(\mathbf {y

Мэта метаду максімальнай праўдападобнасці — знайсці такія значэнні параметраў мадэлі з прасторы параметраў, для якіх функцыя праўдападобнасці будзе максімальнай^[6]:

{\hat {\theta }}={\underset {\theta \in \Theta }{\operatorname {arg\;max} }}\,{\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Інтуітыўна, знойдзенае такім чынам значэнне параметраў робіць назіранні найбольш імавернымі. Значэнне $~{\hat {\theta }}={\hat {\theta }}_{n}(\mathbf {y} )\in \Theta ~$ , якое максімізуе функцыю праўдападобнасці $\,{\mathcal {L}}_{n}\,$ , называецца значэннем ацэнкі максімальнай праўдападобнасці. Калі існуе вымерная функцыя^[en] $\;{\hat {\theta }}_{n}:\mathbb {R} ^{n}\to \Theta \;$ , то такая функцыя называецца функцыяй ацэнкі^[en] максімальнай праўдападобнасці. Звычайна гэтая функцыя задаецца на прасторы элементарных падзей і яе аргументам выступае пэўная выбарка. Дастатковая, але не неабходная^[en] ўмова яе існавання — непарыўнасць функцыі праўдападобнасці на кампактнай прасторы^[en] параметраў^[7]. Для адкрытага мноства^[en] $\,\Theta \,$ , функцыя праўдападобнасці можа павялічвацца не дасягаючы супрэмуму.

На практыцы часта бывае зручна працаваць з натуральным лагарыфмам функцыі праўдападобнасці, які называецца лагарыфмам праўдападобнасці^[en]:

\ell (\theta \,;\mathbf {y} )=\ln {\mathcal {L}}_{n}(\theta \,;\mathbf {y} )~.

Праз тое што лагарыфм — манатонная функцыя^[en], максімум $\;\ell (\theta \,;\mathbf {y} )\;$ дасягаецца пры тым самым значэнні $\theta$ , што і максімум $\,{\mathcal {L}}_{n}~.$ ^[8]. Калі $\ell (\theta \,;\mathbf {y} )$ — дыферэнцавальная функцыя^[en] на $\,\Theta \,$ , то неабходныя^[en] для максімуму (мінімуму) умовы

{\frac {\partial \ell }{\partial \theta _{1}}}=0,\quad {\frac {\partial \ell }{\partial \theta _{2}}}=0,\quad \ldots ,\quad {\frac {\partial \ell }{\partial \theta _{k}}}=0~

называюцца раўнаннямі праўдападобнасці. Для некаторых мадэляў удаецца знайсці іх аналітычныя развязкі $\,{\widehat {\theta \,}}\,$ , але агульнага аналітычнага развязка задачы максімізацыі не існуе, і ацэнка максімальнай праўдападобнасці можа быць знойдзена толькі з дапамогай лікавай аптымізацыі^[en]. Іншая праблема ў тым, што для канечных выбарак можа існаваць некалькі каранёў раўнанняў праўдападобнасці^[9]. Гесіян^[en], матрыца частковых вытворных другога парадку, можа выкарыстоўвацца каб зразумець ці з’яўляецца знойдзены максімум $\,{\widehat {\theta \,}}\,$ лакальным:

\mathbf {H} \left({\widehat {\theta \,}}\right)={\begin{bmatrix}\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{1}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{2}\,\partial \theta _{k}}}\right|_{\theta ={\widehat {\theta \,}}}\\\vdots &\vdots &\ddots &\vdots \\\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{1}}}\right|_{\theta ={\widehat {\theta \,}}}&\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}\,\partial \theta _{2}}}\right|_{\theta ={\widehat {\theta \,}}}&\dots &\left.{\frac {\partial ^{2}\ell }{\partial \theta _{k}^{2}}}\right|_{\theta ={\widehat {\theta \,}}}\end{bmatrix}}~.

Калі гесіян адмоўна паўвызначаны^[en] ў ${\widehat {\theta \,}}$ , то функцыя лакальна ўвагнутая^[en]. Зручна тое, што найбольш вядомыя размеркаванні — у прыватнасці экспанентавае сямейства^[en] — лагарыфмічна ўвагнутыя^[en]^[10]^[11].

Абмежаваная прастора параметраў

Хаця звычайна абсяг вызначэння функцыі праўдападобнасці (прастора параметраў^[en]) — канечнамернае падмноства Еўклідавай прасторы^[en], часам на яго могуць накладацца дадатковыя абмежаванні^[en]. У такім выпадку прастору параметраў можна запісаць як

{\displaystyle \Theta =\left\{\theta

дзе $\;h(\theta )=\left[h_{1}(\theta ),h_{2}(\theta ),\ldots ,h_{r}(\theta )\right]\;$ — вектар-функцыя^[en] з $\,\mathbb {R} ^{k}\,$ у $\;\mathbb {R} ^{r}~$ . Тады знайсці ацэнку максімальнай праўдападобнасці параметра $\theta$ з мноства $\Theta$ значыць знайсці $\theta$ , для якога дасягаецца максімум функцыі праўдападобнасці пры выкананні ўмоў $~h(\theta )=0~$ .

Тэарэтычна, самы натуральны падыход да гэтай задачы ўмоўнай аптымізацыі^[en] — метад падстаноўкі. Гэта значыць дапаўненне ўмоў $\;h_{1},h_{2},\ldots ,h_{r}\;$ да мноства $\;h_{1},h_{2},\ldots ,h_{r},h_{r+1},\ldots ,h_{k}\;$ такім чынам, што $\;h^{\ast }=\left[h_{1},h_{2},\ldots ,h_{k}\right]\;$ — ін’екцыя з $\mathbb {R} ^{k}$ у $\mathbb {R} ^{k}$ , і рэпараметрызацыя функцыі праўдападобнасці ўвядзеннем $\;\phi _{i}=h_{i}(\theta _{1},\theta _{2},\ldots ,\theta _{k})~.$ ^[12]. Праз эквіварыянтнасць функцыі ацэнкі максімальнай праўдападобнасці, уласцівасці распаўсюджваюцца і на абмежаваныя ацэнкі^[13]. Напрыклад, для многавымернага нармальнага размеркавання матрыца каварыяцыі^[en] $\,\Sigma \,$ мусіць быць дадатна вызначанай матрыцай^[en]; гэта абмежаванне можна выканаць падстаноўкай $\;\Sigma =\Gamma ^{\mathsf {T}}\Gamma \;$ , дзе $\Gamma$ — рэчаісная верхнетрохвугольная матрыца^[en], а $\Gamma ^{\mathsf {T}}$ — транспанаваная $\Gamma$ (гл. раскладанне Халецкага^[en] для доказу ін’ектыўнасці)^[14].

На практыцы ўмовы звычайна накладаюцца метадам множнікаў Лагранжа^[en], які прыводзіць да раўнанняў абмежаванай праўдападобнасці:

{\frac {\partial \ell }{\partial \theta }}-{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\lambda =0

h(\theta )=0\;,

дзе $~\lambda =\left[\lambda _{1},\lambda _{2},\ldots ,\lambda _{r}\right]^{\mathsf {T}}~$ — вектар-слупок множнікаў Лагранжа, а $\;{\frac {\partial h(\theta )^{\mathsf {T}}}{\partial \theta }}\;$ — матрыца Якобі частковых вытворных памеру k × r ^[12]. Натуральна, калі абмежаванні не ўплываюць на максімум, множнікі Лагранжа маюць быць роўнымі нулю^[15]. Гэта, у сваю чаргу, дазваляе правесці статыстычную праверку валіднасці абмежавання, вядомую як тэст множнікаў Лагранжа^[en].

Remove ads

Уласцівасці

Ацэнка максімальнай праўдападобнасці — ацэнка экстрэмуму^[en], якая максімізуе па θ мэтавую функцыю^[en] ${\widehat {\ell \,}}(\theta \,;x)$ . Калі назіранні незалежныя і аднолькава размеркаваныя^[en], маем

{\widehat {\ell \,}}(\theta \,;x)={\frac {1}{n}}\sum _{i=1}^{n}\ln f(x_{i}\mid \theta ),

што ёсць выбаркавым аналагам матэматычнага спадзявання лагарыфму праўдападобнасці $\ell (\theta )=\operatorname {\mathbb {E} } [\,\ln f(x_{i}\mid \theta )\,]$ , узятага па сапраўднай шчыльнасці.

Ацэнка максімальнай праўдападобнасці не мае аптымальных уласцівасцей для канечных выбарак у тым сэнсе, што іншыя ацэнкі на канечных выбарках могуць мець большую канцэнтрацыю вакол сапраўднага значэння параметру^[16]. Аднак, як і іншыя метады ацэнкі, ацэнка максімальнай праўдападобнасці мае шэраг прывабных абмежавальных уласцівасцей^[en]: калі памер выбаркі павялічваецца да бясконцасці, паслядоўнасць ацэнак максімальнай праўдападобнасці мае наступныя ўласцівасці:

Слушнасць^[en]: паслядоўнасць ацэнак максімальнай праўдападобнасці збягаецца паводле імавернасці да ацэньваемага значэння.
Функцыянальная інварыянтнасць: Калі ${\hat {\theta }}$ — ацэнка максімальнай праўдападобнасці для $\theta$ , а $g(\theta )$ — адвольнае пераўтварэнне над $\theta$ , то ацэнка максімальнай праўдападобнасці для $\alpha =g(\theta )$ роўная ${\hat {\alpha }}=g({\hat {\theta }})$ .
Эфектыўнасць^[en]: ацэнка дасягае ніжняй мяжы Крамера-Раа^[en], калі памер выбаркі імкнецца к бесканечнасці. Гэта значыць, што ніводная слушная ацэнка не мае меншай асімптатычнай сярэднеквадратычнай памылкі^[en], чым ацэнка максімальнай праўдападобнасці (або іншыя ацэнкі, якія дасягаюць гэтай мяжы). Гэта таксама значыць, што для ацэнкі максімальнай праўдападобнасці ўласцівая асімптатычная нармальнасць^[en].
Эфектыўнасць другога парадку пасля карэкцыі ўхілу.

Слушнасць

Пры выкананні прыведзеных ніжэй умоў, ацэнка максімальнай праўдападобнасці слушная^[en]. Гэта значыць, што калі даныя былі ўтвораны функцыяй $f(\cdot \,;\theta _{0})$ і мы маем дастаткова вялікую колькасць назіранняў $n$ , то магчыма знайсці значэнне $\theta _{0}$ з адвольнай дакладнасцю. У матэматычных тэрмінах гэта значыць, што калі $n$ імкнецца да бесканечнасці, ацэнка ${\widehat {\theta \,}}$ збягаецца паводле імавернасці^[en] да сапраўднага значэння:

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{p}}}\ \theta _{0}.

Пры трохі стражэйшых умовах, ацэнка збягаецца амаль напэўна^[en] (або моцна):

{\widehat {\theta \,}}_{\mathrm {mle} }\ {\xrightarrow {\text{a.s.}}}\ \theta _{0}.

На практыцы, даныя ніколі не ўтвараюцца $f(\cdot \,;\theta _{0})$ . Наадварот, $f(\cdot \,;\theta _{0})$ — гэта мадэль, часта ў ідэалізаванай форме, працэсу, які ўтварае даныя. Паводле распаўсюджанага ў статыстыцы афарызму, усе мадэлі хібныя^[en]. Такім чынам, сапраўдная слушнасць ніколі не дасягаецца на практыцы. Тым не менш, слушнасць часта ўважаецца пажаданай уласцівасцю для ацэнак.

Для слушнасці дастаткова наступных умоў.^[17]

Ідэнтыфікавальнасць^[en] мадэлі: $\theta \neq \theta _{0}\quad \Leftrightarrow \quad f(\cdot \mid \theta )\neq f(\cdot \mid \theta _{0}).$ Іншымі словамі, розным параметрам $\theta$ адпавядаюць розныя размеркаванні мадэлі. Калі гэтая ўмова не выконваецца, існуе пэўнае значэнне $\theta _{1}$ , такое што $\theta _{0}$ і $\theta _{1}$ утвараюць роўныя размеркаванні даных. Тады немагчыма адрозніць гэтыя параметры нават з бясконцай колькасцю даных. Такія параметры называюцца назіральна эквівалентнымі^[en].
Ідэнтыфікавальнасць неабходная для слушнасці ацэнкі максімальнай праўдападобнасці. Калі гэтая ўмова выконваецца, абмежаваная функцыя лагарыфму праўдападобнасці $\ell (\theta \mid \cdot )$ мае адзіны глабальны максімум у $\theta _{0}$ .
Кампактнасць: прастора параметраў $\Theta$ $\Theta$ мадэлі кампактная^[en].

Умова ідэнтыфікавальнасці гарантуе, што ў лагарыфма праўдападобнасці існуе адзіны глабальны максімум. Кампактнасць азначае, што праўдападобнасць не можа імкнуцца к максімальнаму значэнню ў нейкім іншым месцы (напрыклад як паказана на рысунку справа).
Кампактнасць — толькі дастатковая, але не неабходная ўмова. Яна можа быць заменена некаторымі іншымі ўмовамі, такімі як:
- адначасовая ўвагнутасць^[en] функцыі лагарыфму праўдападобнасці і кампактнасць некаторага з яе непустых мностваў узроўню^[en], або
- існаванне кампактнага наваколля^[en] $N$ для $\theta _{0}$ , такога што па-за наваколлем $N$ функцыя лагарыфму праўдападобнасці меншая за максімум прынамсі на некаторы $\varepsilon >0$ .
Непарыўнасць: функцыя $\ln f(x\mid \theta )$ непарыўная ў $\theta$ для амаль усіх значэнняў $x$ : $\operatorname {\mathbb {P} } {\Bigl [}\;\ln f(x\mid \theta )\;\in \;C^{0}(\Theta )\;{\Bigr ]}=1.$ Непарыўнасць можа быць замененая слабейшай умовай верхняй паўнепарыўнасці^[en].
Дамінантнасць: існуе інтэгравальная па размеркаванні $f(x\mid \theta _{0})$ функцыя $D(x)$ , такая што ${\Bigl |}\ln f(x\mid \theta ){\Bigr |}<D(x)\quad \forall \theta \in \Theta .$ Паводле раўнамернага закона вялікіх лікаў, умова дамінантнасці разам з непарыўнасцю гарантуе раўнамерную збежнасць паводле імавернасці лагарыфма праўдападобнасці: $\sup _{\theta \in \Theta }\left|{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\,\right|\ {\xrightarrow {\text{p}}}\ 0.$ Умова дамінантнасці можа быць выкарыстана ў выпадку незалежных аднолькава размеркаваных велічынь^[en]. Інакш, раўнамерная збежнасць паводле імавернасці можа быць забяспечана тым, што ${\widehat {\ell \,}}(\theta \mid x)$ стахастычна роўнаступенна непарыўная^[en].

Калі неабходна прадэманстраваць, што ацэнка максімальнай праўдападобнасці ${\widehat {\theta \,}}$ збягаецца да $\theta _{0}$ амаль напэўна^[en], то мае выконвацца стражэйшая ўмова непарыўнай збежнасці амаль напэўна:

\sup _{\theta \in \Theta }\left\|\;{\widehat {\ell \,}}(\theta \mid x)-\ell (\theta )\;\right\|\ \xrightarrow {\text{a.s.}} \ 0.

Акрамя таго, у дапушчэнні што даныя былі ўтвораны функцыяй $f(\cdot \,;\theta _{0})$ , пры пэўных умовах можна паказаць, што ацэнка максімальнай праўдападобнасці збягаецца паводле размеркавання^[en] к нармальнаму размеркаванню^[18]

{\sqrt {n}}\left({\widehat {\theta \,}}_{\mathrm {mle} }-\theta _{0}\right)\ \xrightarrow {d} \ {\mathcal {N}}\left(0,\,I^{-1}\right)

дзе $I$ — матрыца інфармацыі Фішэра^[en].

Функцыянальная інварыянтнасць

Калі ${\widehat {\theta \,}}$ — ацэнка максімальнай праўдападобнасці для $\theta$ , а $g(\theta )$ — трансфармацыя над $\theta$ , то ацэнка максімальнай праўдападобнасці для $\alpha =g(\theta )$ роўная^[19]

{\widehat {\alpha }}=g({\widehat {\theta }}).\,

Яна максімізуе так званую профільную праўдападобнасць^[en]:

{\displaystyle {\bar {L}}(\alpha )=\sup _{\theta

Акрамя таго, ацэнка максімальнай праўдападобнасці інварыянтная ў дачыненні некаторых трансфармацый даных. Калі $y=g(x)$ , дзе $g$ — біекцыя, якая не залежыць ад ацэньваемых параметраў, то функцыя шчыльнасці адпавядае

f_{Y}(y)={\frac {f_{X}(x)}{|g'(x)|}}

і функцыі праўдападобнасці для $X$ і $Y$ адрозніваюцца толькі множнікам, які не залежыць ад параметраў мадэлі.

Напрыклад, ацэнка максімальнай праўдападобнасці параметраў лог-нармальнага размеркавання такая самая як і ў нармальнага размеркавання, атрыманая на лагарыфмаваных даных.

Remove ads

Крыніцы

Loading content...

Літаратура

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads