Топ питань
Часова шкала
Чат
Перспективи
Інформація за Фішером
спосіб вимірювання кількості інформації, котру спостережувана випадкова величина несе про невідомий параметр розподілу, який її моделює З Вікіпедії, вільної енциклопедії
Remove ads
У математичній статистиці інформа́ція за Фі́шером (англ. Fisher information, іноді звана просто інформа́цією, англ. information[1]) — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина X несе про невідомий параметр θ розподілу, який моделює X. Формально це дисперсія внеску, або математичне сподівання спостережуваної інформації .
Роль інформації за Фішером в асимптотичній теорії оцінювання максимальною правдоподібністю підкреслив і дослідив статистик сер Рональд Фішер (після деяких початкових результатів Френсіса Ісидро Еджворта). Інформаційну матрицю за Фішером використовують для обчислення коваріаційних матриць, пов'язаних із оцінюванням максимальною правдоподібністю. Також її використовують у формулюванні статистичних критеріїв, як-от тесту Вальда .
У баєсовій статистиці інформація за Фішером відіграє роль у виведенні неінформативних апріорних розподілів за правилом Джеффріса .[2] Вона також з'являється як великови́біркова коваріація апостеріорного розподілу, за умови, що апріорний розподіл є достатньо гладеньким (результат, відомий як теорема Бернштайна — фон Мізеса , передбачена Лапласом для експоненційних сімейств ).[3] Той же результат використовують при наближуванні апостеріорного розподілу за допомогою лапласового наближення , де інформація за Фішером виступає як коваріація допасовуваного гауссового розподілу.[4]
Було показано, що статистичні системи наукового характеру (фізичні, біологічні тощо), чиї функції правдоподібності дотримуються інваріантності щодо зміщення , показують максимум інформації за Фішером.[5] Рівень цього максимуму залежить від характеру обмежень системи.
Remove ads
Визначення
Узагальнити
Перспектива
Інформація за Фішером — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина несе про невідомий параметр , від якого залежить імовірність . Нехай — функція густини імовірності (або функція маси імовірності) для , обумовлена значенням . Вона описує ймовірність спостерігання заданого результату за умови відомого значення . Якщо дає гострий пік відносно змін , то вказати «правильне» значення з даних легко, або, іншими словами, дані містять багато інформації про параметр . Якщо ж пло́ска й розсіяна, тоді потрібно багато зразків , щоб оцінити справжнє «істинне» значення , яке могло би бути отримане з використанням усієї сукупності, з якої роблять вибірку. Це вказує на необхідність вивчення певного виду дисперсії відносно .
Формально частинну похідну за натурального логарифму функції правдоподібності називають внеском (англ. score). За певних умов регулярності, якщо — істинний параметр (тобто справді розподілено як ), можливо показати, що математичне сподівання (перший момент) внеску, обчислене за істинного значення параметра , дорівнює 0:[6]
Інформацію за Фішером визначають як дисперсію внеску:[7]
зауважте, що . Випадкова величина, що несе високу інформацію за Фішером, вказує на те, що абсолютне значення внеску часто високе. Інформація за Фішером не є функцією конкретного спостереження, оскільки випадкову величину X було усереднено.
Якщо log f(x; θ) двічі диференційовний за θ, і за певних умов регулярності, то інформацію за Фішером також можна записати як[8]
оскільки
і
Отже, інформацію за Фішером можна розглядати як кривину кривої підтримки (англ. support curve, графіка логарифмічної правдоподібності). Поруч із оцінкою максимальною правдоподібністю, низька інформація за Фішером вказує на те, що максимум виглядає «тупим», тобто максимум неглибокий і багато сусідніх значень мають схожу логарифмічну правдоподібність. І, навпаки, висока інформація за Фішером вказує на те, що максимум гострий.
Умови регулярності
Умови регулярності такі:[9]
- Частинна похідна f(X; θ) за θ існує майже скрізь. (Вона може не існувати на нульовій множині, за умови, що ця множина не залежить від θ.)
- Інтеграл f(X; θ) можливо диференціювати під знаком інтеграла за θ.
- Носій f(X; θ) не залежить від θ.
Якщо θ — вектор, то умови регулярності мусять виконуватися для кожного компонента θ. Приклад густини, яка не задовольняє умови регулярності, знайти легко: густина рівномірної змінної Uniform(0, θ) не виконує умов 1 та 3. У цьому випадку, незважаючи на можливість обчислення інформації за Фішером за визначенням, вона не матиме властивостей, які зазвичай передбачаються.
В термінах правдоподібності
Оскільки правдоподібність θ для заданої X завжди пропорційна ймовірності f(X; θ), їхні логарифми обов'язково відрізняються на сталу, яка не залежить від θ, а похідні цих логарифмів за θ обов'язково рівні. Таким чином, до визначення інформації за Фішером замість log f(X; θ) можливо підставити функцію логарифмічної правдоподібності l(θ; X).
Вибірки будь-якого розміру
Значення X може подавати як один зразок, вибраний з одного розподілу, так і набір зразків, вибраних з набору розподілів. Якщо є n зразків, і відповідні n розподілів статистично незалежні, то інформація за Фішером обов'язково буде сумою значень інформації за Фішером для кожного окремого зразка з його розподілу. Зокрема, якщо ці n розподілів незалежні й однаково розподілені, то інформація за Фішером обов'язково становитиме n разів інформації за Фішером для одного зразка з загального розподілу. Іншими словами, інформація за Фішером н. о. р. спостережень вибірки розміру n із сукупності дорівнює добуткові n на інформацію за Фішером для одного спостереження з цієї ж сукупності.
Неформальний вивід межі Крамера — Рао
Нерівність Крамера — Рао[10][11] стверджує, що обернена величина інформації за Фішером є нижньою межею дисперсії будь-якого незміщеного оцінювача θ. Van Trees, (1968) та Frieden, (2004) пропонують наступний метод виведення межі Крамера — Рао, результат, який описує застосування інформації за Фішером.
Неформально, почнімо з розгляду незміщеного оцінювача . Математично «незміщеність» означає, що
- незалежно від значення
Цей вираз нульовий незалежно від θ, тож його частинна похідна за θ також мусить бути нульовою. За правилом добутку ця частинна похідна також дорівнює
Для кожного значення θ функція правдоподібності є функцією густини ймовірності, отже, . Використовуючи ланцюгове правило для частинної похідної , а потім ділячи й множачи на , можливо перевірити, що
Використовуючи ці два факти в наведеному вище виразі, отримуємо
Розкладання підінтегрального виразу на множники дає
При піднесенні виразу в інтегралі до квадрату нерівність Коші — Буняковського дає
Другий множник у дужках визначається як інформація за Фішером, а перший множник є середньоквадратичною похибкою оцінювача . За перетворення, ця нерівність каже нам, що
Іншими словами, точність можливої оцінки параметра θ принципово обмежена інформацією за Фішером функції правдоподібності.
Іншим чином той же висновок можливо отримати безпосередньо з нерівності Коші — Буняковського для випадкових величин , застосувавши її до випадкових величин та , і побачивши, що для незміщених оцінювачів маємо
Remove ads
Приклади
Узагальнити
Перспектива
Однопараметровий експеримент Бернуллі
Проба Бернуллі — це випадкова величина з двома можливими результатами: 0 та 1, де 1 має ймовірність θ. Цей результат можливо розглядати як підкидання несиметричної монети, де ймовірність випадіння аверса (1) дорівнює θ, а ймовірність випадіння реверса (0) — 1 − θ.
Нехай X — проба Бернуллі однієї вибірки з розподілу. Інформацію за Фішером, яка міститься в X, можна обчислити як
Оскільки інформація за Фішером адитивна, інформація за Фішером для n незалежних випробувань Бернуллі становить
Якщо — один з можливих результатів n незалежних випробувань Бернуллі, а — j-й результат i-го випробування, то ймовірність задається як
Середнє значення i-го випробування становить Математичне сподівання середнього значення випробування:
де сума береться по всіх можливих результатах випробувань. Математичне сподівання квадрата середнього:
тож дисперсія значення середнього становить
Видно, що інформація за Фішером є оберненою величиною дисперсії середнього числа успіхів у n випробуваннях Бернуллі. Це правило є загальним. У цьому випадку нерівність Крамера — Рао є рівністю.
Оцінка θ за X ∼ Bern (√θ)
Як інший модельний приклад розгляньмо випадкову величину з можливими результатами 0 та 1 з імовірностями та відповідно, для деякого . Наша мета — оцінити зі спостережень .
Інформація за Фішером для цього випадку виглядає якЦей вираз також можливо вивести безпосередньо перепараметруванням наведеної нижче формули. Загальніше, для будь-якої достатньо регулярної функції , такої, що , інформація за Фішером для оцінки за обчислюється аналогічно:
Remove ads
Матричний вигляд
Узагальнити
Перспектива
Коли параметрів N, тобто θ — вектор N × 1, тоді інформація за Фішером набуває вигляду матриці N × N. Цю матрицю називають інформаці́йною ма́трицею за Фі́шером (ІМФ, англ. Fisher information matrix, FIM), і її типовий елемент
ІМФ — додатно напіввизначена матриця N × N. Якщо вона додатно визначена, то вона визначає ріманову метрику[12] на N-вимірному просторі параметрів . Галузь інформаційної геометрії використовує це для поєднання інформації за Фішером з диференціальною геометрією, і в цьому контексті ця метрика відома як фішерова інформаційна метрика .
За певних умов регулярності інформаційну матрицю за Фішером можна також записати як
Цей результат цікавий з кількох причин:
- Його можливо вивести як матрицю Гессе відносної ентропії.
- Його можливо використовувати як ріманову метрику для визначення геометрії Фішера — Рао, коли він додатно визначений.[13]
- Його можливо розуміти як метрику, індуковану з евклідової метрики, після відповідної заміни змінної.
- У комплекснозначному вигляді це метрика Фубіні — Штуді.
- Він є ключовою частиною доведення теореми Уїлкса, яка дозволяє оцінювати довірчі області для оцінювання максимальною правдоподібністю (для тих умов, для яких це застосовно), не потребуючи принципу правдоподібності.
- У випадках, коли наведені вище аналітичні обчислення ІМФ складні, можливо робити усереднення простих оцінок Монте-Карло матриці Гессе від'ємної функції логарифмічної правдоподібності як оцінку ІМФ.[14][15][16] Ці оцінки можуть ґрунтуватися на значеннях від'ємної функції логарифмічної правдоподібності або її градієнті; аналітичне обчислення матриці Гессе від'ємної функції логарифмічної правдоподібності не потрібне.
Інформаційно ортогональні параметри
Кажуть, що два вектори компонент параметрів θ1 та θ2 інформаційно ортогональні (англ. information orthogonal), якщо інформаційна матриця за Фішером блочно-діагональна з цими компонентами в окремих блоках.[17] Ортогональні параметри зручні тим, що їхні оцінки максимальною правдоподібністю асимптотично некорельовані. Коли йдеться про аналіз статистичної моделі, варто витратити певний час на пошук ортогонального параметрування моделі, особливо коли цільовий параметр одновимірний, але завадний параметр може мати будь-яку вимірність.[18]
Сингулярна статистична модель
Якщо інформаційна матриця за Фішером додатно визначена для всіх значень θ, то відповідну статистичну модель називають регулярною (англ. regular); інакше модель називають сингулярною (англ. singular).[19] До прикладів сингулярних статистичних моделей належать: гауссові суміші , біноміальні суміші, багатовимірні суміші, баєсові мережі, нейронні мережі, радіальні базисні функції, приховані марковські моделі, стохастичні контекстовільні граматики , регресії зі зменшеним рангом (англ. reduced rank regressions), машини Больцмана.
У машинному навчанні, якщо статистичну модель розроблено так, що вона витягує приховану структуру з випадкового явища, то вона природно стає сингулярною.[20]
Багатовимірний нормальний розподіл
ІМФ для N-вимірного багатовимірного нормального розподілу має особливий вигляд. Нехай K-вимірний вектор параметрів це , а вектор випадкових нормальних величин це . Припустімо, що середні значення цих випадкових величин це , а — коваріаційна матриця. Тоді, для , елемент (m, n) ІМФ дорівнює:[21]
де позначує транспонування вектора, позначує слід квадратної матриці, а
Зауважте, що особливим, але дуже поширеним випадком є такий, коли , стала. Тоді
У цьому випадку інформаційну матрицю за Фішером можна ототожнити з матрицею коефіцієнтів нормальних рівнянь теорії найменших квадратів.
Інший особливий випадок виникає, коли середнє та коваріація залежать від двох різних векторних параметрів, скажімо, β та θ. Це особливо популярне в аналізі просторових даних, де часто використовують лінійну модель з корельованими залишками. У такому випадку[22]
де
Remove ads
Властивості
Узагальнити
Перспектива
Ланцюгове правило
Подібно до ентропії та взаємної інформації, інформація за Фішером також має розклад за ланцюго́вим пра́вилом (англ. chain rule). Зокрема, якщо X та Y — спільно розподілені випадкові величини, то має місце наступне:[23]
де , а — це інформація за Фішером Y щодо , обчислена за умовною густиною Y за заданого значення X = x.
Як окремий випадок, якщо дві випадкові величини незалежні, то інформація, яку вони дають, є сумою інформації від кожної з випадкових величин окремо:
Отже, інформація у вибірці з n незалежних однаково розподілених спостережень дорівнює n-кратній інформації для вибірки розміру 1.
f-розходження
Якщо задано опуклу функцію , таку, що скінченна для всіх , , а (яка може бути нескінченною), вона визначає f-розбіжність . Якщо строго опукла в , а потім локально в , інформаційна матриця за Фішером є метрикою, в тому сенсі що[24]де — розподіл, параметрований , тобто розподіл з функцією густини ймовірності .
У такій формі видно, що інформаційна матриця за Фішером є рімановою метрикою і правильно змінюється за зміни змінних. (див. розділ про перепараметрування.)
Достатня статистика
Інформація, яку надає достатня статистика, є такою ж, як і інформація вибірки X. Це можна побачити, використовуючи критерій розкладу Неймана для достатньої статистики. Якщо T(X) достатня для θ, то
для деяких функцій g та h. З незалежності h(X) від θ випливає, що
а рівність інформації випливає з визначення інформації за Фішером. Загальніше, якщо T = t(X) — статистика, то
і рівність виконується тоді й лише тоді, коли T — достатня статистика.[25]
Перепараметрування
Інформація за Фішером залежить від параметрування задачі. Якщо θ та η — два скалярні параметрування задачі оцінювання, і θ — неперервно диференційовна функція від η, то
де та — інформаційні міри за Фішером для η та θ відповідно.[26]
У випадку векторів, нехай та — k-вектори, які параметрують задачу оцінювання, і нехай — неперервно диференційовна функція від , тоді[27]
де елемент (i, j) матриці Якобі k × k визначається як
і де — транспонована матриця .
В інформаційній геометрії це розглядають як зміну координат на рімановому многовиді, і внутрішні властивості кривини залишаються незмінними за різних параметрувань. Загалом, інформаційна матриця за Фішером забезпечує ріманову метрику (точніше, метрику Фішера — Рао) для многовиду термодинамічних станів і її можливо використовувати як міру інформаційно-геометричної складності для класифікації фазових переходів, наприклад, скалярна кривина тензора термодинамічної метрики розбігається в точці фазового переходу (і лише там).[28]
У термодинамічному контексті інформаційна матриця за Фішером безпосередньо пов'язана з темпом зміни відповідних параметрів порядку.[29] Зокрема, такі зв'язки дозволяють виявляти фазові переходи другого порядку через розбіжність окремих елементів інформаційної матриці за Фішером.
Ізопериметрична нерівність
Інформаційна матриця за Фішером відіграє роль у нерівності, подібній до ізопериметричної нерівності.[30] Серед усіх імовірнісних розподілів із заданою ентропією, той, чия інформаційна матриця за Фішером має найменший слід, є гауссовим розподілом. Це подібно до того, як серед усіх обмежених множин із заданим об'ємом найменшу площу поверхні має сфера.
Доведення містить взяття багатовимірної випадкової величини з функцією густини і додавання параметра положення для утворення сімейства густин . Тоді, за аналогією з формулою Мінковського — Штайнера , «площа поверхні» визначається як
де — гауссова змінна з коваріаційною матрицею . Назва «площа поверхні» підходить, оскільки ентропійна потужність є об'ємом «ефективної опорної множини»,[31] тому є «похідною» від об'єму ефективної опорної множини, подібно до формули Мінковського — Штайнера. Решта доведення використовує нерівність ентропійної потужності , яка подібна до нерівності Брунна — Мінковського . Слід інформаційної матриці за Фішером виявляється пропорційним .
Remove ads
Застосування
Узагальнити
Перспектива
Оптимальне планування експериментів
Інформацію за Фішером широко використовують в оптимальному плануванні експериментів. Через взаємозв'язок дисперсії оцінювача та інформації за Фішером мінімізування цієї дисперсії відповідає максимізуванню цієї інформації.
Коли лінійна (або злінеаризована ) статистична модель містить декілька параметрів, середнє оцінювача цих параметрів є вектором, а його дисперсія — матрицею. Обернення матриці дисперсій називають «інформаційною матрицею» (англ. "information matrix"). Оскільки дисперсія оцінювача вектору параметрів — матриця, задача «мінімізування дисперсії» ускладнюється. За допомогою теорії статистики статистики стискають інформаційну матрицю до дійснозначних зведених статистик; як дійснозначні функції, ці «інформаційні критерії» можливо максимізувати.
Традиційно статистики оцінювали оцінювачі та плани експериментів за допомогою певної зведеної статистики коваріаційної матриці (незміщеного оцінювача), зазвичай із додатними дійсними значеннями (на кшталт визначника або сліду матриці). Робота з додатними дійсними числами має кілька переваг: якщо оцінювач одного параметра має додатну дисперсію, то дисперсія та інформація за Фішером є додатними дійсними числами; отже, вони є елементами опуклого конуса невід'ємних дійсних чисел (ненульові елементи якого мають обернені значення в цьому ж конусі).
Для декількох параметрів коваріаційні та інформаційні матриці є елементами опуклого конуса невід'ємно визначених симетричних матриць у частково впорядкованому векторному просторі з порядком Льовнера . Цей конус замкнений щодо додавання та обернення матриць, а також щодо множення додатних дійсних чисел і матриць. Огляд теорії матриць і порядку Льовнера наведено у праці Пукельсгайма.[32]
Традиційні критерії оптимальності є інваріантами інформаційної матриці в сенсі теорії інваріантів; алгебрично, традиційні критерії оптимальності є функціоналами власних значень (фішерової) інформаційної матриці (див. оптимальне планування).
Апріорний розподіл Джеффріса в баєсовій статистиці
У баєсовій статистиці інформацію за Фішером використовують для обчислення апріорного розподілу Джеффріса , стандартного неінформативного апріорного розподілу для параметрів неперервних розподілів.[33]
Обчислювальна нейронаука
Інформацію за Фішером використовували для знаходження меж точності нейронних кодів. У цьому випадку X зазвичай є спільними відгуками багатьох нейронів, які подають низьковимірну змінну θ (як-от параметр стимулу ). Зокрема, досліджували роль кореляцій у шумі нейронних відгуків.[34]
Епідеміологія
Інформацію за Фішером використовували для дослідження інформативності різних джерел даних для оцінки репродукційного числа SARS-CoV-2.[35]
Виведення фізичних законів
Інформація за Фішером відіграє центральну роль у суперечливому принципі, висунутому Фріденом як основа фізичних законів, що є предметом дискусій.[36]
Машинне навчання
Інформацію за Фішером використовують у методиках машинного навчання, таких як еластичне закріплювання ваг ,[37] які знижують катастрофічне забування у штучних нейронних мережах.
Інформацію за Фішером можливо використовувати як альтернативу матриці Гессе функції втрат у тренуванні мереж градієнтним спуском другого порядку.[38]
Розрізнення кольорів
Використовуючи фішерову інформаційну метрику , да Фонсека та ін.[39] досліджували, наскільки еліпси МакАдама (еліпси розрізнення кольорів) можливо вивести з функцій відгуку фоторецепторів сітківки.
Remove ads
Зв'язок із відносною ентропією
Узагальнити
Перспектива
Інформація за Фішером пов'язана з відносною ентропією.[40] Відносну ентропію, або розходження Кульбака — Лейблера, між двома розподілами та можливо записати як
Тепер розгляньмо сімейство ймовірнісних розподілів , параметрованих . Тоді розходження Кульбака — Лейблера між двома розподілами в цьому сімействі можливо записати як
Якщо параметр незмінний, то відносна ентропія між двома розподілами з того ж сімейства мінімізується при . Для значень , близьких до , попередній вираз можна розкласти в ряд до другого порядку:
Але другу похідну можливо записати як
Тож інформація за Фішером подає кривину відносної ентропії умовного розподілу відносно його параметрів.
Remove ads
Історія
Інформацію за Фішером обговорювали кілька ранніх статистиків, зокрема Ф. І. Еджворт.[41] Наприклад, Севідж[42] пише: «У ній [інформації за Фішером] його [Фішера] певною мірою передбачили (Еджворт 1908–9, особливо стор. 502, 507–8, 662, 677–8, 82–5 і посилання, які він [Еджворт] наводить, включно з Пірсоном і Філоном 1898 [. . .])». Існує кілька ранніх історичних джерел[43] і кілька оглядів цієї ранньої роботи.[44][45][46]
Remove ads
Див. також
- Ефективність (статистика)
- Спостережувана інформація
- Фішерова інформаційна метрика
- Формаційна матриця
- Інформаційна геометрія
- Апріорний розподіл Джеффріса
- Межа Крамера — Рао
- Принцип мінімальної інформації за Фішером
- Квантова інформація за Фішером
Інші міри, які використовують у теорії інформації:
Remove ads
Примітки
Джерела
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads