Статистична значущість

Статистична значущість результату в статистиці являє собою оцінку міри впевненості в його «істинності» (у розумінні «репрезентативності вибірки»). У статистиці величину називають статистично значущою, якщо мала ймовірність чисто випадкового виникнення її або ще більш крайніх величин. Тут під крайністю розуміється ступінь відхилення від нульової гіпотези. Різниця називається «статистично значущою», якщо є дані, поява яких була б малоймовірна, якщо припустити, що ця різниця відсутня; цей вираз не означає, що дана різниця повинна бути велика, важлива, або значуща в загальному сенсі цього слова.

Рівень значущості тесту — це традиційне поняття перевірки гіпотез в частотній статистиці. Він визначається як імовірність ухвалити рішення відхилити нульову гіпотезу, якщо насправді нульова гіпотеза вірна (рішення відоме як похибка першого роду). Процес рішення часто спирається на p-величину (читається «пі-величина»): якщо p-величина менша за рівень значущості, то нульова гіпотеза відкидається. Чим менша p-величина, тим більше значущою називається тестова статистика. Чим менша p-величина, тим сильніші підстави відкинути нульову гіпотезу.

Рівень значущості звичайно позначають грецькою буквою α (альфа). Популярними рівнями значущості є 10%, 5%, 1%, і 0,1%. Якщо тест видає p-значення, менше за α-рівень, то нульова гіпотеза відхиляється. Такі результати називають «статистично значущими». Наприклад, якщо хтось говорить, що «шанси того, що те, що трапилося, є збігом, рівним одному з тисячі», то мають на увазі рівень значущості 0,1%.

P-рівень (цей термін був уперше використаний у роботі Brownlee, 1960) — це показник, що перебуває в оберненій залежності від надійності результату. Вищий p-рівень відповідає нижчому рівневі довіри до знайденої у вибірці залежності між змінними. Саме, p-рівень являє собою імовірність помилки, зв'язаної з поширенням результату, що він спостерігається, на всю популяцію. Наприклад, p-рівень = 0,05 (тобто 1/20) показує, що існує 5% імовірність того, що знайдений у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо дана залежність у популяції відсутня, а ви багаторазово проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати таку саме або сильнішу залежність між змінними. Відзначимо, що це не те саме, що стверджувати про реальну наявність залежності між змінними, котра в середньому може бути відтворена в 5% або 95% випадків; коли між змінними популяції існує залежність, імовірність повторення результатів дослідження, що показують наявність цієї залежності має назву статистична потужність плану. У багатьох дослідженнях p-рівень 0,05 розглядається як «припустима границя» рівня помилки.

Різні значення α-рівня мають свої переваги і недоліки. Менші α-рівні дають велику упевненість в тому, що вже встановлена альтернативна гіпотеза значуща, але при цьому є більший ризик не відкинути помилкову нульову гіпотезу (похибка другого роду), і таким чином менша статистична потужність. Вибір α-рівня неминуче вимагає компромісу між значущістю і потужністю, і, отже, між імовірністю похибок першого і другого роду. У вітчизняних наукових роботах часто вживається неправильний термін «достовірність» замість терміну «статистична значущість»^[1].

[1]