Лучшие вопросы
Таймлайн
Чат
Перспективы
Критерий Вальда — Вольфовица
непараметрический критерий проверки нулевой гипотезы о том, что две выборки были взяты из идентичных популяций, основанный на том, являетс Из Википедии, свободной энциклопедии
Remove ads
Критерий Вальда — Вольфовица (тест периодов, тест прогонов, критерий серий Вальда-Вольфовица), названный в честь статистиков Абрахама Вальда и Джейкоба Вольфовица, представляет собой непараметрический статистический тест, который проверяет гипотезу о случайности для двух последовательностей данных одинаковой длины. Точнее, данный критерий можно использовать для проверки нулевой гипотезы о том, что элементы двух последовательностей взаимно независимы.
Remove ads
Определение
Суммиров вкратце
Перспектива
Прогон последовательности — это максимальный непустой сегмент последовательности, состоящий из соседних равных элементов. Если последовательность действительно случайна, то прогонов не должно быть слишком мало, но и не должно быть слишком много.
Например, последовательность длиной в 22 элемента
- + + + + − − − + + + − − + + + + + + − − − −
состоит из 6 прогонов, 3 из которых состоят из «+», а остальные из «−». Тест прогонов основан на нулевой гипотезе о том, что каждый элемент в последовательности независимо берется из одного и того же распределения.
Согласно нулевой гипотезе, количество прогонов в последовательности из N элементов [прим. 1] является случайной величиной, условное распределение которой, учитывая наблюдение N+ положительных значений [прим. 2] и N− отрицательных значений [прим. 3] (N = N+ + N−), является приблизительно нормальным, при этом [1][2] математическое ожидание , дисперсия .
Эти параметры не предполагают, что положительные и отрицательные элементы имеют равные вероятности появления, а только предполагают, что элементы независимы и одинаково распределены. Если количество прогонов значительно выше или ниже ожидаемого, гипотеза о статистической независимости элементов может быть отклонена.
Remove ads
Применение
Тест прогонов может быть использован, чтобы проверить:
- Случайность распределения данных в последовательности. Таким образом данные проверяются на предмет стационарности или отсутствие корреляции во временном ряду или другой последовательности, особенно если распределение признака неизвестно. Нулевая гипотеза здесь заключается в том, что последовательные значения некоррелированы. Данные выбираются из последовательности в порядке их следования: знаком «+» отмечаются данные равные или превышающие медиану; знаком «–» — данные меньшие медианы.
- Насколько хорошо функция соотносится с датасетом. Данные, превышающие значение функции, отмечаются знаком «+», остальные данные отмечаются знаком «–». В этом случае тест прогонов, учитывающий знаки, но не расстояния, является дополнением к критерию хи-квадрат, который учитывает расстояния, но не знаки — обе контрольные величины асимптотически независимы друг от друга.
Remove ads
Пример проверки на случайность распределения данных
Суммиров вкратце
Перспектива
Рассмотрим последовательность
13 3 14 14 1 14 3 8 14 17 9 14 13 2 16 1 3 12 13 14
Отнесем каждое значение данной последовательности к одной из 2 групп («+» или «–») с учетом того больше оно или меньше медианы = 13
0 -10 1 1 -12 1 -10 -5 1 4 -4 1 0 -11 3 -12 -10 -1 0 1
+ - + + - + - - + + - + + - + - - - + +
При N+ = 11 и N- = 9 получается r = 13 прогонов.
R приблизительно нормально распределено с математическим ожиданием и дисперсией .
В этом случае контрольная величина z рассчитывается как .
При уровне значимости 0,05 нулевая гипотеза H0 отвергается, если |z| > 1,96. Это не наш случай.
Результат: нулевая гипотеза не отвергается. Элементы выборки, по-видимому, выбраны случайным образом.
Поскольку тест прогонов не является параметрическим тестом, то к результату следует относиться с осторожностью. Например, при уровне достоверности 90% нулевая гипотеза может быть отвергнута, однако параметрический критерий Шапиро-Уилка показывает, что значения данного числового ряда не распределены нормальным образом!
Remove ads
Связанные критерии
Критерий Вальда-Вольфовица, первоначально предложенный для использования с двумя выборками (последовательностями) [3][4], впоследствии был расширен для использования с несколькими выборками.[5][6][7][8]
Примечания
Ссылки
Внешние ссылки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads