Лучшие вопросы
Таймлайн
Чат
Перспективы

Оценочная функция Тейла – Сена

Из Википедии, свободной энциклопедии

Оценочная функция Тейла – Сена
Remove ads

В непараметрической статистике существует метод для робастного линейного сглаживания[англ.] множества точек (простая линейная регрессия), в котором выбирается медиана наклонов всех прямых, проходящих через пары точек выборки на плоскости. Метод называется оценочной функцией Тейла — Сена, оценочной функцией Сена коэффициента наклона[1][2], выбором наклона[3][4], методом одной медианы[5], методом Кендалла робастного приближения прямой [6][7] и робастной прямой Кендалла — Тейла[8]. Метод назван именами Анри Тейла и Пранаба К. Сена, опубликовавшими статьи об этом методе в 1950 и 1968 соответственно, а также именем Мориса Кендалла.

Thumb
Оценочная функция Тейла — Сена множества точек выборки (чёрная линия) по сравнению с неробастными методом наименьших квадратов для того же множества (синия линия). Зелёная пунктирная линия представляет истинные данные, из которых выборки были сгенерированы.

Эта оценочная функция может быть эффективно вычислена и она нечувствительна к выбросам. Она может быть существенно более точна, чем неробастный метод наименьших квадратов для несимметричных и гетероскедастичных данных и хорошо конкурирует с неробастным методом наименьших квадратов даже для нормально распределенных данных в терминах статистической мощности[9]. Метод признан «наиболее популярной непараметрической техникой оценки линейного тренда»[2].

Remove ads

Определение

Как определил Тейл[10], оценочная функция Тейла — Сена множества точек на плоскости (xi,yi) — это медиана m коэффициентов наклона (yj yi)/(xj xi) по всем парам точек выборки. Сен[11] расширил это определение для обработки случая, когда две точки имеют одинаковые координаты x. По определению Сена медиана коэффициентов наклона берётся только по парам точек, имеющих различные координаты x.

Когда наклон m вычислен, можно определить прямую из точек выборки путём выбора точки b пересечения оси y, равной медиане значений yi mxi [12]. Как заметил Сен, это оценочная функция, которая делает τ-коэффициент ранговой корреляции Кендалла сравнения xi с остатком i-го наблюдения приблизительно равным нулю[13].

Доверительный интервал для оценки угла наклона может быть определён как интервал, содержащий средние 95 % значений коэффициентов наклона прямых, проходящих через пары точек[14], и может быть быстро оценён семплированием пар и определением 95%-го интервала семплированных коэффициентов наклона. Согласно численному моделированию, выборка примерно 600 пар точек достаточна для определения точного доверительного интервала[9].

Remove ads

Вариации

Вариантом оценочной функции Тейла — Сена по Сигелу[15] определяет для каждой точки выборки (xi,yi) медиану mi коэффициентов наклона (yj yi)/(xj xi) прямых, проходящих через эту точку, а затем вычисляется общая оценочная функция как медиана этих медиан.

Другой вариант выбирает пары точек выборки по рангу их x-координат (точке с наименьшей координатой выбирается в пару первая точка выше координаты медианы и т. д.), затем вычисляются коэффициенты наклона прямых, определяемых этими парами точек[16].

Изучаются также варианты оценочной функции Тейла — Сена, базирующиеся на взвешенных медианах[англ.], основанные на принципе, что пары выборок, x-координаты которых отличаются больше, более вероятно имеют более точный наклон, а потому должны иметь больший вес[17]

Для сезонных данных может быть уместным сглаживать сезонные переменные в данных путём отбора пар точек выборки, которые принадлежат одному месяцу или тому же сезону года, а уж затем вычислять медиану коэффициентов наклона прямых, определённых этими ограниченными парами[18].

Remove ads

Статистические свойства

Суммиров вкратце
Перспектива

Оценочная функция Тейла — Сена является несмещённой оценкой истинного наклона в простой линейной регрессии[19][20]. Для многих распределений неслучайной ошибки эта оценочная функция имеет высокую асимптотическую эффективность[англ.] относительно метода наименьших квадратов[21][22]. Оценочные функции с низкой эффективностью требуют больше независимых наблюдений, чтобы достичь той же дисперсии, что и при эффективных несмещённых оценочных функциях.

Оценочная функция Тейла — Сена более робастна, чем оценочная функция метода наименьших квадратов, поскольку она существенно более устойчива к выбросам. Она имеет порог , что означает, что она может допустить искажение до 29,3 % входных данных без уменьшения точности[12]. Однако порог уменьшается для многомерных обобщений метода[23]. Более высокий порог, 50 %, имеется у другого робастного алгоритма линейной оценки, повторной медианной оценочной функции Сигела[12].

Оценочная функция Тейла — Сена является эквивариантной[англ.] при любом линейном преобразовании её переменных отклика, что означает, что преобразование данных с последующим построением оценивающей прямой и построение прямой с последующим преобразованием данных приводит к одинаковым результатам[24]. Однако оценочная функция не является эквивариантной при одновременном аффинном преобразовании как предикторных переменных, так и переменных отклика[23].

Алгоритмы

Суммиров вкратце
Перспектива

Медиана коэффициента наклона множества n точек выборки может быть вычислена точно путём вычисления всех O(n2) прямых через пары точек и применения алгоритма линейного времени для выбора медианы. Альтернативно, значение может быть оценено путём выборки пар точек. Задача эквивалентна, согласно проективной двойственности, задаче нахождения точки пересечения конфигурации прямых, которой принадлежит медиана x координат среди всех таких точек пересечения.[25]

Задача выбора коэффициента наклона точно, но эффективнее, чем грубый квадратичный перебор, интенсивно изучалась в вычислительной геометрии. Известны некоторые другие методы точного вычисления оценочной функции Тейла — Сена за время O(n log n) либо детерминированно[3], либо с использованием вероятностных алгоритмов[4]. Повторная медианная оценка Сигела может быть также построена эффективно за то же время[26]. В моделях вычислений, в которых входные координаты являются целыми числами и битовые операции над целыми числами берут постоянное время, задача может быть решена даже быстрее, с математическим ожиданием времени вычисления [27].

Оценочная функция коэффициента наклона с примерным рангом медианы, имеющая тот же порог, что и оценочная функция Тейла — Сена, может быть получена в поточной модели данных (в которой точки выборки обрабатываются алгоритмом одна за другой, и алгоритм не имеет достаточной памяти для постоянного хранения всего множества данных), используя алгоритм, основанный на ε-сетях[англ.][28].

Remove ads

Приложения

Оценочная функция Тейла — Сена была использована в астрономии ввиду возможности работать с цензурированными моделями регрессии[29]. Фернандес и Леблан предложили использовать её в биофизике[30] дистанционного зондирования, такого как оценка листовой поверхности путём измерения отражения, ввиду «простоты вычисления, аналитической оценки доверительного интервала, робастности по отношению к выбросам, проверяемые допущения относительно погрешности и … ограниченной априори информации относительно ошибок измерения». Для измерения сезонных данных окружающей среды, таких как качество воды, был предложен сезонный вариант оценочной функции Тейла — Сена как более предпочтительный по сравнению с методом наименьших квадратов, поскольку он даёт более высокую точность в случае асимметричных данных[18]. В информатике метод Тейла — Сена использовался для оценки тренда устаревания программного обеспечения[англ.][31]. Другое применение теста Тейла — Сена наблюдается в метеорологии и климатологии[32], где используется для оценки устойчивых тенденций направления и скорости ветров.

Remove ads

См. также

  • Регрессионное разведение[англ.], другая проблема, использующая оценивание тренда наклона

Примечания

Литература

Ссылки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads