Лучшие вопросы
Таймлайн
Чат
Перспективы

Упругая карта

тип карт, используемых для нелинейного сокращения размерности данных Из Википедии, свободной энциклопедии

Упругая карта
Remove ads

Упругая карта служит для нелинейного сокращения размерности данных. В многомерном пространстве данных располагается поверхность, которая приближает имеющиеся точки данных и при этом является, по возможности, не слишком изогнутой. Данные проецируются на эту поверхность и потом могут отображаться на ней, как на карте. Её можно представлять себе как упругую пластину, погруженную в пространство данных и прикрепленную к точкам данных пружинками. Служит обобщением метода главных компонент (в котором вместо упругой пластины используется абсолютно жесткая плоскость).

Thumb
Сравнение нелинейного метода главных многообразий и линейного метода главных компонент (МГК)[1] для визуализации данных генетических чипов по экспрессии генов в раке груди: a) Расположение узлов карты и двумерная главная поверхность, спроектированная на трехмерное линейное многообразие первых трех главных компонент. Распределение точек данных искривленно и не может быть адекватно аппроксимировано двумерной главной плоскостью; b) Распределение проекций точек данных во внутренние координаты двумерной нелинейной главной поверхности (ELMap2D) вместе с оценкой плотности точек; c) То же, что и b), но для линейного двумерного главного многообразия (PCA2D). «Базальный» («basal») подтип рака груди визуализируется более адекватно на нелинейном отображении ELMap2D, а также некоторые особенности распределения точек данных (такие как, небольшие локальные сгущения плотности) лучше отражены в сравнении с PCA2D. Главные многообразия построены с использованием метода упругих карт. Данные об экспрессии генов взяты из[2]. Программное обеспечение доступно для свободного некоммерческого использования.[3][4]

По построению, упругая карта представляет собой систему упругих пружин, вложенную в многомерное пространство данных[1][5]. Эта система апроксимирует двумерное многообразие. Изменение коэффициентов упругости системы позволяет пользователю переключаться от совершенно неструктурированной кластеризации методом K-средних (в пределе нулевой упругости) к многообразиям близким к линейным многообразиям главных компонент (в пределе очень больших модулей изгиба и малых модулей растяжения). В промежуточном диапазоне значений коэффициентов упругости, система эффективно апроксимирует некоторое нелинейное многообразие. Данный подход основывается на аналогии с механикой: главное многообразие, проходящее через «середину» данных, может быть представлено как упругая мембрана или пластинка. Метод был разработан проф., А. Н. Горбанем, А. Зиновьевым и А. Питенко в 1996—2001 годах.

Remove ads

Упругая энергия карты

Суммиров вкратце
Перспектива

Пусть набор данных будет представлен множеством векторов в конечномерном Евклидовом пространстве. «Упругая карта» представлена набором её узлов в том же пространстве. Для каждой точки данных , определяется узел-«хозяин» (host) как ближайший к точке узел карты (если окажется, что ближайших узлов несколько, то выбирается попросту узел с наименьшим порядковым номером). Набор данных делится на классы-таксоны .

Энергия апроксимации есть попросту среднеквадратичное уклонение от узлов карты

или, другими словами, есть суммарная упругая энергия пружинок с единичным коэффициентом упругости, соединяющих каждую точку данных с её узлом-«хозяином».

Необходимо ввести следующую дополнительную структуру на множестве узлов. Некоторые пары узлов, , соединены упругими связями-ребрами. Обозначим набор ребер графа как . Кроме того, будем объединять некоторые тройки узлов, в «ребра жесткости». Обозначим набор ребер жесткости как .

Энергия растяжения упругой карты определяется как
Энергия сгиба упругой карты определяется как

где и являются коэффициентами упругости на растяжение и сгиб соответственно.

Например, в случае двумерной прямоугольной сетки узлов, упругие связи являются вертикальными и горизонтальными ребрами решетки (пары ближайших вершин), в то время как ребра жесткости есть вертикальные и горизонтальные тройки последовательных (ближайших) узлов.

Энергия упругой карты определена как

Мы требуем от вложения карты того, чтобы карта находилась бы в механическом равновесии: карта должна минимизировать энергию упругости .

Remove ads

Алгоритм максимизации ожидания (EM-алгоритм)

Суммиров вкратце
Перспектива

Для заданного разбиения набора данных на классы , минимизация квадратичного функционала сводится к задаче решения системы линейных уравнений с разреженной матрицей коэффициентов. Вполне аналогично итеративному алгоритму построения главных компонент или алгоритму метода K-средних, может быть использован прием «расщепления»:

  • Для заданного положения узлов находим ;
  • Для заданного разбиения минимизируем и находим ;
  • Если конфигурация узлов мало меняется, завершить процесс, иначе повторить итерацию.

Подобный алгоритм максимизации ожидания гарантирует сходимость к локальному минимуму . Для того, чтобы улучшить апроксимацию, могут быть использованы различные дополнительные методы: например, стратегия «размягчения». Согласно этому приему, мы должны начать построение карты с очень жесткой системы (малые длины ребер, малые изгибы и большие значения коэффициентов упругости и ), а завершать построение «гибкой» системой (малые значения и ). Обучение карты проходит в несколько этапов, причем каждый этап характеризуется своей упругостью.

Другой вариант стратегии оптимизации может быть назван «растущей сеткой»: построение карты начинается с небольшого числа узлов, и продолжается постепенным добавлением новых узлов, с последующей оптимизацией положения системы на каждом этапе[5].

Remove ads

Применение

Thumb
Пример использования главной кривой, построенной методом упругих карт: Нелинейный индекс качества жизни[6]. Здесь точки представляют собой данные о 171 странах в 4-мерном пространстве сформированном значениями четырёх показателей: валовый доход на душу населения, ожидаемая продолжительность жизни, детская смертность, заболеваемось туберкулезом. Различные формы и цвета точек отображают разные географические местоположения. Толстая красная линия изображает «главную кривую», апроксимирующую набор данных.

Главные применения метод нашёл в биоинформатике[7][8], для разведочного анализа и визуализации многомерных данных, для визуализации данных в экономике, социологии и политологии[9], как вспомогательный метод для визуализации данных различной природы, привязанных к географической сетке. В последнее время метод был адаптирован как средство для систем поддержки принятия решений для отбора, оптимизации и организации биржевых корзин.[10]

Примечания

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads