Алгоритм Нидлмана — Вунша

Современное представление

Суммиров вкратце

Перспектива

Соответствие выровненных символов задается матрицей схожести. Здесь $S(a,\;b)$ — похожесть символов $a$ и $b$ . Также используется линейный штраф за разрыв, называемый здесь $d$ .

Например, если матрица похожести задается таблицей

Подробнее -, A ...

-	A	G	C	T
A	10	-1	-3	-4
G	-1	7	-5	-3
C	-3	-5	9	0
T	-4	-3	0	8

то выравнивание:

 GTTAC‒‒
 G‒‒ACGT

со штрафом за разрыв $d=-5$ будет иметь следующую оценку:

S(G,\;G)+2\times d+S(A,\;A)+S(C,\;C)+2\times d

=7+(2\times -5)+10+9+(2\times -5)=6.

Для нахождения выравнивания с наивысшей оценкой назначается двумерный массив (или матрица) $F$ , содержащая столько же строк, сколько символов в последовательности $A$ , и столько же столбцов, сколько символов в последовательности $B$ . Запись в строке $i$ и столбце $j$ обозначается далее как $F_{ij}$ . Таким образом, если мы выравниваем последовательности размеров $n$ и $m$ , то количество требуемой памяти будет $O(nm)$ . (Алгоритм Хиршберга^[англ.] позволяет вычислять оптимальное выравнивание, используя $O(n+m)$ количество памяти, но примерно вдвое большее время счета.)

В процессе работы алгоритма величина $F_{ij}$ будет принимать значения оптимальной оценки для выравнивания первых $i=0,\;\ldots ,\;n$ символов в $A$ и первых $j=0,\;\ldots ,\;m$ символов в $B$ . Тогда принцип оптимальности Беллмана может быть сформулирован следующим образом:

  Базис:
   $F_{0j}=d\cdot j$ 
   $F_{i0}=d\cdot i$ 
  Рекурсия, основанная на принципе оптимальности:
   $F_{ij}=\max(F_{i-1,\;j-1}+S(A_{i},\;B_{j}),\;F_{i,\;j-1}+d,\;F_{i-1,\;j}+d).$

Псевдо-код алгоритма для вычисления матрицы F представлен ниже:

  for i=0 to length(A)
    F(i,0) ← d*i
  for j=0 to length(B)
    F(0,j) ← d*j
  for i=1 to length(A)
    for j = 1 to length(B)
    {
      Match ← F(i-1,j-1) + S(A_i, B_j)
      Delete ← F(i-1, j) + d
      Insert ← F(i, j-1) + d
      F(i,j) ← max(Match, Insert, Delete)
    }

Когда матрица $F$ рассчитана, её элемент $F_{ij}$ дает максимальную оценку среди всех возможных выравниваний. Для вычисления самого выравнивания, которое получило такую оценку, нужно начать с правой нижней клетки и сравнивать значения в ней с тремя возможными источниками (соответствие, вставка или удаление), чтобы увидеть, откуда оно появилось. В случае соответствия $A_{i}$ и $B_{j}$ выровнены, в случае удаления $A_{i}$ выровнено с разрывом, а в случае вставки с разрывом выровнено уже $B_{j}$ . (В общем случае может быть более одного варианта с одинаковым значением, которые приведут к альтернативным оптимальным выравниваниям.)

  AlignmentA ← ""
  AlignmentB ← ""
  i ← length(A)
  j ← length(B)
  while (i > 0 or j > 0)
  {
    Score ← F(i,j)
    ScoreDiag ← F(i - 1, j - 1)
    ScoreUp ← F(i, j - 1)
    ScoreLeft ← F(i - 1, j)
    if (Score == ScoreDiag + S(A_i, B_j))
    {
      AlignmentA ← A_i + AlignmentA
      AlignmentB ← B_j + AlignmentB
      i ← i - 1
      j ← j - 1
    }
    else if (Score == ScoreLeft + d)
    {
      AlignmentA ← A_i + AlignmentA
      AlignmentB ← "-" + AlignmentB
      i ← i - 1
    }
    otherwise (Score == ScoreUp + d)
    {
      AlignmentA ← "-" + AlignmentA
      AlignmentB ← B_j + AlignmentB
      j ← j - 1
    }
  }
  while (i > 0)
  {
    AlignmentA ← A_i + AlignmentA
    AlignmentB ← "-" + AlignmentB
    i ← i - 1
  }
  while (j > 0)
  {
    AlignmentA ← "-" + AlignmentA
    AlignmentB ← B_j + AlignmentB
    j ← j - 1
  }

Remove ads

Исторические замечания

Суммиров вкратце

Перспектива

Нидлман и Вунш описали свой алгоритм в явном виде для случая, когда оценивается только соответствие или несоответствие символов, но не разрыв ( $d=0$ ). В оригинальной публикации^[1] от 1970 года предлагается рекурсия

F_{ij}=\max _{h<i,\;k<j}\{F_{h,\;j-1}+S(A_{i},\;B_{j}),\;F_{i-1,\;k}+S(A_{i},\;B_{j})\}.

Соответствующий алгоритм динамического программирования требует кубического времени для расчета. В статье также указывается, что рекурсия может быть адаптирована и на случай любой формулы для штрафа за разрыв:

Штраф за разрыв — число, вычитаемое за каждый разрыв, — может рассматриваться, как помеха появлению разрывов в выравнивании. Величина штрафа за разрыв может быть функцией размера и/или направления разрыва. [стр. 444]

Более быстрый алгоритм динамического программирования с квадратичным временем выполнения для той же задачи (нет штрафа за разрыв) был впервые предложен^[2] Давидом Санкофф в 1972. Аналогичный квадратичный по времени алгоритм был независимо открыт Т. К. Винцюком^[3] в 1968 для обработке речи (динамическое предыскажение шкалы) и Робертом А. Вагнером и Майклом Дж. Фишером^[4] в 1974 для сопоставления строк.

Нидлман и Вунш сформулировали свою задачу в терминах максимизации похожести. Другая возможность заключается в минимизации редакционного расстояния между последовательностями, предложенной В. Левенштейном, однако было показано^[5], что две эти задачи эквивалентны.

В современной терминологии «Нидлман — Вунш» относится к алгоритму выравнивания последовательностей квадратичному по времени для линейного или аффинного штрафа за разрыв.

Remove ads

Алгоритм Нидлмана — Вунша

Современное представление

Исторические замечания

См. также

Примечания

Ссылки

Wikiwand - on