Дельта-правило

Суммиров вкратце

Перспектива

Собственно дельта-правилом называют математическую форму записи. Пусть вектор $\mathbf {X} ={x_{1},x_{2},...x_{r},...x_{m}}$ — вектор входных сигналов, а вектор $\mathbf {D} ={d_{1},d_{2},...d_{k},...d_{n}}$ — вектор сигналов, которые должны быть получены от перцептрона под воздействием входного вектора. Здесь $n$ — число нейронов, составляющих перцептрон. Входные сигналы, поступив на входы перцептрона, были взвешены и просуммированы, в результате чего получен вектор $\mathbf {Y} ={y_{1},y_{2},...y_{k},...y_{n}}$ выходных значений перцептрона. Тогда можно определить вектор ошибки $\mathbf {\mathrm {E} } ={e_{1},e_{2},...e_{k},...e_{n}}$ , размерность которого совпадает с размерностью вектора выходных сигналов. Компоненты вектора ошибок определяются как разность между ожидаемым и реальным значением выходного сигнала перцептронного нейрона:

\mathbf {\mathrm {E} =D-Y}

При таких обозначениях формулу для корректировки j-го веса i-го нейрона можно записать следующим образом:

w_{j}(t+1)=w_{j}(t)+e_{i}x_{j}

Номер сигнала $j$ изменяется в пределах от единицы до размерности входного вектора $m$ . Номер нейрона $i$ изменяется в пределах от единицы до количества нейронов $n$ . Величина $t$ — номер текущей итерации обучения. Таким образом, вес входного сигнала нейрона изменяется в сторону уменьшения ошибки пропорционально величине суммарной ошибки нейрона. Часто вводят коэффициент пропорциональности $\eta$ , на который умножается величина ошибки. Этот коэффициент называют скоростью или нормой^[1] обучения. Таким образом, итоговая формула для корректировки весов:

w_{j}(t+1)=w_{j}(t)+\eta e_{i}x_{j}

Remove ads

Обобщенное дельта-правило

Суммиров вкратце

Перспектива

С целью расширения круга задач, решаемых перцептроном, Уидроу и Хоффом^[2] была предложена сигмоидальная функция активации для нейронов. Это позволило перцептрону оперировать с непрерывными сигналами, но потребовало модификации алгоритма обучения^[3]. Модифицированный алгоритм направлен на минимизацию функции среднеквадратичной ошибки:

\epsilon ={\frac {1}{2}}\sum _{i=1}^{n}{(d_{i}-y_{i})^{2}}

Эта функция определяется матрицей весовых коэффициентов $w_{ij}$ . Здесь $i$ — номер нейрона, а $j$ — номер входа. Поверхность, описываемая этой функцией имеет форму псевдопараболоида^[4]. Задачей обучения является нахождение глобального минимума этой поверхности. Одним из способов нахождения минимума является метод градиентного спуска. Корректировка весов производится в направлении антиградиента поверхности:

\Delta w_{ij}=-\eta {\frac {\partial \epsilon }{\partial w_{ij}}}

Здесь $\eta$ — коэффициент скорости обучения.

Функция ошибки является сложной и зависит в первую очередь от выходных сигналов перцептрона. В соответствии с правилами дифференцирования сложных функций:

{\frac {\partial \epsilon }{\partial w_{ij}}}={\frac {\partial \epsilon }{\partial y_{i}}}{\frac {\partial y_{i}}{\partial w_{ij}}}

(*)

Выходной сигнал $y_{i}$ каждого нейрона определяется по формуле:

y_{i}=\operatorname {f} (S_{i}),S_{i}=\sum _{j=1}^{m}{w_{ij}x_{j}}

Здесь $m$ — число входов перцептрона, $x_{j}$ — сигнал на j-ом входе, а $\operatorname {f} (S)$ — функция активации. Тогда получим:

{\frac {\partial y_{i}}{\partial w_{ij}}}=({\frac {\partial \operatorname {f} (S)}{\partial S}})\mid _{S=S_{i}}{\frac {\partial S_{i}}{\partial w_{ij}}}=f^{\prime }(S_{i})x_{j}

(**)

Продифференцировав функцию ошибки по значению выходного сигнала получим:

{\frac {\partial \epsilon }{\partial y_{i}}}=-(d_{i}-y_{i})

(***)

Подставив формулы (**) и (***) в выражение (*) получим выражение для корректировки веса j-го входа у i-го нейрона при любой активационной функции^[5]:

\Delta w_{ij}=\eta (d_{i}-y_{i})f^{\prime }(S_{i})x_{j}

Из этой формулы видно, что в качестве активационной функции при использовании обобщенного дельта-правила функция активации нейронов должна быть непрерывно дифференцируемой на всей оси абсцисс. Преимущество имеют функции активации с простой производной (например — логистическая кривая или гиперболический тангенс).

На основе дельта-правила Уидроу и Хопфом был создан один из первых аппаратных нейрокомпьютеров Адалин (1960).

Remove ads

Дельта-правило

Дельта-правило

Обобщенное дельта-правило

Примечания

См. также

Литература

Wikiwand - on