Исправљач (неуронске мреже)

У контексту вештачких неуронских мрежа, функција активације исправљача или ReLU (Rectified Linear Unit) ^[1] ^[2] је активациона функција дефинисана као позитиван део свог аргумента:

f(x)=x^{+}=\max(0,x)

где x представља улаз у неурон. Ово је иначе познато и као функција рампе и аналогно је полуталасном исправљању која је област у електротехници .

Ова активациона функција се почела појављивати у контексту екстракције визуелних карактеристика у хијерархијским неуронским мрежама почевши од краја 1960-их година. ^[3] ^[4] Касније се тврдило да има јаке биолошке мотиве и математичка оправдања. ^[5] 2011. године је откривено да омогућава бољу обуку дубљих мрежа, ^[6] у поређењу са широко коришћеним активационим функцијама од пре 2011. године, на пример, логистички сигмоид (који је инспирисан теоријом вероватноће ; погледајте и логистичку регресију ) и његов практичнији ^[7] еквивалент, хиперболичка тангента . Исправљач је, од 2017. године, најпопуларнија активациона функција за дубоке неуронске мреже . ^[8]

Исправљене линеарне јединице углавном налазе примену у компјутерском виду ^[9] и препознавању говора ^[10] ^[11] тако што користе дубоке неуронске мреже и рачунарску неуронауку . ^[12] ^[13] ^[14]

Remove ads

Предности

Ретка активација: На пример, у насумично иницијализованој мрежи, само око 50% скривених јединица је активирано (имају не-нултну излазну вредност).
Боље ширење градијента: Мање проблема са нестајајућим градијентом у поређењу са функцијама сигмоидалне активације које се засићују у оба смера. ^[9]
Ефикасно рачунање: Само поређење, сабирање и множење.
Инваријантна размера: $\max(0,ax)=a\max(0,x){\text{ for }}a\geq 0$ .

Активационе функције за исправљање су коришћене за раздвајање специфичне ексцитације и неспецифичних инхибиција у неурално апстрактној пирамиди, која је обучена на надгледајући начин да научи неколико задатака компјутерске визије. ^[15] У 2011. години, ^[9] показало се да употреба исправљача као нелинеарности омогућава обуку дубоко надгледаних неуронских мрежа без потребе за претходном обуком без надзора . Исправљене линеарне јединице, у поређењу са сигмоидном функцијом или сличним активационим функцијама, омогућавају бржи и ефикаснији тренинг дубоких неуронских архитектура на великим и сложеним скуповима података.

Remove ads

Потенцијални проблеми

Није диференцијабилан на нули; међутим, може се разликовати било где другде, а вредност деривата на нули може се произвољно изабрати да буде 0 или 1.
Није нултно-центриран.
Неограниченост
Проблем умирања ReLU-а: ReLU (Rectified Linear Unit) неурони понекад могу бити гурнути у стања у којима постају неактивни за суштински све улазе. У овом стању, ниједан од градијената не тече уназад кроз неурон, тако да се неурон заглави у трајно неактивном стању и „умире「. Ово је облик проблема нестајања градијента . У неким случајевима, велики број неурона у мрежи може да се заглави у мртвим стањима, ефективно смањујући капацитет модела. Овај проблем се обично јавља када је стопа учења постављена превисоко. Може се ублажити коришћењем пропуштајућих ReLU-ова, који додељују мали позитиван нагиб за х < 0; међутим, перформансе су смањене.

Remove ads

Варијанте

Комадично-линеарне варијанте

Пропуштајући ReLU

Пропуштајући ReLU-ови дозвољавају мали, позитиван градијент када јединица није активна. Следећа функција гласи: ^[11]

f(x)={\begin{cases}x&{\text{if }}x>0,\\0.01x&{\text{otherwise}}.\end{cases}}

Параметризован ReLU

Параметризовани ReLU-ови (PReLUs) развијају ову идеју даље тако што претварају коефицијент цурења у параметар који се учи заједно са другим параметрима неуронске мреже. ^[16]

f(x)={\begin{cases}x&{\text{if }}x>0,\\ax&{\text{otherwise}}.\end{cases}}

Имајте на уму да су за а ≤ 1 ове две функције еквивалентне максималној вредности функције која се налази испод

f(x)=\max(x,ax)

и самим тим имају везу са "maxout" мрежама. ^[17]

Друге нелинеарне варијанте

Гаусова линеарна јединица грешке (GELU)

GELU представља глатку апроксимацију исправљача. Има немонотонски „bump「 када је х < 0, и служи као подразумевана активација за моделе као што је БЕРТ . ^[18]

$f(x)=x\cdot \Phi (x)$ ,

где Φ( х ) представља кумулативна функција расподеле стандардне нормалне расподеле .

Ова активациона функција је илустрована на слици која се налази на почетку овог чланка.

SiLU

SiLU (Сигмоидова Линеарна Јединица) или функција swish ^[19] је још једна глатка апроксимација која је први пут скована у ГЕЛУ раду. ^[20]

$f(x)=x\cdot \operatorname {sigmoid} (x)$

где $\operatorname {sigmoid} (x)$ је сигмоидна функција .

Softplus

Апроксимација исправљача глатког и лаганог облика представља наведену аналитичку функцију која је представљена функцијом испод:

f(x)=\ln(1+e^{x}),

и та функција се назива softplus ^[21] ^[9] или SmoothReLU . ^[22] За велике негативне вредности $x$ је отприлике једнако $ln(1)$ дакле нешто изнад 0, док за велике позитивне вредности $x$ је отприлике једнако $ln(e^{x})$ тек мало изнад $x$ .

Параметар оштрине $k$ може бити укључено:

f(x)={\frac {\ln \left(1+e^{kx}\right)}{k}}

Извод softplus-а једнак је логистичкој функцији . Почевши од параметарске верзије,

f'(x)={\frac {e^{kx}}{1+e^{kx}}}={\frac {1}{1+e^{-kx}}}

Логистичка сигмоидна функција је приближна апроксимација извода исправљача, односно Хевисајдове корак функције .

Мултиваријабилна генерализација softplus-а са једном променљивом је LogSumExp са првим аргументом који је постављен на нулу:

\operatorname {LSE_{0}} ^{+}(x_{1},\dots ,x_{n}):=\operatorname {LSE} (0,x_{1},\dots ,x_{n})=\log \left(1+e^{x_{1}}+\cdots +e^{x_{n}}\right).

Функција LogSumExp је

\operatorname {LSE} (x_{1},\dots ,x_{n})=\log \left(e^{x_{1}}+\cdots +e^{x_{n}}\right),

а његов градијент представља softmax ; softmax са првим аргументом који је постављен на нулу је мултиваријабилна генерализација логистичке функције. И LogSumExp и softmax се користе у машинском учењу.

ELU

Експоненцијалне линеарне јединице покушавају да учине средње активације буду ближе нули, што убрзава процес учења. Показало се да ELU могу постићи већу тачност класификације од ReLU-ова. ^[23]

f(x)={\begin{cases}x&{\text{if }}x>0,\\a\left(e^{x}-1\right)&{\text{otherwise}},\end{cases}}

где $a$ је хиперпараметар који треба подесити, и $a\geq 0$ је ограничење.

ELU се може посматрати као да је изглађена верзија помереног ReLU (SReLU), који има облик функције $f(x)=\max(-a,x)$ с обзиром на исто тумачење $a$ .

Mish

Mish функција се такође може икористити као апроксимација исправљача глатког облика. ^[24] Дефинише се као

f(x)=x\tanh(\operatorname {softplus} (x))

где $\tanh(x)$ представља хиперболичну тангенту и $\operatorname {softplus(x)}$ је softplus функција.

Миш је немонотон и самосталан . ^[25] Инспирисан је Swish -ом, који је варијанта ReLU-а . ^[25]

Remove ads

Види још

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads