Исправљач (неуронске мреже)

From Wikipedia, the free encyclopedia

Исправљач (неуронске мреже)
Remove ads

У контексту вештачких неуронских мрежа, функција активације исправљача или ReLU (Rectified Linear Unit) [1] [2] је активациона функција дефинисана као позитиван део свог аргумента:

 

Thumb
Графикон функције РеЛУ исправљача (плави) и ГЕЛУ (зелени) у близини x = 0

где x представља улаз у неурон. Ово је иначе познато и као функција рампе и аналогно је полуталасном исправљању која је област у електротехници .

Ова активациона функција се почела појављивати у контексту екстракције визуелних карактеристика у хијерархијским неуронским мрежама почевши од краја 1960-их година. [3] [4] Касније се тврдило да има јаке биолошке мотиве и математичка оправдања. [5] 2011. године је откривено да омогућава бољу обуку дубљих мрежа, [6] у поређењу са широко коришћеним активационим функцијама од пре 2011. године, на пример, логистички сигмоид (који је инспирисан теоријом вероватноће ; погледајте и логистичку регресију ) и његов практичнији [7] еквивалент, хиперболичка тангента . Исправљач је, од 2017. године, најпопуларнија активациона функција за дубоке неуронске мреже . [8]

Исправљене линеарне јединице углавном налазе примену у компјутерском виду [9] и препознавању говора [10] [11] тако што користе дубоке неуронске мреже и рачунарску неуронауку . [12] [13] [14]

Remove ads

Предности

  • Ретка активација: На пример, у насумично иницијализованој мрежи, само око 50% скривених јединица је активирано (имају не-нултну излазну вредност).
  • Боље ширење градијента: Мање проблема са нестајајућим градијентом у поређењу са функцијама сигмоидалне активације које се засићују у оба смера. [9]
  • Ефикасно рачунање: Само поређење, сабирање и множење.
  • Инваријантна размера: .

Активационе функције за исправљање су коришћене за раздвајање специфичне ексцитације и неспецифичних инхибиција у неурално апстрактној пирамиди, која је обучена на надгледајући начин да научи неколико задатака компјутерске визије. [15] У 2011. години, [9] показало се да употреба исправљача као нелинеарности омогућава обуку дубоко надгледаних неуронских мрежа без потребе за претходном обуком без надзора . Исправљене линеарне јединице, у поређењу са сигмоидном функцијом или сличним активационим функцијама, омогућавају бржи и ефикаснији тренинг дубоких неуронских архитектура на великим и сложеним скуповима података.

Remove ads

Потенцијални проблеми

  • Није диференцијабилан на нули; међутим, може се разликовати било где другде, а вредност деривата на нули може се произвољно изабрати да буде 0 или 1.
  • Није нултно-центриран.
  • Неограниченост
  • Проблем умирања ReLU-а: ReLU (Rectified Linear Unit) неурони понекад могу бити гурнути у стања у којима постају неактивни за суштински све улазе. У овом стању, ниједан од градијената не тече уназад кроз неурон, тако да се неурон заглави у трајно неактивном стању и „умире「. Ово је облик проблема нестајања градијента . У неким случајевима, велики број неурона у мрежи може да се заглави у мртвим стањима, ефективно смањујући капацитет модела. Овај проблем се обично јавља када је стопа учења постављена превисоко. Може се ублажити коришћењем пропуштајућих ReLU-ова, који додељују мали позитиван нагиб за х < 0; међутим, перформансе су смањене.
Remove ads

Варијанте

Комадично-линеарне варијанте

Пропуштајући ReLU

Пропуштајући ReLU-ови дозвољавају мали, позитиван градијент када јединица није активна. Следећа функција гласи: [11]

Параметризован ReLU

Параметризовани ReLU-ови (PReLUs) развијају ову идеју даље тако што претварају коефицијент цурења у параметар који се учи заједно са другим параметрима неуронске мреже. [16]

Имајте на уму да су за а ≤ 1 ове две функције еквивалентне максималној вредности функције која се налази испод

и самим тим имају везу са "maxout" мрежама. [17]

Друге нелинеарне варијанте

Гаусова линеарна јединица грешке (GELU)

GELU представља глатку апроксимацију исправљача. Има немонотонски „bump「 када је х < 0, и служи као подразумевана активација за моделе као што је БЕРТ . [18]

,

где Φ( х ) представља кумулативна функција расподеле стандардне нормалне расподеле .

Ова активациона функција је илустрована на слици која се налази на почетку овог чланка.

SiLU

SiLU (Сигмоидова Линеарна Јединица) или функција swish [19] је још једна глатка апроксимација која је први пут скована у ГЕЛУ раду. [20]

где је сигмоидна функција .

Softplus

Апроксимација исправљача глатког и лаганог облика представља наведену аналитичку функцију која је представљена функцијом испод:

и та функција се назива softplus [21] [9] или SmoothReLU . [22] За велике негативне вредности је отприлике једнако дакле нешто изнад 0, док за велике позитивне вредности је отприлике једнако тек мало изнад .

Параметар оштрине може бити укључено:

Извод softplus-а једнак је логистичкој функцији . Почевши од параметарске верзије,

Логистичка сигмоидна функција је приближна апроксимација извода исправљача, односно Хевисајдове корак функције .

Мултиваријабилна генерализација softplus-а са једном променљивом је LogSumExp са првим аргументом који је постављен на нулу:

Функција LogSumExp је

а његов градијент представља softmax ; softmax са првим аргументом који је постављен на нулу је мултиваријабилна генерализација логистичке функције. И LogSumExp и softmax се користе у машинском учењу.

ELU

Експоненцијалне линеарне јединице покушавају да учине средње активације буду ближе нули, што убрзава процес учења. Показало се да ELU могу постићи већу тачност класификације од ReLU-ова. [23]

где је хиперпараметар који треба подесити, и је ограничење.

ELU се може посматрати као да је изглађена верзија помереног ReLU (SReLU), који има облик функције с обзиром на исто тумачење .

Mish

Mish функција се такође може икористити као апроксимација исправљача глатког облика. [24] Дефинише се као

где представља хиперболичну тангенту и је softplus функција.

Миш је немонотон и самосталан . [25] Инспирисан је Swish -ом, који је варијанта ReLU-а . [25]

Remove ads

Види још

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads