Исправљач (неуронске мреже)
From Wikipedia, the free encyclopedia
Remove ads
У контексту вештачких неуронских мрежа, функција активације исправљача или ReLU (Rectified Linear Unit) [1] [2] је активациона функција дефинисана као позитиван део свог аргумента:

где x представља улаз у неурон. Ово је иначе познато и као функција рампе и аналогно је полуталасном исправљању која је област у електротехници .
Ова активациона функција се почела појављивати у контексту екстракције визуелних карактеристика у хијерархијским неуронским мрежама почевши од краја 1960-их година. [3] [4] Касније се тврдило да има јаке биолошке мотиве и математичка оправдања. [5] 2011. године је откривено да омогућава бољу обуку дубљих мрежа, [6] у поређењу са широко коришћеним активационим функцијама од пре 2011. године, на пример, логистички сигмоид (који је инспирисан теоријом вероватноће ; погледајте и логистичку регресију ) и његов практичнији [7] еквивалент, хиперболичка тангента . Исправљач је, од 2017. године, најпопуларнија активациона функција за дубоке неуронске мреже . [8]
Исправљене линеарне јединице углавном налазе примену у компјутерском виду [9] и препознавању говора [10] [11] тако што користе дубоке неуронске мреже и рачунарску неуронауку . [12] [13] [14]
Remove ads
Предности
- Ретка активација: На пример, у насумично иницијализованој мрежи, само око 50% скривених јединица је активирано (имају не-нултну излазну вредност).
- Боље ширење градијента: Мање проблема са нестајајућим градијентом у поређењу са функцијама сигмоидалне активације које се засићују у оба смера. [9]
- Ефикасно рачунање: Само поређење, сабирање и множење.
- Инваријантна размера: .
Активационе функције за исправљање су коришћене за раздвајање специфичне ексцитације и неспецифичних инхибиција у неурално апстрактној пирамиди, која је обучена на надгледајући начин да научи неколико задатака компјутерске визије. [15] У 2011. години, [9] показало се да употреба исправљача као нелинеарности омогућава обуку дубоко надгледаних неуронских мрежа без потребе за претходном обуком без надзора . Исправљене линеарне јединице, у поређењу са сигмоидном функцијом или сличним активационим функцијама, омогућавају бржи и ефикаснији тренинг дубоких неуронских архитектура на великим и сложеним скуповима података.
Remove ads
Потенцијални проблеми
- Није диференцијабилан на нули; међутим, може се разликовати било где другде, а вредност деривата на нули може се произвољно изабрати да буде 0 или 1.
- Није нултно-центриран.
- Неограниченост
- Проблем умирања ReLU-а: ReLU (Rectified Linear Unit) неурони понекад могу бити гурнути у стања у којима постају неактивни за суштински све улазе. У овом стању, ниједан од градијената не тече уназад кроз неурон, тако да се неурон заглави у трајно неактивном стању и „умире「. Ово је облик проблема нестајања градијента . У неким случајевима, велики број неурона у мрежи може да се заглави у мртвим стањима, ефективно смањујући капацитет модела. Овај проблем се обично јавља када је стопа учења постављена превисоко. Може се ублажити коришћењем пропуштајућих ReLU-ова, који додељују мали позитиван нагиб за х < 0; међутим, перформансе су смањене.
Remove ads
Варијанте
Комадично-линеарне варијанте
Пропуштајући ReLU
Пропуштајући ReLU-ови дозвољавају мали, позитиван градијент када јединица није активна. Следећа функција гласи: [11]
Параметризован ReLU
Параметризовани ReLU-ови (PReLUs) развијају ову идеју даље тако што претварају коефицијент цурења у параметар који се учи заједно са другим параметрима неуронске мреже. [16]
Имајте на уму да су за а ≤ 1 ове две функције еквивалентне максималној вредности функције која се налази испод
и самим тим имају везу са "maxout" мрежама. [17]
Друге нелинеарне варијанте
Гаусова линеарна јединица грешке (GELU)
GELU представља глатку апроксимацију исправљача. Има немонотонски „bump「 када је х < 0, и служи као подразумевана активација за моделе као што је БЕРТ . [18]
,
где Φ( х ) представља кумулативна функција расподеле стандардне нормалне расподеле .
Ова активациона функција је илустрована на слици која се налази на почетку овог чланка.
SiLU
SiLU (Сигмоидова Линеарна Јединица) или функција swish [19] је још једна глатка апроксимација која је први пут скована у ГЕЛУ раду. [20]
где је сигмоидна функција .
Softplus
Апроксимација исправљача глатког и лаганог облика представља наведену аналитичку функцију која је представљена функцијом испод:
и та функција се назива softplus [21] [9] или SmoothReLU . [22] За велике негативне вредности је отприлике једнако дакле нешто изнад 0, док за велике позитивне вредности је отприлике једнако тек мало изнад .
Параметар оштрине може бити укључено:
Извод softplus-а једнак је логистичкој функцији . Почевши од параметарске верзије,
Логистичка сигмоидна функција је приближна апроксимација извода исправљача, односно Хевисајдове корак функције .
Мултиваријабилна генерализација softplus-а са једном променљивом је LogSumExp са првим аргументом који је постављен на нулу:
Функција LogSumExp је
а његов градијент представља softmax ; softmax са првим аргументом који је постављен на нулу је мултиваријабилна генерализација логистичке функције. И LogSumExp и softmax се користе у машинском учењу.
ELU
Експоненцијалне линеарне јединице покушавају да учине средње активације буду ближе нули, што убрзава процес учења. Показало се да ELU могу постићи већу тачност класификације од ReLU-ова. [23]
где је хиперпараметар који треба подесити, и је ограничење.
ELU се може посматрати као да је изглађена верзија помереног ReLU (SReLU), који има облик функције с обзиром на исто тумачење .
Mish
Mish функција се такође може икористити као апроксимација исправљача глатког облика. [24] Дефинише се као
где представља хиперболичну тангенту и је softplus функција.
Миш је немонотон и самосталан . [25] Инспирисан је Swish -ом, који је варијанта ReLU-а . [25]
Remove ads
Види још
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads