Дуга краткорочна меморија

Дуга краткорочна меморија ( ДКМ )^[1] је вештачка неуронска мрежа која се користи у областима вештачке интелигенције и дубоког учења . За разлику од стандардних неуронских мрежа унапред, дуга краткорочна меморија има повратне везе. Таква рекурентна неуронска мрежа може да обрађује не само појединачне тачке података (као што су слике), већ и читав низ података (као што су говор или видео). На пример, дуга краткорочна меморија је применљива на задатке као што су несегментирано, повезано препознавање рукописа,^[2] препознавање говора,^[3]^[4] машинско превођење,^[5]^[6] контрола робота, ^[7] видео игрице,^[8]^[9] и здравство.^[10] Дуга краткорочна меморија је постала најцитиранија неуронска мрежа 20. века.^[11]

Уобичајена јединица дуге краткорочне меморије се састоји од ћелије, улазног гејта, излазног гејта^[12] и капије за заборав .^[13] Ћелија памти вредности у произвољним временским интервалима, а три капије регулишу ток информација у и из ћелије.

Мреже састављене од јединица дуге краткорочне меморије су веома погодне за класификацију, обраду и предвиђање на основу података временске серије, пошто може постојати кашњење непознатог трајања између важних догађаја у временској серији. Јединице дуге краткорочне меморије су развијене да се баве проблемом нестајања градијента^[14] који се може сусрести приликом обуке традиционалних рекурентних неуронских мрежа. Релативна неосетљивост на дужину јаза је предност дуге краткорочне меморије у односу на рекурентне неуронске мреже, али и у односу на скривене Марковљеве моделе и друге методе учења секвенце у бројним применама.^{[тражи се извор]}

Remove ads

Идеја

У теорији, класичнe (или "ванилa") рекурентне неуронске мреже могу да прате произвољне дугорочне зависности у улазним секвенцама. Проблем са овом врстом рекурентних неуронских мрежа је рачунске (или практичне) природе: када се обучава ванила рекурентна неуронска мрежа користећи пропагацију уназад, дугорочни градијенти који се пропагирају уназад могу "нестати" (то јест, могу тежити нули) или могу "експлодирати“ (то јест, могу тежити бесконачности),^[14] због прорачуна укључених у процес, који користе бројеве са коначном прецизношћу . Рекурентне неуронске мреже које користе јединице дуге краткорочне меморије делимично решавају проблем нестајања градијента, јер јединице дуге краткорочне меморије дозвољавају да градијенти такође теку непромењени . Међутим, мреже састављене од јединица дуге краткорочне меморије и даље могу патити од проблема са експлодирајућим градијентом.^[15]

Remove ads

Варијанте

У доле наведеним једначинама, променљиве малим словима представљају векторе. Матрице $W_{q}$ и $U_{q}$ садрже, тежине улазних и рекурентних веза, где је индекс $_{q}$ може бити улазна капија $i$ , излазна капија $o$ , капија заборава $f$ или меморијска ћелија $c$ , у зависности од активације која се израчунава. У овом одељку, стога, користимо "векторску нотацију". Тако, на пример, $c_{t}\in \mathbb {R} ^{h}$ није само једна јединица једне ћелије дуге краткорочне меморије, већ садржи $h$ јединица ћелије дуге краткорочне меморије.

Дуга краткорочна меморија са 'капијом за заборав'

Компактни облици једначина за пролаз унапред ћелије дуге краткорочне меморије са 'капијом за заборав' су:^[1]^[13]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\{\tilde {c}}_{t}&=\sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ {\tilde {c}}_{t}\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

где су почетне вредности $c_{0}=0$ и $h_{0}=0$ и оператер $\circ$ означава Адамаров производ (производ по елементима). Ознака $t$ представља индексирање временског корака.

Променљиве

$x_{t}\in \mathbb {R} ^{d}$ : улазни вектор за јединицу дуге краткорочне меморије
$f_{t}\in {(0,1)}^{h}$ : вектор 'заборава' активације капије
$i_{t}\in {(0,1)}^{h}$ : улаз/ажурирање вектора активације капије
$o_{t}\in {(0,1)}^{h}$ : вектор активирања излазне капије
$h_{t}\in {(-1,1)}^{h}$ : вектор скривеног стања, такође познат као излазни вектор јединице дуге краткорочне меморије
${\tilde {c}}_{t}\in {(-1,1)}^{h}$ : вектор за активирање улаза ћелије
$c_{t}\in \mathbb {R} ^{h}$ : вектор стања ћелије
$W\in \mathbb {R} ^{h\times d}$ , $U\in \mathbb {R} ^{h\times h}$ и $b\in \mathbb {R} ^{h}$ : матрице тежине и параметри вектора пристрасности које треба научити током тренинга

где се ознаке $d$ и $h$ односе се на број улазних карактеристика и број скривених јединица.

Функције за активирање

$\sigma _{g}$ : сигмоидна функција .
$\sigma _{c}$ : хиперболичка тангентна функција.
$\sigma _{h}$ : хиперболичка тангентна функција, односно, $\sigma _{h}(x)=x$ .

"Шпијунка" - врста дугe краткорочне меморије

{\displaystyle i} — Јединица дуге краткорочне меморије са шпијунком са улазом (тј $i$ ), излазом (тј $o$ ), и 'капијом за заборав'(тј $f$ ).

Претходна слика је графички приказ јединице дуге краткорочне меморије са шпијунским везама. Везе са шпијунком омогућавају капијама приступ вртешци са константном грешком, чија је активација стање ћелије.^[16] $h_{t-1}$ се не користи, док $c_{t-1}$ се користи на већини места.

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\circ c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\circ c_{t-1}+b_{i})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\circ c_{t}+b_{o})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Свака од капија се може сматрати "стандардним" неуроном у неуронској мрежи са прослеђивањем (или вишеслојној неуронској мрежи): то јест, они израчунавају активацију (користећи функцију активације) пондерисане суме. $i_{t},o_{t}$ и $f_{t}$ представљају активације респективно улазних, излазних и заборавних капија, у временском кораку $t$ .

Три стрелице за излаз из меморијске ћелије $c$ до три капије $i,o$ и $f$ представљају шпијунске везе. Ове шпијунске везе заправо означавају доприносе активације меморијске ћелије $c$ у временском кораку $t-1$ , односно допринос $c_{t-1}$ (и не $c_{t}$ , као што слика може да сугерише). Другим речима, капије $i,o$ и $f$ рачунају њихове активације у временском кораку $t$ (тј., $i_{t},o_{t}$ и $f_{t}$ ). Такође, с обзиром на активирање меморијске ћелије $c$ у временском кораку $t-1$ , тј $c_{t-1}$ .

Једна стрелица лево-десно која излази из меморијске ћелије није шпијунска веза и означава се са $c_{t}$ .

Мали кругови који садрже $\times$ симбол представљају елементарно множење између његових улаза. Велики кругови који садрже С -сличну криву представљају примену диференцибилне функције (попут сигмоидне функције) на пондерисани збир.

Конволуциона јединица дуге краткорочне меморије са шпијунком

Код конволуционе јединице дуге краткорочне меморије са шпијунком ознака $*$ означава оператор конволуције .

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\circ c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_{i}\circ c_{t-1}+b_{i})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t-1}+V_{o}\circ c_{t}+b_{o})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Remove ads

Обука

Рекурентне неуронске мреже које користе јединицу дуге краткорочне меморије могу се тренирати на надгледани начин на скупу секвенци за обуку, користећи оптимизациони алгоритам попут спуштања градијента у комбинацији са пропагацијом уназад кроз време да би се израчунали градијенти потребни током процеса оптимизације, како би се променила свака тежина мреже састављене од јединица дуге краткорочне меморије пропорционално деривату грешке (на излазном слоју мреже састављене од јединица дуге краткорочне меморије) у односу на одговарајућу тежину.

Проблем са коришћењем градијента спуштања за стандардне рекурентне неуронске мреже је тај што градијенти грешке нестају експоненцијално брзо са величином временског кашњења између важних догађаја. Ово би требало да износи $\lim _{n\to \infty }W^{n}=0$ ако је спектрални радијус од $W$ мањи од 1.^[14]^[17]

Међутим, код јединица дуге краткорочне меморије, када се вредности грешке проширују уназад из излазног слоја, грешка остаје у ћелији јединице дуге краткорочне меморије. Ова „вртешка са грешкама“ непрекидно враћа грешку на сваку капију јединице дуге кракторочне меморије, све док не науче да одсеку вредност.

КВК функција скора

Многе апликације користе стекове дугих краткорочних меморија рекурентних неуронских мрежа^[18] и обучавају их конекционистичком временском класификацијом (КВК)^[19] како би пронашли матрицу тежине рекурентне неуронске мреже која максимизира вероватноћу секвенци ознака у скупу за обуку, с обзиром на одговарајуће улазне секвенце. Конекционистичка временска класификација постиже и усклађивање и препознавање.

Алтернативе

Понекад може бити корисно тренирати (делове) дуге краткорочне меморије неуроеволуцијом или методама градијента политике, посебно када не постоји „учитељ“ (тј. ознаке за обуку).

Успешни примери

Било је неколико успешних прича о обуци, на начин без надзора, где је рекурентна неуронска мрежа имала јединице дуге краткорочне меморије.

Бил Гејтс је 2018. године то назвао „огромном прекретницом у унапређењу вештачке интелигенције“ када су ботови које је развио OpenAI успели да победе људе у игри Дота 2^[8] OpenAI Five се састоји од пет независних, али координисаних неуронских мрежа. Свака мрежа је обучена методом градијента политике без надзорног учитеља и садржи једнослојну дуготрајну меморију од 1024 јединице која види тренутно стање игре.

У 2018, ОpenAI је такође обучио сличну јединицу дуге краткорочне меморије помоћу градијената политике да контролише руку робота налик човеку која манипулише физичким објектима са невиђеном спретношћу.^[7]

У 2019. години, ДипМајнд-ов програм АлфаСтар је користио дубоко језгро дуге краткорочне меморије да би се истакао у комплексној видео игрици Starcraft II .^[9] Ово је виђено као значајан напредак ка вештачкој општој интелигенцији.^[9]

Remove ads

Временски оквир развоја

1991: Сеп Хохрејтер је анализирао проблем градијента нестајања и развио принципе методе у својој дипломској тези^[14], уз савете Јиргена Шмидубера .

1995: „Дуго краткорочно памћење“ објављено је у техничком извештају Сепа Хохрејтера и Јиргена Шмидубера .^[20]

1999: Феликс Герс и његов саветник Јирген Шмидубер и Фред Каминс увели су капију за заборав (која се такође назива „капија чувања“) у архитектуру дуге краткорочне меморије,^[21] омогућавајући дугој краткорочној меморији да ресетује сопствено стање.^[22]

2000: Герс, Шмидубер и Каминс су додали шпијунске везе (везе од ћелије до капија) у архитектуру.^[13] Поред тога, функција активације излаза је изостављена.^[22]

2001: Герс и Шмидубер су обучили дугу краткорочну меморију да учи језике који се не могу научити традиционалним моделима као што је Скривени Марковљев модел. ^[23]

2004: Прва успешна примена дуге краткорочне меморије на говор од стране Шмидуберовог ученика Алекса Грејвса и других. ^[23]

2005: Прва публикација (Грејвс и Шмидубер) о дугој краткорочној меморији са комплетном пропагацијом кроз време и о двосмерној дугој краткорочној меморији. ^[23]

2005: Ден Виерстра, Фаустино Гомез и Шмидубер обучавали су дугу краткорочну меморију неуроеволуцијом без 'учитеља'.

2006: Грејвс, Фернандез, Гомез и Шмидубер уводе нову функцију грешке за ЛСТМ: конекционистичку временску класификацију (КВК) за истовремено поравнање и препознавање секвенци.^[19] Дуга краткорочна меморија обучена за конекционистичку временску класификацију довела је до напретка у препознавању говора. ^[24]^[25]^[26]

Мајер и други обавили су обучавање дуге краткорочне меморије за контролу робота .

2007: Виерстра, Форстер, Питерс и Шмидубер обучавали су дугу краткорочну меморију према градијентима политике за учење са појачањем без 'учитеља'.^[27]

Хохрејтер, Хојсел и Обермајр су применили дугу краткорочну меморију на детекцију хомологије протеина у области биологије .

2013: Алекс Грејвс, Абдел-рахман Мохамед и Џефри Хинтон користили су мреже састављену од јединица дуге краткорочне меморије као главну компоненту мреже која је постигла рекордну стопу фонемских грешака од 17,7% на класичном скупу података природног говора.

2015: Гугл је почео да користи дугу краткорочну меморији коју је обучио помоћу концекционистичке временске класификације за препознавање говора на Гугл Војсу.^[24]^[25] Према званичној блог објави, нови модел је смањио грешке у транскрипцији за 49%.^[28]

2017: Фејсбук је обављао око 4,5 милијарди аутоматских превода сваког дана користећи мреже за дуготрајно памћење.^[6]

Истраживачи са Државног универзитета у Мичигену, ИБМ истраживања и Универзитета Корнел објавили су студију на конференцији за откривање знања и рударење података. Њихова Т врста дуге краткорочне меморије има бољи учинак на одређеним скуповима података од стандардне дуге краткорочне меморије.

2018: OpenAI je користио дугу краткорочну меморију обучену од стране градијената политике да победи људе у сложеној видео игрици Дота 2,^[8] и да контролише руку робота налик човеку која манипулише физичким објектима са невиђеном спретношћу.^[7]^[23]

2019: ДипМајнд је користио дугу краткорочну меморију обучену према градијентима политике да би се истакао у комплексној видео игрици Starcraft II .^[9]^[23]

Remove ads

Референце

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads