ImageNet - Wikiwand

Пројекат ImageNet је велика визуелна база података дизајнирана за употребу у истраживању софтвера за препознавање визуелних објеката .

Више од 14 милиона ^[1] ^[2] слика је ручно обележено од стране пројекта како би се назначило који су објекти приказани, а на најмање милион слика су такође осигурани ограничавајући оквири. ^[3]

ImageNet садржи више од 20.000 категорија, ^[4] са типичном категоријом, попут „балона“ или „јагоде“, која се састоји од неколико стотина слика. ^[5]

База података о белешкама URL -ова слика са других повезаних програма, је бесплатно доступна директно са ImageNet-а, иако стварне слике нису у њиховом власнишву. ^[6]

Од 2010. године, ImageNet пројекат, на годишњем нивоу, одржава такмичење у софтверу, ен. ImageNet Large Scale Visual Recognition Challenge (ILSVRC), где се софтверски програми такмиче да правилно класификују и детектују предмете и сцене. Изазов користи „скраћену“ листу од хиљаду класа које се не преклапају. ^[7]

Remove ads

Значај за дубоко учење

Дана 30. септембра 2012. године, конволуциона неуронска мрежа (CNN) под називом AlexNet ^[8] постигла је грешку првих 5 од 15,3% у ImageNet 2012 изазову, што је више од 10,8 процената мање него код другопласираног. То је омогућено захваљујући употреби графичких процесорских јединица (GPU) током тренинга, ^[8] суштинског састојка револуције дубоког учења . Према The Economist -у, „одједном су људи почели да обраћају пажњу, не само унутар заједнице вештачке интелигенције, већ и широм технолошке индустрије у целини“. ^[9] ^[10] ^[11]

У 2015. години, АлекНет је надмашен од стране Микрософтовог веома дубок CNN-a са преко 100 слојева, који је победио на такмичењу ImageNet 2015. ^[12]

Remove ads

Историја базе података

Истраживач вештачке интелигенције Феи-Феи Ли почео је да ради на идеји за ImageNet 2006. године. У време када се већина истраживања вештачке интелигенције фокусирала на моделе и алгоритме, Ли је желео да прошири и унапреди доступне податке за обуку AI алгоритама. ^[13] 2007. године Ли се састао са професором са Принстона Кристијаном Фелбаумом, једним од твораца WordNet-a, да би разговарали о пројекту. Као резултат овог састанка, Ли је наставио да гради ImageNet почевши од WordNet базе података и користећи многе његове карактеристике. ^[14]

Као доцент на Принстону, Ли је окупио тим истраживача да раде на пројекту ImageNet-a. Користили су Механичког Турка са Амазона да помогну у класификацији слика. ^[15]

Они су своју базу података по први пут представили као постер на Конференцији о компјутерској визији и препознавању узорака (ЦВПР) одржаној 2009. године на Флориди. ^[16] ^[17] ^[18]

Remove ads

Скуп података

ImageNet цровдсоурцес свој процес бележења. Анотације на нивоу слике указују на присуство или одсуство класе објекта на слици, као што је „на овој слици има тигрова“ или „на овој слици нема тигрова“. Анотације на нивоу објекта пружају гранични оквир око (видљивог дела) наведеног објекта. ImageNet користи варијанту широке WordNet шеме за категоризацију објеката, допуњену са 120 категорија раса паса за приказивање фине зрнасте класификације. ^[7] Једна од мана коришћења WordNet-а је то што су категорије „узвишеније“ него што би било оптимално за ImageNet: „Већина људи је више заинтересована за Лејди Гагу или iPod Mini него за ову ретку врсту диплодока .“^{[појаснити]} Године 2012. ImageNet је био највећи светски академски корисник Механичког Турка- а. Просечан радник је идентификовао 50 слика у минути. ^[4]

Историја изазова ImageNet-a

ILSVRC има за циљ да „прати кораке“ PASCAL VOC изазова мањег обима, који је основан 2005. године и садржао је само око 20.000 слика и двадесет класа објеката. ^[7] Да би „демократизовао“ ImageNet, Феи-Феи Ли је предложио PASCAL VOC тиму сарадњу, почевши од 2010. године, где би истраживачки тимови проценили своје алгоритме на одређеном низу података и такмичили се у постизању веће прецизности на неколико задатака визуелног препознавања. ^[16]

Резултујуће такмичење које се одржава једном годишње сада је познато као ImageNet велики изазов за визуално препознавање (ILSVRC). ILSVRC користи „подрезану“ листу од само 1000 категорија слика или „класа“, укључујући 90 од 120 раса паса класификованих по целој ImageNet шеми. ^[7] Током 2010-их су доживели драматичан напредак у обради слика. Отприлике 2011. година, добра стопа грешака у топ-5 класификације ILSVRC била је 25%. У 2012. години, дубока конволуциона неуронска мрежа под називом AlexNet постигла је 16%; у наредних неколико година, стопа грешака је пала у првих 5 на неколико процената. ^[19] Док је 2012. пролазила „комбиновао делове који су сви раније постојали”, драматично квантитативно побољшање означило је почетак бума вештачке интелигенције широм индустрије. ^[20] До 2015. године, истраживачи из Мајкрософта су известили да су њихови CNN-ови надмашили људске способности на уским задацима ILSVRC-а. ^[21] ^[22] Међутим, како је једна од организатора изазова, Олга Русаковски, истакла 2015. године, програми само треба да идентификују слике као да припадају једној од хиљаду категорија; људи могу да препознају већи број категорија, а такође (за разлику од програма) могу да процењују контекст слике. ^[23]

До 2014. године више од педесет институција је учествовало у ILSVRC-у. ^[7] У 2017., 29 од 38 такмичарских екипа имало је више од 95% тачности. ^[24] Године 2017. ImageNet је најавио да ће у 2018. покренути нови нови, много тежи изазов који укључује класификацију 3Д објеката коришћењем природног језика. Будући да је креирање 3Д података скупље од забележивања претходне већ постојеће 2Д слике, очекује се да ће скуп података бити мањи. Примене напретка у овом подручју би се кретале од роботске навигације до проширене стварности . ^[25]

Remove ads

Пристрасност у ImageNetu-у

Студија историје вишеструких слојева ( таксономија, класе објеката и означавање) ImageNet-а и WordNet-а из 2019. године је описана као је пристрасност дубоко уграђена у већину класификационих приступа за сваку врсту слике. ^[26] ^[27] ^[28] ^[29] ImageNet ради на решавању различитих извора пристрасности. ^[30]

Види још

Референце

Loading content...

Спољашње везе

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads