AlexNet

AlexNet è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.^[1]^[2]

AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella ImageNet Large Scale Visual Recognition Challenge del 2012^[3] AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due GPU in parallelo.^[2]

La descrizione e i risultati di AlexNet furono pubblicati nel 2012 in uno degli articoli di ricerca più influenti nella storia della visione artificiale, citato in oltre 130 000 pubblicazioni al 2023,^[4] aprendo la strada all'uso estensivo dell'apprendimento profondo nella visione artificiale.^[5]

Architettura

Riepilogo

Prospettiva

AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.^[2] La rete usa la funzione di attivazione ReLU, che dimostrò migliori risultati rispetto a funzioni tradizionali come la funzione sigmoidea e la tangente iperbolica.^[2]

La struttura è la seguente:

(CNN\to RN\to MP)^{2}\to (CNN^{3}\to MP)\to (FC\to DO)^{2}\to Linear\to softmax

dove gli acronimi rappresentano:

CNN = livello convoluzionale (con funzione di attivazione ReLU)
RN = local response normalization
MP = max-pooling
FC = livello completamente connesso (con funzione di attivazione ReLU)
Linear = livello completamente connesso, senza funzione di attivazione
DO = dropout

Remove ads

Precursori

Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.^[6] Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,^[7]^[8] vinse quattro competizioni nel settore del riconoscimento delle immagini^[9]^[10] e avanzò lo stato dell'arte nel riconoscimento delle immagini.^[11] Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.^[2]

Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da Yann LeCun et al. nel 1989,^[12]^[13] che applicarono la retropropagazione dell'errore all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da Kunihiko Fukushima e nota come "neocognitron",^[14]^[15] successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.^[10]^[16]

Remove ads

Architettura

Precursori

Note

Wikiwand - on