Rete neurale residuale

Una rete neurale residuale o residua (oppure ResNet)^[1] è un'architettura di apprendimento profondo in cui i livelli apprendono le funzioni residue con riferimento agli input degli strati stessi. È stato sviluppato nel 2015 per il riconoscimento delle immagini e ha vinto l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC) di quell'anno.^[2]^[3]

Thumb — Un blocco residuo in una rete residuale profonda. Qui la connessione residua salta due strati.

Come terminologia, "connessione residuale" si riferisce al pattern di struttura architettonica:

x\mapsto f(x)+x

dove $f$ è un modulo di rete neurale arbitrario. Il pattern era già stato utilizzato in precedenza (vedi §Storia per i dettagli). Tuttavia, la pubblicazione di ResNet lo ha reso molto popolare per le reti feed-forward, comparendo in reti neurali apparentemente non correlate a ResNet.

La connessione residuale stabilizza l'addestramento e la convergenza delle reti neurali profonde con centinaia di livelli ed è un pattern comune in queste, come i modelli di trasformatori (ad esempio BERT e modelli GPT come ChatGPT ), il sistema AlphaGo Zero, il sistema AlphaStar e il sistema AlphaFold.

[1]

[2]

[3]

Rete neurale residuale

Matematica

Connessioni residuali

Note

Wikiwand - on