Whisper (reconeixement de veu)
model d'aprenentatge automàtic per al reconeixement i transcripció de veu From Wikipedia, the free encyclopedia
Remove ads
Whisper és un model d'aprenentatge automàtic per al reconeixement i transcripció de veu, creat per OpenAI i llançat per primera vegada com a programari de codi obert el setembre de 2022.[1]
| Aquest article tracta sobre el model de reconeixement de veu. Si cerqueu la marca d'higiene femenina, vegeu «Always». |
És capaç de transcriure la parla en anglès i en diversos idiomes més,[2] i també és capaç de traduir a l'anglès diverses llengües no angleses. OpenAI afirma que la combinació de diferents dades d'entrenament utilitzades en el seu desenvolupament ha donat lloc a un millor reconeixement dels accents, el soroll de fons i l'argot en comparació amb els enfocaments anteriors.[3]
Whisper és un model acústic d'aprenentatge profund poc supervisat, fet amb una arquitectura de transformador codificador-descodificador.
Whisper V2 es va llançar el 8 de desembre de 2022.[4] Whisper V3 es va llançar el novembre de 2023, a l'OpenAI Dev Day.
Remove ads
Rerefons
El reconeixement de la parla ha tingut una llarga trajectòria en la recerca; els primers enfocaments van fer ús de mètodes estadístics, com ara la deformació del temps dinàmica, i més tard els models de Màrkov ocults. Al voltant de la dècada de 2010, els enfocaments de xarxes neuronals profundes es van fer més habituals per als models de reconeixement de veu, que es van permetre gràcies a la disponibilitat de grans conjunts de dades ("big data") i un augment del rendiment computacional.[5] Els primers enfocaments de l'aprenentatge profund en el reconeixement de la parla incloïen xarxes neuronals convolucionals, que estaven limitades a causa de la seva incapacitat per capturar dades seqüencials, la qual cosa més tard va conduir al desenvolupament dels enfocaments Seq2seq, que inclouen xarxes neuronals recurrents que feien ús de la memòria a curt termini.
Transformers, introduït el 2017 per Google, va desplaçar molts enfocaments d'avantguarda anteriors a molts problemes de l'aprenentatge automàtic i va començar a convertir-se en l'arquitectura neuronal bàsica en camps com el modelatge del llenguatge i la visió per computador;[6] els enfocaments feblement supervisats per a l'entrenament de models acústics es van reconèixer a principis de la dècada de 2020 com a prometedors per als enfocaments de reconeixement de veu utilitzant xarxes neuronals profundes.[7]
Segons un informe de NYT, el 2021 OpenAI va creure que esgotaven les fonts de dades de més qualitat per entrenar els seus grans models de llenguatge i van decidir complementar el text web raspat amb transcripcions de vídeos i podcasts de YouTube, i va desenvolupar Whisper per resoldre aquesta tasca.[8]
Remove ads
Formació i capacitats
Whisper s'ha entrenat mitjançant aprenentatge semisupervisat en 680.000 hores de dades multilingües i multitasca, de les quals aproximadament una cinquena part (117.000 hores) eren dades d'àudio no anglesos. Whisper no supera els models especialitzats en el conjunt de dades LibriSpeech, tot i que quan es prova en molts conjunts de dades, és més robust i fa un 50% menys d'errors que altres models.[9]
Whisper té una taxa d'error diferent pel que fa a la transcripció de diferents idiomes, amb una taxa d'error de paraula més alta en idiomes que no estan ben representats a les dades d'entrenament.[10]
El model s'ha utilitzat com a base per a un model unificat de reconeixement de veu i reconeixement de so més general.[11]
Remove ads
Arquitectura
L'arquitectura Whisper es basa en un transformador codificador-descodificador. L'àudio d'entrada es divideix en fragments de 30 segons convertits en un cepstrum de freqüència Mel, que es passa a un codificador. Un descodificador està entrenat per predir subtítols de text posteriors. S'utilitzen fitxes especials per realitzar diverses tasques, com ara marques de temps a nivell de frase.[12]
Referències
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads