família de models de llenguatge de Google DeepMind From Wikipedia, the free encyclopedia
Gemini és una família de grans models de llenguatge multimodal desenvolupats per Google DeepMind, que serveixen com a successor de LaMDA i PaLM 2. Comprèn Gemini Ultra, Gemini Pro i Gemini Nano, es va anunciar el 6 de desembre de 2023, posicionat com a competidor del GPT-4 d'Open AI.
Dades | |||||
---|---|---|---|---|---|
Tipus | family of large-language models (en) | ||||
Història | |||||
Creació | 6 desembre 2023 | ||||
Lloc web | deepmind.google… | ||||
Google va anunciar Gemini, un gran model de llenguatge (LLM) desenvolupat per la seva filial Google DeepMind, durant la presentació de Google I/O el 10 de maig de 2023. Es va posicionar com un successor més potent de PaLM 2, que també es va presentar a l'esdeveniment. El CEO de Google, Sundar Pichai, va afirmar que Gemini encara es trobava en les seves primeres etapes de desenvolupament.[1][2] A diferència d'altres LLM, es deia que Gemini era únic perquè no estava format només en un corpus de text i estava dissenyat per ser multimodal, el que significa que podia processar diversos tipus de dades simultàniament, incloent text, imatges, àudio, vídeo i codi informàtic.[3][4] Es va desenvolupar com a col·laboració entre DeepMind i Google Brain, dues branques de Google que s'havien fusionat com a Google DeepMind el mes anterior. En una entrevista amb Wired, el CEO de DeepMind, Demis Hassabis, va promocionar les capacitats avançades de Gemini, que creia que permetrien que l'algoritme superés el ChatGPT d'OpenAI, que funciona amb GPT-4 i la creixent popularitat del qual havia estat desafiada agressivament per Google amb LaMDA i Bard. Hassabis va destacar els punts forts del programa AlphaGo de DeepMind, que va guanyar l'atenció mundial el 2016 quan va derrotar al campió de Go, Lee Sedol, dient que Gemini combinaria el poder d'AlphaGo i altres LLM de Google–DeepMind.[5]
L'agost de 2023, The Information va publicar un informe en què es descrivia el full de ruta de Google per a Gemini, que revelava que la companyia tenia com a objectiu una data de llançament a finals de 2023. Segons l'informe, Google esperava superar OpenAI i altres competidors combinant les capacitats de text conversacional presents a la majoria de LLM. amb la generació d'imatges impulsada per la intel·ligència artificial.[6] Igual que Bard, el cofundador de Google, Sergey Brin, va tornar a l'empresa per ajudar en el desenvolupament de Gemini, juntament amb centenars d'altres enginyers de Google Brain i DeepMind. Com que Gemini estava sent entrenat amb transcripcions de vídeos de YouTube, també es van demanar advocats per filtrar qualsevol material potencialment protegit per drets d'autor.[6][7]
Amb la notícia del llançament imminent de Gemini, OpenAI va accelerar el seu treball per integrar GPT-4 amb funcions multimodals similars a les de Gemini.[8] El mes de setembre es va fer públic que Google pretenia posar a disposició dels clients una versió prèvia de Gemini mitjançant el servei Vertex AI de Google Cloud. El 2 de desembre es va informar que Google havia endarrerit el llançament de Gemini des de la setmana següent fins al gener de 2024 a causa de problemes amb les indicacions no angleses, i va afegir que s'havien previst tres esdeveniments de llançament a la ciutat de Nova York, Washington, D.C. i Califòrnia.[9][10][11][12]
El 6 de desembre de 2023, Pichai i Hassabis van anunciar "Gemini 1.0" en una conferència de premsa virtual.[13][14] Gemini constava de tres models: Gemini Ultra, dissenyat per a "tasques d'alta complexitat"; Gemini Pro, dissenyat per a "una àmplia gamma de tasques"; i Gemini Nano, dissenyat per a "tasques al dispositiu". En el llançament, Gemini Pro i Nano es van integrar a Bard i al telèfon intel·ligent Pixel 8 Pro, respectivament, mentre que Gemini Ultra estava configurat per alimentar "Bard Advanced" i estar disponible per als desenvolupadors de programari a principis de 2024. Altres productes que Google pretenia incorporar Gemini a incloïa Search, Ads, Chrome, Duet AI a Google Workspace i AlphaCode 2.[15][14] Només està disponible en anglès.[14][16] Considerat com el "model d'IA més gran i capaç de Google",[17][14] i dissenyat per emular el comportament humà,[13] l'empresa va declarar que Gemini no estaria àmpliament disponible fins a l'any següent a causa de la necessitat de fer "assaigs de seguretat extensius". El nom del projecte fa referència a la fusió DeepMind-Google Brain i al Projecte Gemini de la NASA.[18][19]
Es va dir que Gemini Ultra va superar GPT-4, Claude 2 d'Anthropic, Inflection AI's Inflection-2, LLaMA 2 de Meta i Grok 1 de xAI en una varietat de punts de referència de la indústria,[20][13][21] mentre que Gemini Pro podria haver superat GPT-3.5.[4] Gemini Ultra també va ser el primer model de llenguatge que va superar els experts humans en la prova de comprensió del llenguatge multitasca massiva (MMLU) de 57 matèries, obtenint una puntuació del 90%.[4][18] Gemini Pro estarà disponible per als clients de Google Cloud mitjançant una interfície de programació d'aplicacions (API) a Google AI Studio o Vertex AI el 13 de desembre, mentre que Gemini Nano també estarà disponible per als desenvolupadors d'Android.[21][22] Hassabis va revelar a més que DeepMind estava explorant com Gemini es podria "combinar amb la robòtica per interactuar físicament amb el món".[23] D'acord amb l'Ordre executiva 14110 signada pel president Joe Biden a l'octubre, Google va declarar que compartiria els resultats de les proves de Gemini Ultra amb el govern federal dels Estats Units. De la mateixa manera, l'empresa va participar en converses amb el govern del Regne Unit per complir amb els principis establerts a la cimera de seguretat de l'IA a Bletchley Park al novembre.[4]
El llançament de Gemini va ser precedit per mesos d'intensa especulació i anticipació, que el MIT Technology Review va descriure com "top AI peak hype".[24][20] L'agost de 2023, Dylan Patel i Daniel Nishball de la firma d'investigació SemiAnalysis van escriure una publicació al seu bloc declarant que el llançament de Gemini "es menjaria el món" i superaria el GPT-4, fet que va fer que el director general d'OpenAI, Sam Altman, ridiculitzés el duet a X (anteriorment Twitter).[25][26] Elon Musk, cofundador d'OpenAI, va intervenir i va preguntar: "Els números estan equivocats?"[27] Hugh Langley, de Business Insider, va remarcar que Gemini seria un moment clau per a Google, i va escriure: "Si Gemini enlluerna, ajudarà a Google a canviar la narrativa en relació a Microsoft i OpenAI. Si decep, animarà els crítics a dir que Google s'ha quedat enrere.[28]
Reaccionant a presentació del projecte del desembre de 2023, el professor emèrit de la Universitat de Washington Oren Etzioni va predir una cursa Google i OpenAI. El professor Alexei Efros de la Universitat de Califòrnia a Berkeley va elogiar el potencial de l'enfocament multimodal de Gemini,[18] mentre que la científica Melanie Mitchell del Santa Fe Institute va qualificar Gemini de "molt sofisticat". El professor Chirag Shah de la Universitat de Washington va quedar menys impressionat, comparant el llançament de Gemini amb la introducció anual d'Apple d'un nou iPhone. En la mateixa línia, Percy Liang de la Universitat Stanford i Emily Bender de la Universitat de Washington van advertir que era difícil interpretar les puntuacions de referència sense conèixer les dades d'entrenament utilitzades.[24]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.