Top Qs
Chronologie
Chat
Contexte
Gemini (IA)
chatbot de conversation artificielle De Wikipédia, l'encyclopédie libre
Remove ads
Gemini, anciennement Bard, est un chatbot et un système d'intelligence artificielle (IA), génératif, créé par Google, et qui se base sur un grand modèle de langage éponyme, annoncé en , puis présenté au public le [1].. Gemini signifie ici Generalized Multimodal Intelligence Network.
Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte (poésie, scripts, pièces musicales, courriels, lettres, etc.), du code, des traductions (entre plus de 100 langues). Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos…), aider des chercheurs en analysant des données ou en générant des hypothèses. Gemini peut répondre aux questions de manière informative ou en produisant des cours personnalisés, des jeux, des tutoriels, etc., avec les limites des IA (erreurs, biais, « hallucinations »…).
Remove ads
Histoire
Résumé
Contexte
Contexte
Au début des années 2020, dans le domaine de l'IA générative, Google a été distancé par ChatGPT. Tout en poursuivant ses projets d'IA (ex. : Teachable Machine, Quick Draw, AutoDraw, Art Palette, ou Semantris et BARD) Google a mis en avant son nouveau projet majeur : Gemini AI, qui est une collaboration entre Google Brain (connue pour avoir créé l'outil Google Traduction, ainsi que TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner) et DeepMind (filiale de Google, notamment connue pour avoir créé AlphaGo, le système d'IA qui a battu Lee Sedol au jeu de go en 2016, et AlphaFold capable de prédire la structure des protéines). Ces deux groupes ont fusionné en 2023 pour accélérer la mise au point de Gemini après le succès de ChatGPT.
En novembre 2022, OpenAI a lancé ChatGPT, un chatbot basé sur la famille de modèles de langage GPT-3. ChatGPT a attiré l'attention du monde entier après sa sortie, devenant une sensation virale sur Internet. Alarmé par la menace potentielle de ChatGPT pour la recherche Google, le PDG de Google, Sundar Pichai, a émis une alerte « code rouge » à l'échelle de l'entreprise, réaffectant plusieurs équipes pour venir renforcer les efforts de l'entreprise en matière d'IA[2]. Dans un geste rare et sans précédent, les cofondateurs de Google Larry Page et Sergey Brin, qui avaient quitté leurs fonctions de co-PDG de la société mère de Google Alphabet en 2019, ont été convoqués à des réunions d'urgence avec des dirigeants de l'entreprise pour discuter de la réponse de Google à ChatGPT.
Interrogés par les employés lors d'une réunion générale pour savoir si le grand modèle de langage LaMDA était une occasion manquée pour Google de concurrencer ChatGPT, Sundar Pichai et Jeff Dean (le dirigeant de Google AI) ont déclaré que Google avait des capacités similaires, mais aller trop vite dans ce domaine représenterait un « risque réputationnel » majeur en raison du fait que Google est nettement plus grand qu'OpenAI[3],[4]. En janvier 2023, le PDG de DeepMind, Demis Hassabis, a annoncé les plans d'un rival de ChatGPT, et les employés de Google ont été chargés d'accélérer les progrès sur un concurrent de ChatGPT, en testant intensivement « Apprentice Bard » et d'autres chatbots[5],[6]. Sundar Pichai a assuré lors de l'appel aux investisseurs pendant la présentation des résultats trimestriels de Google en février que la société avait l'intention d'étendre la disponibilité et les applications de LaMDA[7].
Peu de données étaient disponibles sur Gemini avant décembre 2023, mais selon Google, ce nouveau système d'IA pourrait remplacer et améliorer PaLM 2 de Google, dont en intégrant des techniques plus efficaces d'apprentissage par renforcement, permettant une amélioration continue des capacités des systèmes d'IA à répondre à des questions complexes.
Dès le début d'année 2023, Google avait annoncé une riposte claire à OpenAI au travers du projet Sparrow un chatbot qui avait l'avantage, contrairement à ChatGPT, de citer ses sources[8], gagnant ainsi en crédibilité.
Gemini a été entrainé sur les Tensor Processing Units (TPU) de Google[réf. nécessaire]. Plus rapide et moins couteux dans ses exécutions que les précédents modèles de Google (comme PaLM), Gemini intègre en particulier des « mécanismes d'attention » (MA) perfectionnés, permettant aux réseaux de neurones artificiels de « concentrer » leurs calculs sur les parties les plus pertinentes des « données d'entrée », pour générer ensuite des « sorties » plus cohérentes, et répondant plus fidèlement aux « invites » des utilisateurs.
- Pour rappel, dans le domaine des techniques d'apprentissage en profondeur (Deep Learning), et notamment dans le domaine du traitement du langage naturel (TLN) et de l'analyse sémantique, ainsi que dans le domaine de l'analyse d'image, la notion de « mécanisme d'attention » désigne des techniques, basées sur des mécanismes mathématiques et informatiques applicables aux réseaux de neurones artificiels, visant à rendre les modèles d'IA plus performants. Elles fonctionnent en « pondérant » l'importance des différentes caractéristiques d'« entrée », de manière à ensuite pouvoir concentrer l'analyse sur les caractéristiques les plus pertinentes sur le moment (c'est-à-dire en fonction de la tâche à accomplir et de la demande), pour, in fine, aboutir à un traitement plus rapide, efficace (plus économe en ressource de traitement de l'information) et précis de jeux de données complexes, y compris à grande échelle[9],[10]. Le « mécanisme d'attention », bioinspiré du fonctionnement des cerveaux animaux et humains, joue un rôle majeur dans les progrès récents des modèles d'apprentissage profond (par exemple en termes de traduction automatique fluide ou de description automatique d'image et de développement de nouveaux modèles de pointe, tels que l'architecture « Transformer » (créée par Google Brain en 2017 et qui est un modèle auto-attentif, aussi dit d'apprentissage profond par exemple capable de détecter et analyser certains indicateurs de sentiments et d'émotions avec une fiabilité croissante, donnant à l'utilisateur l'impression que le système d'IA comprend nos émotions, qu'il les prend en compte et qu'il répond avec empathie[9],[11].
Ce mécanisme permet par exemple au système d'IA de se concentrer sur des zones spécifiques d'une image pour générer des descriptions de plus en plus pertinentes et cohérentes en se focalisant sur des objets, personnes, détails importants ou sur les actions visibles dans l'image. Ce mécanisme d'attention permet de transcrire avec plus de précision et de rapidité un signal audio en texte, en tenant mieux compte du contexte et de la prononciation ; il améliore la compression, le filtrage ou la restauration de signaux audio ou vidéo, en se basant sur les caractéristiques les plus importantes du signal[11]. Dans l'analyse de données médicales (radiographie, indicateurs physiologiques ou données génétiques, il permet de mieux détecter des anomalies, diagnostiquer des maladies ou prédire des risques[11] et il peut également extraire les informations a priori les plus importantes pour le demandeur, à partir d'un graphique, une piste-son, une vidéo, d'une phrase ou d'un texte[9] ; l'encodeur du « système d'attention » va alors transmettre beaucoup plus d'informations au décodeur (par rapports aux approches informatiques antérieures)[12].
On cherche à rendre ces mécanismes d'attention eux-mêmes plus « intelligents » et adaptatifs, notamment dans le contexte de données à grande échelle et d'espaces d'entrée de grande dimension (big data, en particulier quand les enjeux sont vitaux, par exemple pour le diagnostic ou le soin médical ou du véhicule autonome…), avec par exemple des systèmes dits d'« attention clairsemée » et des systèmes d'« approximations de rang inférieur », permettant de rester performant tout en allégeant la complexité de calcul des mécanismes d'attention, sans sacrifier les performances[11].
La capacité annoncée de Gemini à générer et combiner des objets sonores, visuels (graphiques et cartographie y compris) et du texte devrait également lui permettre de générer plus d'un type de données à la fois. En ce sens, Gemini se rapproche d'un système d'intelligence artificielle générale (IAG) un peu plus que GPT-4. Gemini pourra probablement, par exemple, extraire des caractéristiques d'une vidéo, d'un podcast ou d'un texte complexe pour en générer une analyse ou un résumé en tenant compte plus finement des demandes de l'utilisateur, mais aussi — et éventuellement dans le même temps — créer du contenu nouveau et le mettre en page, l'illustrer d'images, de graphiques et/ou de cartographies, en créer une version vidéo ou podcast, multilingue, etc.
Bard et Gemini Pro
Le 2023, Google a annoncé Bard, un chatbot utilisant LaMDA pour générer du texte[13]. Bard a d'abord été déployé auprès d'un groupe restreint de « testeurs de confiance[14] », avant une large diffusion prévue à la fin du mois[15],[16]. Il a été développé sous le nom de code « Atlas »[17]. Dans la foulée de l'annonce de Google, le rival de Google, Microsoft, a révélé son partenariat avec OpenAI pour intégrer ChatGPT dans son moteur de recherche Bing, après avoir précédemment investi 10 milliards $ dans OpenAI[18],[19].
Bard a été présenté dans une vidéo promotionnelle sur Twitter le . Lors de cette vidéo, Bard s'est trompé en répondant à une question sur le télescope James Webb, provoquant l'inquiétude quant à la fiabilité du chatbot et dans la foulée la chute de l'action Google (Alphabet) de plus de 7 %[20]. Google Bard a été interrogé sur les nouvelles découvertes du télescope spatial James Webb et a répondu avec trois puces, y compris une déclaration selon laquelle le télescope « a pris les toutes premières images d'une planète en dehors de notre propre système solaire ». Cependant, cette affirmation était incorrecte[21].
Mi-2023, Gemini est encore en phase d'entraînement, et testé pour sa sécurité. Comme c'était déjà le cas pour PaLM 2, Google propose plusieurs itérations du modèle, de tailles différentes, qui seront exploitées en fonction des avancées de l'IA, des besoins émis en interne par les services ou filiales de Google, puis par les utilisateurs et clients, et en fonction de contraintes spécifiques[22]. Les versions de Gemini, en différentes tailles et capacités[23], pourraient être disponibles via le « Google Cloud Vertex AI » (anciennement « Google AI Platform »), une « plateforme d'apprentissage automatique, qui regroupe tous les services cloud de Google, permet de faciliter le déploiement et la maintenance des modèles d'IA »[22].
Depuis le [24], Bard utilise un modèle d'intelligence artificielle appelé Gemini Pro lorsqu'il communique en anglais. Ce modèle peut traiter et fusionner différents types d'informations tels que le texte, les images, l'audio et le code. Gemini Pro est actuellement disponible uniquement pour l'anglais sur Bard, mais son expansion à d'autres langues et régions, notamment en Europe, est prévue prochainement. Gemini Pro se concentre actuellement sur le traitement de textes, mais devrait bientôt être capable de travailler avec d'autres types de contenus[25]. De plus une suite qui compte trois modèles est annoncée :
- Gemini Nano : version allégée de Gemini est prévue pour tourner nativement et hors-ligne sur des smartphones Android en commençant par le Google Pixel 8 Pro et uniquement à partir de texte ;
- Gemini Pro : le modèle intermédiaire, remplacera LaMDA dans Bard pour les pays anglophones ;
- Gemini Ultra (qui ne sera finalement lancé qu'en ) : le modèle le plus avancé, et le plus performant.
Si Google DeepMind ne précise pas les tailles des modèles, l'accent est mis sur les performances du plus puissant (Gemini Ultra) par rapport à GPT-4[26] d'OpenAI, qui est alors de loin le modèle le plus puissant du marché.
Il est annoncé aussi que Gemini Pro sera disponible pour les développeurs via le Google Generative AI Studio ou Vertex AI sur Google Cloud le et que Gemini Ultra sera proposée aux Data Centers et aux entreprises, d'abord en version beta contrôlée et dans un contexte expérimental sécurisée.
Gemini
Le , Google a annoncé renommer Bard en Gemini afin de refléter l'utilisation de la famille de modèles Gemini[27].
Le , Google lance une nouvelle version plus avancée nommée Gemini 1.5 Pro. C'est aussi le premier modèle capable de prendre jusqu'à 1 million de tokens en entrée, même si la limite est fixée à 128 000 tokens dans un premier temps.
Le même mois, Google suspend son outil de création d'images Gemini, « pensé pour promouvoir la diversité », après qu'il a généré des résultats embarrassants, refusant dans certains cas de représenter des personnes blanches ou générant des images historiquement fausses, telles que « des soldats nazis de couleur » ou le « pape imaginé en femme ». Des polémiques en série, dont l'une liée à l'affirmation de Gemini selon laquelle il serait « difficile de dire » qui de Hitler ou d’Elon Musk avait eu l’impact le plus négatif sur la société, poussent Sundar Pichai, le PDG de Google, à recadrer ses équipes. Il leur rappelle le risque de briser la confiance envers les produits Google. Il déplore les réponses embarrassantes de Gemini qui « ont fait preuve de partialité »[28],[29]
En mai, une version allégée est lancée, nommée Gemini 1.5 Flash et capable d'accepter 1 million de tokens. Gemini 1.5 Pro bénéficie d'une amélioration à ce niveau, permettant d'utiliser jusqu'à 2 millions de tokens en entrée.
En , Google introduit les « Gems », qui permettent de créer des versions personnalisées de Gemini que les utilisateurs définissent en fonction de leurs besoins[30]. C'est une réponse au GPT Store de OpenAI ou au Copilot Studio de Microsoft, et l'un des nombreux efforts que déploie le groupe pour tenter d'attirer du public vers Gemini, alors que l'adoption des professionnels et développeurs restent très faible par rapport aux rivaux[31].
En mars 2025 Google annonce la sortie du modèle Gemini 2.5 (disponible en 3 versions : Pro, Flash et Flash-Lite), dont la déclinaison la plus puissante se retrouve directement en haut du classement de LMArena. Bénéficiant d'une fenêtre d'un million de token en entrée, le modèle domine encore actuellement les benchmarks scientifiques et mathématiques AIME et GPQA [32].
Remove ads
Description
Gemini, en tant que système d'intelligence artificielle multimodal, c'est-à-dire capable de combiner plusieurs modes d'expression et de compréhension, s'inscrit dans la dernière génération d'intelligence artificielle.
Gemini a été annoncé en 2023 comme devant surpasser les modèles existants comme GPT-4, en pouvant traiter simultanément et de manière polyvalente un grand nombre de types différents de données (texte, images, cartographies, sons, vidéos ou graphiques). Il peut ainsi répondre à une large variété de demandes, comme la génération de textes écrits, d'images, de sons et de code ; l'analyse de flux vidéo, la création de modèles 3D complexes, l'analyse et l'interprétation de graphiques complexes, de cartes, etc.[33],[34].
Selon Google, Gemini est particulièrement douée pour le codage informatique, grâce à son nouveau système de génération de code AlphaCode 2 qui lui permettrait de surpasser 85 % des concurrents.
Remove ads
Fonctionnement
Résumé
Contexte
Gemini utilise le réseau de neurone du modèle PaLM 2 et l'architecture (framework) « Google Transformer » qui sous-tend déjà d'autres modèles de langage à grande échelle comme l'IA BERT (Bidirectional Encoder Representations from Transformers) et GPT-3 (Generative Pre-trained Transformer 3) d'OpenAI. Il intègre aussi Duet AI, un système d'IA qui peut générer du texte et des images. Par rapport à BARD, ChatGPT et d'autres systèmes d'IA, Gemini offrirait toutefois de nouvelles fonctionnalités et une avancée importante en termes d'IA : il peut aisément traiter des données multimodales grâce à son architecture unifiée capable d'encoder et décoder divers types de données en utilisant le même réseau (l'encodeur de Gemini convertit différents types de données en un langage commun que le décodeur peut comprendre et sur lequel le modèle d'IA peut travailler). Ce décodeur peut aussi ensuite générer des « sorties » de divers types[35]. En 2023, dans Wired, Demis Hassabis dit « À un niveau élevé, vous pouvez considérer Gemini comme combinant certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques étonnantes des grands modèles », et il ajoute que Gemini permettra d'analyser des graphiques ou de contrôler des logiciels par la voix. Il s'y est aussi dit (en ) favorable à une ouverture anticipée de Gemini pour le milieu académique, afin que ce dernier puisse aider à évaluer cette nouvelle IA[36].
Selon le média The Information (), Gemini aurait aussi été testé par un groupe externe (restreint) de développeurs et d'entreprises.
Références
Voir aussi
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads