Top Qs
Chronologie
Chat
Contexte

Modèle de fondation

paradigme de modèle d'intelligence artificielle De Wikipédia, l'encyclopédie libre

Remove ads

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais)[1],[2]. Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage basés sur l'architecture des Transformeurs, notamment BERT qui était basé sur la partie « encodeur »[3] et la famille des GPT initialement basée sur la partie « décodeur ». Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo[4], et Florence[5], qui intègrent image et texte, ont fait leur apparition. Plus récemment, les modèles de fondation peuvent utiliser les LNN à la place des transformeurs. Ce terme a été popularisé par le centre de recherche sur les modèles de fondation (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI)[1].

Remove ads

Définitions

Résumé
Contexte

Le centre de recherche sur les modèles de base (CRFM) du Stanford Institute for Human-Centered Artificial Intelligence (HAI) a inventé le terme de modèle de fondation pour désigner « tout modèle entraîné sur un gros volume de données (généralement en utilisant l'apprentissage auto-supervisé à grande échelle sur des données non annotées) qui peut être adapté (par exemple, affiné) à un large éventail de tâches en aval »[6]. La technique n'est en soi pas nouvelle, étant basée sur des réseaux de neurones profonds et un apprentissage auto-supervisé, mais son échelle d'entraînement, sur un large volume de données, et le potentiel d'utilisation d'un même modèle pour de nombreuses tâches en aval justifie l'introduction d'un nouveau concept, affirme le groupe de Stanford[6].

De par sa capacité à s'adapter à de nombreuses tâches en aval, un modèle de fondation est un « paradigme pour la construction de systèmes d'IA », dans lequel un modèle pré-entraîné sur une grande quantité de données non étiquetées peut être adapté à de nombreuses applications[7],[8],[9].

Les principales caractéristiques des modèles de fondation sont l'émergence et l'homogénéisation[6]. Dans le cas de l'apprentissage auto-supervisé, les données d'entraînement n'étant pas étiquetées, la structuration de la représentation de l'information par le modèle est émergente plutôt que d'être explicitement encodée. Des propriétés qui n'étaient pas prévues peuvent alors apparaître. Par exemple, un modèle entraîné sur un grand ensemble de données linguistiques peut apprendre à générer ses propres histoires ou à faire de l'arithmétique, sans être explicitement entraîné pour le faire[10]. Par ailleurs, l'homogénéisation signifie que la même méthode est utilisée dans de nombreux domaines, ce qui permet des avancées mutualisées, mais aussi la possibilité de « points uniques de défaillance »[6].

Remove ads

Entraînement

Résumé
Contexte

Les modèles de fondation sont construits en optimisant un ou plusieurs objectifs d'entraînement, qui sont des fonctions mathématiques déterminant la manière dont les paramètres du modèle sont mis à jour en fonction de ses prédictions sur les données d'entraînement[11].

  • Pour les LLM, cet entraînement repose en général sur un objectif de prédiction des prochains tokens (qui mesure la capacité du modèle à prévoir le prochain élément dans une séquence)
  • Pour les modèles d'image, les objectifs d'entraînement couramment utilisés incluent l'apprentissage contrastif. Ce dernier et les objectifs de diffusion (mécanismes où le modèle apprend à reconstituer des données bruitées). L'apprentissage contrastif est une méthode d'entraînement des modèles d'IA qui permet de maximiser la similitude entre des représentations d'objets similaires (par exemple, des images de la même catégorie), tout en renforçant les différences avec celles d'objets non liés (images d'autres catégories). Cette approche repose sur des comparaisons dans l'espace de représentation de l'IA, où chaque objet est transformé en une forme mathématique (vecteur) permettant de mesurer et d'optimiser sa proximité ou son éloignement par rapport à d'autres objets. L'apprentissage contrastif est souvent utilisé dans la reconnaissance d'images et la vision par ordinateur, notamment pour améliorer la classification ou la recherche d'images pertinentes. Dans l'apprentissage contrastif, les images subissent des augmentations aléatoires avant d'être évaluées en fonction de la similarité des représentations du modèle. Pour les modèles de diffusion, les images sont bruitées, et le modèle apprend progressivement à les débruiter par le biais de l'objectif. D'autres objectifs dits « multimodaux » existent (certains séparant les images et le texte pendant l'entraînement ; d'autres les analysent simultanément)[12]. Les objectifs d'entraînement des modèles de fondation favorisent l'apprentissage de représentations largement utiles des données.
  • Pour les modèles d'image, les objectifs d'entraînement couramment utilisés incluent l'apprentissage contrastif. Ce dernier (qui vise à maximiser la similarité entre des représentations d'images similaires tout en différenciant les images non liées) et les objectifs de diffusion. Dans l'apprentissage contrastif, les images subissent des augmentations aléatoires avant d'être évaluées en fonction de la similarité des représentations du modèle. Pour les modèles de diffusion, les images sont bruitées, et le modèle apprend progressivement à les débruiter par le biais de l'objectif. D'autres objectifs dits « multimodaux » existent (certains séparant les images et le texte pendant l'entraînement ; d'autres les analysent simultanément). Les objectifs d'entraînement des modèles de fondation favorisent l'apprentissage de représentations largement utiles des données.

Avec la montée en puissance des modèles de fondation, et avec les ensembles massifs (et croissants) de données qui les alimentent, l'objectif d'entraînement vise à traiter des données à l'échelle d'Internet, pour en extraire des informations pertinentes. De plus, ces modèles étant conçus pour résoudre un large éventail de tâches, leurs objectifs d'entraînement doivent être domain-complets (c'est-à-dire capables de couvrir une grande variété de capacités dans un domaine donné). Enfin, ces objectifs doivent être scalables (adaptables à grande échelle) et efficaces sur le plan computationnel. Dans le contexte des contraintes imposées par la taille des modèles et la puissance de calcul disponible, un objectif d'entraînement doit surmonter ces goulots d'étranglement.

Remove ads

Opportunités et risques

La publication du CRFM[6] a répertorié les capacités des modèles de fondation en ce qui concerne « le langage, la vision, la robotique, le raisonnement et l'interaction humaine » et ses principes techniques, tels que « les architectures de modèles, les algorithmes d'entraînement, la gestion des données, la sécurité, leur évaluation », leurs applications, par exemple dans « le droit, les soins de santé, l'éducation » et enfin leur impact potentiel sur la société, y compris « l'iniquité, l'utilisation abusive, l'impact économique et environnemental, les considérations juridiques et éthiques ».

Un article sur les modèles de fondation dans The Economist note que « pour certaines personnes, le développement sans précaution de la technologie risque de concentrer davantage le pouvoir économique et politique »[10],[13].

Références

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads