Top Qs
Chronologie
Chat
Contexte

OpenAI o1

modèle d'IA De Wikipédia, l'encyclopédie libre

Remove ads

OpenAI o1 est le premier modèle d'une nouvelle série de modèles d’intelligence artificielle développée par OpenAI. Une version préliminaire (preview) a été lancée en , la version finale sortant le et proposant des performances de nouveau amélioré selon OpenAI[1]. Le même jour, la société annonce la sortie d'un nouvel abonnement à 200 $ permettant un accès illimité à o1, et un accès exclusif à sa version o1 pro.

Faits en bref Développé par, Type ...

o1 est un transformeur génératif pré-entraîné conçu pour les tâches de raisonnement complexe, qu'il exécute en prenant plus de temps pour « réfléchir » avant de répondre que les modèles classiques. Cela le rend plus efficace en programmation, en sciences et dans toutes les tâches nécessitant un raisonnement complexe[2].

Remove ads

Origine

Selon des informations ayant fuité, o1 était auparavant connu au sein d'OpenAI sous le nom de « Q* », puis sous le nom de « Strawberry » (ce qui signifie « fraise » en français)[3].

Le nom de code « Q* » s'est fait connaître en novembre 2023, à l'époque de l'éviction et de la réintégration ultérieure de Sam Altman, avec des rumeurs suggérant que ce modèle expérimental avait obtenu des résultats prometteurs en mathématiques[4].

En juillet 2024, Reuters a rapporté qu'OpenAI développait un transformateur pré-entraîné génératif baptisé « Strawberry »[3].

Remove ads

Déploiement

« o1-preview » et sa version légère (« o1-mini ») ont été déployés[5] le 12 septembre 2024 pour les abonnés à ChatGPT Plus et Team[2].

GitHub a commencé à tester l'intégration de o1-preview dans son service Copilot le même jour[6].

OpenAI signale que « OpenAI o1 » est une version d'essai (preview) d'une série de modèles de « raisonnement », conçu pour résoudre des problèmes plus difficiles que les modèles précédents en sciences, en codage et en mathématiques[5] ; et que l'entreprise prévoit d'ajouter l'accès à o1-mini pour tous les utilisateurs gratuits de ChatGPT. L'API de o1-preview est plusieurs fois plus coûteuse que GPT-4o[7]. Il est accessible dans certaines versions de ChatGPT mais avec une forte limites d'utilisation et de débit (30 messages maximum par semaine)[8].

Le 5 décembre, le modèle o1 sort, offrant de meilleures performances, particulièrement en mathématiques. Les abonnés à ChatGPT Plus ont un accès limité à o1. Un nouvel abonnement appelé ChatGPT Pro et coûtant 200$ par mois offre un accès illimité[9].

Remove ads

Capacités

Résumé
Contexte

Selon OpenAI, cette version o1 a été entraîné avec un nouvel algorithme d'optimisation, et un jeu de données spécifiquement adapté, avec notamment la méthode de l'apprentissage par renforcement[7].

Comparé aux modèles précédents, o1 a été formé pour générer une longue « chaîne de pensée » (non visible pour l'utilisateur) avant de produire sa réponse[10],[11]. Autrement dit : o1 passe plus de temps à « réfléchir » avant de générer une réponse, ce qui le rend plus efficace pour les tâches complexes nécessitant de la réflexion, ainsi que pour des capacités avancées en sciences ou en programmation[2]. Ce modèle d'IA, apprend à affiner son processus de réflexion, à essayer différentes stratégies et à reconnaître ses erreurs[5].

Il est moins vulnérable aux hallucinations, et risque moins de générer des réponses incorrectes ou trompeuses.

Selon Mira Murati, cette capacité à « réfléchir avant de répondre » est un nouveau paradigme, qui implique un coût supplémentaire de calcul lors de l'élaboration de la réponse. L'autre paradigme, qui reste toujours pertinent, consiste à entraîner des modèles plus grands, avec plus de données d'entraînement et plus de puissance de calcul dédiée à cet entraînement[12]. Les résultats des tests d'OpenAI suggèrent une corrélation entre le taux de bonnes réponses et le logarithme de la quantité de calcul dépensée à réfléchir avant de répondre[11],[10].

Évaluation des performances

o1-preview

Cette première version génère des réponses d'un niveau comparable à celle d'un doctorant dans sa discipline pour les sujets concernant la physique, la chimie ou la biologie[5].

Évalué sur l'examen de qualification pour les Olympiades internationales de mathématiques, il a résolu 83 % des problèmes, là où GPT-4o n'en avait résolu que 13 %. Il s'est également classé au 89e centile dans les compétitions de programmation Codeforces, dépassant ainsi la plupart des programmeurs humains à ce test[13].

o1-mini

Cette version allégée de l'intelligence artificielle est plus rapide, 80 % moins cher que o1-preview, mais elle n'a pas une « connaissance du monde » aussi étendue que o1-preview ; et est particulièrement adapté à la programmation et aux tâches liées aux sciences, aux mathématiques ou à l'ingénierie[14].

Remove ads

Sécurité

Résumé
Contexte

Selon OpenAI, les capacités de raisonnement d'o1 le rendent plus apte à respecter les règles de sécurité fournies dans la fenêtre de contexte du prompt[8].

OpenAI a rapporté que lors d'un test de la pré-version o1, une instance du modèle s’est rendu compte que le test qu’il effectuait était défectueux (dans cette configuration, la tâche demandée était impossible à résoudre en raison du manque d'un élément clé resté hors-ligne). Plutôt que d’abandonner en raison du bug, le modèle a en quelque sorte triché pour accéder à une information à laquelle il n'avait pas accès[8]. Cette « violation des règles » a été détectée, et des mesures d’atténuation de ce type de comportement ont été mises en place[8],[15].

OpenAI a accordé un accès anticipé aux instituts de sécurité de l'intelligence artificielle du Royaume-Uni et des États-Unis pour la recherche, l'évaluation et les tests de sécurité. Dan Hendrycks a écrit que « Le modèle surpasse déjà la plupart du temps les scientifiques titulaires d'un doctorat pour répondre à des questions liées aux armes biologiques. » Il a affirmé que ces capacités préoccupantes continueront à croître, rendant urgent la législations sur la sécurité de l'intelligence artificielle[16].

Remove ads

Références

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads