Top Qs
Chronologie
Chat
Contexte

OpenAI o3

grand modèle de langage De Wikipédia, l'encyclopédie libre

Remove ads

OpenAI o3 est un transformeur génératif préentraîné développé par OpenAI en tant que successeur du modèle OpenAI o1. Il est conçu pour pouvoir résoudre des problèmes complexes en passant du temps à les analyser avant de générer une réponse[1],[2]. La version finale du modèle est sortie le 16 avril 2025[3].

Faits en bref Développé par, Langues ...
Remove ads

Histoire

Le modèle o3 a été annoncé le 20 décembre 2024, le nom « o3 » étant choisi pour éviter un conflit de marque avec l'opérateur mobile britannique nommé O2. Le modèle se décline en deux versions : o3 et o3-mini. OpenAI a invité les chercheurs en sécurité de l'IA à postuler avant le 10 janvier 2025 pour un accès anticipé à ces modèles[1],[4].

OpenAI a déployé le 31 janvier 2025 o3-mini, ainsi qu'une variante appelée o3-mini-high qui passe plus de temps à raisonner. o3-mini est disponible pour tous les utilisateurs de ChatGPT, avec une limite d'utilisation. o3-mini-high n'est disponible que pour les abonnés[5].

Le 3 février 2025, OpenAI a lancé Deep research, un service combinant la capacité de réflexion de o3 avec une capacité de recherche avancée en plusieurs étapes automatisées sur internet. Le service n'est initialement disponible qu'aux abonnés à ChatGPT Pro[6].

Remove ads

Capacités

Résumé
Contexte

L'apprentissage par renforcement a été utilisé pour apprendre à o3 à « réfléchir » avant de générer des réponses, en utilisant ce qu'OpenAI appelle une « chaîne de pensée privée ». Cette approche permet au modèle de planifier et d'exécuter des étapes intermédiaires de raisonnement afin de pouvoir résoudre des problèmes plus complexes. Cela nécessite néanmoins davantage de capacités de calcul et la réponse met plus de temps à être générée[7].

o3 a montré des performances nettement meilleures que o1 dans des tâches complexes, notamment en programmation informatique, en mathématiques et en sciences[1]. OpenAI a rapporté que o3 a obtenu un score de 87,7 % sur le test de performances GPQA Diamond, qui contient des questions scientifiques de niveau expert qui ne sont pas accessibles depuis internet[8].

Sur SWE-bench Verified, un test de performances d'ingénierie logicielle évaluant la capacité à résoudre de vrais problèmes GitHub, o3 a obtenu un score de 71,7 %, contre 48,9 % pour o1. Sur Codeforces, o3 a atteint un score Elo de 2727, là où o1 n'obtenait que 1891[8].

Sur le test ARC-AGI, qui évalue la capacité à identifier des motifs pour résoudre des puzzles visuels et logiques, o3 a atteint une précision trois fois supérieure à celle de o1[1],[9].

Remove ads

Références

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads