OpenAI o3

OpenAI o3

Tipus	Model de llenguatge de raonament

Equip
Desenvolupador(s)	OpenAI



← o1 (transformador generatiu pre-entrenat)

Història

El model OpenAI o3 es va anunciar el 20 de desembre de 2024. Es va anomenar "o3" en lloc d'"o2" per evitar conflictes de marca registrada amb la marca de l'operador de telefonia mòbil anomenada O2. OpenAI va convidar els investigadors de seguretat a sol·licitar l'accés anticipat a aquests models fins al 10 de gener de 2025^[4] De manera similar a o1, hi ha dos models diferents: o3 i o3-mini.^[5]

El 31 de gener de 2025, OpenAI va llançar o3-mini per a tots els usuaris de ChatGPT (inclòs el nivell gratuït) i alguns usuaris de l'API. OpenAI descriu o3-mini com una "alternativa especialitzada" a o1 per a "dominis tècnics que requereixen precisió i velocitat"^[6] o3-mini presenta tres nivells d'esforç de raonament: baix, mitjà i alt. La versió gratuïta utilitza mitjà. La variant que utilitza més capacitat de càlcul s'anomena o3-mini-high i està disponible per a subscriptors de pagament.^[7]^[8] Els subscriptors del nivell Pro de ChatGPT tenen accés il·limitat tant a o3-mini com a o3-mini-high.^[6]

El 2 de febrer, OpenAI va llançar OpenAI Deep Research, un servei ChatGPT que utilitza una versió d'o3 i que crea informes complets en un termini de 5 a 30 minuts, basats en cerques web.^[9]

El 6 de febrer, en resposta a la pressió de rivals com DeepSeek, OpenAI va anunciar una actualització destinada a millorar la transparència del procés de pensament en el seu model o3-mini.^[10]

El 12 de febrer, OpenAI va augmentar encara més els límits de velocitat per a o3-mini-high a 50 sol·licituds per dia (des de 50 sol·licituds per setmana) per als subscriptors de ChatGPT Plus i va implementar la compatibilitat amb la càrrega de fitxers/imatges.

El 16 d'abril de 2025, OpenAI va llançar o3 i o4-mini, un successor d'o3-mini.^[11]

El 10 de juny, OpenAI va llançar o3-pro, que l'empresa afirma que és el seu model més capaç fins ara.^[12] OpenAI va declarar: "Recomanem utilitzar-lo per a preguntes difícils on la fiabilitat importa més que la velocitat, i esperar uns minuts val la pena el compromís".^[13]

Remove ads

Capacitats

L'aprenentatge per reforç es va utilitzar per ensenyar a o3 a "pensar" abans de generar respostes, utilitzant el que OpenAI anomena una " cadena de pensament privada".^[14] Aquest enfocament permet que el model planifiqui amb antelació i raoni a través de les tasques, realitzant una sèrie de passos de raonament intermedis per ajudar a resoldre el problema, a costa d'una potència de càlcul addicional i una major latència de les respostes.^[15]

o3 demostra un rendiment significativament millor que o1 en tasques complexes, com ara la codificació, les matemàtiques i la ciència. OpenAI va informar que o3 va aconseguir una puntuació del 87,7% al punt de referència GPQA Diamond, que conté preguntes científiques de nivell expert que no estan disponibles públicament en línia.^[16]

A SWE-bench Verified, un punt de referència d'enginyeria de programari que avalua la capacitat de resoldre problemes reals de GitHub, o3 va obtenir una puntuació del 71,7%, en comparació amb el 48,9% d'o1. A Codeforces, o3 va assolir una puntuació Elo de 2727, mentre que o1 va obtenir una puntuació de 1891.^[17]

En el punt de referència de l'Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI), que avalua la capacitat d'una IA per gestionar nous problemes lògics i d'adquisició d'habilitats, o3 va aconseguir una precisió tres vegades superior a o1.^[18]

Remove ads

Història

Capacitats

Referències

Wikiwand - on