Aujourd’hui, nous lançons OpenAI o3, le dernier modèle de notre série o, conçu pour réfléchir plus longtemps avant de répondre. Il s’agit du modèle le plus intelligent que nous ayons publié à ce jour, marquant une avancée significative dans les capacités de ChatGPT, tant pour les utilisateurs curieux que pour les chercheurs avancés. Pour la première fois, nos modèles de raisonnement peuvent utiliser de manière autonome tous les outils de ChatGPT : effectuer des recherches sur Internet, analyser des fichiers et d’autres données via Python, raisonner profondément sur des entrées visuelles, et même générer des images.
Ces modèles sont entraînés pour déterminer quand et comment utiliser ces outils afin de produire des réponses détaillées et réfléchies dans des formats appropriés, généralement en moins d’une minute, ce qui leur permet de résoudre des problèmes complexes plus efficacement. Cette avancée représente un pas de plus vers un ChatGPT plus autonome, capable d’exécuter des tâches de manière indépendante. La combinaison d’un raisonnement de pointe et d’un accès complet aux outils se traduit par des performances nettement supérieures sur les benchmarks académiques et les tâches du monde réel, établissant un nouveau standard en matière d’intelligence et d’utilité.
Qu’est-ce qui a changé
OpenAI o3 est notre modèle de raisonnement le plus puissant à ce jour, repoussant les frontières dans des domaines comme la programmation, les mathématiques, les sciences et la perception visuelle. Il établit de nouveaux records sur des benchmarks tels que Codeforces, SWE-bench (sans construction d’infrastructure spécifique au modèle), et MMMU. Il est idéal pour des requêtes complexes nécessitant une analyse multifactorielle et dont les réponses ne sont pas immédiatement évidentes.
Le modèle excelle particulièrement dans les tâches visuelles telles que l’analyse d’images, de graphiques et de schémas. Lors d’évaluations menées par des experts externes, o3 a commis 20 % d’erreurs majeures en moins par rapport à OpenAI o1 sur des tâches complexes du monde réel, notamment en programmation, en conseil d’entreprise et en idéation créative. Les premiers testeurs ont mis en avant sa rigueur analytique et sa capacité à générer et évaluer de nouvelles hypothèses, particulièrement dans des domaines comme la biologie, les mathématiques et l’ingénierie.
Poursuivre l’expansion de l’apprentissage par renforcement
Tout au long du développement d’OpenAI o3, nous avons constaté que l’apprentissage par renforcement à grande échelle suit la même tendance que l’entraînement préliminaire de la série GPT : « plus de calcul = meilleures performances ». En reprenant cette approche de montée en échelle pour l’apprentissage par renforcement, nous avons multiplié par dix la puissance de calcul et la capacité de raisonnement pendant l’inférence, tout en observant des gains de performance clairs. À latence et coût égaux avec OpenAI o1, o3 offre des performances supérieures dans ChatGPT — et nous avons validé que lui laisser plus de temps pour raisonner continue à améliorer ses résultats.
Nous avons également entraîné le modèle à utiliser des outils via l’apprentissage par renforcement, non seulement pour apprendre à les utiliser, mais aussi pour raisonner sur le moment et la manière appropriés de les utiliser. Cette capacité améliore leur efficacité dans des situations ouvertes, notamment celles nécessitant un raisonnement visuel et des flux de travail multi-étapes.
Pour la première fois, ces modèles peuvent intégrer directement des images dans leur processus de réflexion. Ils ne se contentent pas de « voir » une image : ils « pensent avec ». Cela permet de résoudre de nouvelles classes de problèmes mêlant raisonnement visuel et textuel, ce qui se reflète dans leur performance de pointe sur les benchmarks multimodaux.
Par exemple, on peut télécharger une photo d’un tableau blanc, un schéma d’un manuel ou un croquis dessiné à la main, et le modèle saura l’interpréter — même si l’image est floue, inversée ou de mauvaise qualité. En utilisant les outils, il peut également manipuler les images en temps réel — en les faisant pivoter, en zoomant ou en les transformant dans le cadre de son raisonnement.
Ces modèles offrent une précision inégalée sur les tâches de perception visuelle, leur permettant de résoudre des questions auparavant hors de portée.
Vers une utilisation agentique des outils
OpenAI o3 dispose d’un accès complet aux outils dans ChatGPT, ainsi qu’aux outils personnalisés via l’appel de fonctions dans l’API. Ce modèle est entraîné pour raisonner sur la manière de résoudre des problèmes, choisissant stratégiquement quand et comment utiliser les outils pour produire des réponses détaillées et pertinentes rapidement.
Par exemple, un utilisateur pourrait demander : « Comment la consommation d’énergie en Californie cet été se comparera-t-elle à celle de l’an dernier ? ». Le modèle pourrait rechercher des données publiques, écrire du code Python pour établir une prévision, générer un graphique et expliquer les facteurs principaux influençant la prédiction, en enchaînant plusieurs appels d’outils.
Cette approche stratégique et flexible permet au modèle de s’attaquer à des tâches nécessitant des informations actualisées, un raisonnement étendu, une synthèse d’information, et la génération de résultats dans plusieurs formats.
OpenAI o3 est non seulement notre modèle le plus intelligent, mais aussi souvent plus efficace que ses prédécesseurs, comme OpenAI o1, en termes de coût et de performance sur des compétitions académiques et dans des utilisations concrètes.
Sécurité
Chaque amélioration des capacités du modèle exige des progrès équivalents en matière de sécurité. Pour OpenAI o3, nous avons entièrement reconstruit nos ensembles de données d’entraînement en sécurité, en ajoutant de nouvelles invites de refus dans des domaines sensibles tels que les menaces biologiques, la génération de malwares et les tentatives de contournement (jailbreaks). Ce nouvel ensemble de données a permis à o3 d’obtenir d’excellents résultats sur nos benchmarks internes de refus d’instructions.
Nous avons également développé des systèmes de mitigation pour détecter les prompts dangereux dans des domaines à risque élevé. De plus, nous avons entraîné un modèle de raisonnement spécifiquement destiné au monitoring de la sécurité, qui a réussi à détecter environ 99 % des conversations problématiques dans nos campagnes de tests humains.
Nous avons soumis o3 à notre programme de sécurité le plus rigoureux à ce jour. Conformément à notre Preparedness Framework actualisé, nous avons évalué le modèle dans trois domaines critiques : risques biologiques et chimiques, cybersécurité, et amélioration autonome de l’IA. Sur la base de ces évaluations, nous avons déterminé que OpenAI o3 reste en dessous du seuil « élevé » de notre Framework dans toutes les catégories.