Aujourd’hui, nous lançons o4-mini, notre dernier modèle de la série o, entraîné pour améliorer ses capacités de raisonnement avant de répondre. o4-mini est un modèle plus petit, optimisé pour un raisonnement rapide et économique. Il offre des performances remarquables pour sa taille et son coût, en particulier dans les domaines des mathématiques, du codage et des tâches visuelles.
Il s’agit du modèle le mieux noté sur les évaluations AIME 2024 et 2025. Bien que l’accès à un ordinateur réduise significativement la difficulté de l’examen AIME, il est notable que o4-mini atteint un taux de réussite de 99,5 % en pass@1 (100 % en consensus@8) à l’AIME 2025 lorsqu’il utilise un interpréteur Python. Ces résultats illustrent l’efficacité avec laquelle o4-mini exploite les outils disponibles.
Lors des évaluations d’experts, o4-mini a également surpassé son prédécesseur, o3-mini, non seulement dans les tâches STEM mais aussi dans des domaines comme la science des données. Grâce à son efficacité, o4-mini permet des limites d’utilisation bien plus élevées que o3-mini, en faisant une excellente option pour les questions nécessitant un raisonnement rapide à grande échelle.
Les évaluateurs externes ont jugé que o4-mini suit mieux les instructions et fournit des réponses plus utiles et vérifiables que les modèles précédents, grâce à une intelligence accrue et à l’intégration de sources web. Par rapport aux itérations antérieures, o4-mini offre une expérience plus naturelle et conversationnelle, utilisant la mémoire et les conversations passées pour rendre ses réponses plus personnalisées et pertinentes.
Sécurité
Chaque amélioration des capacités du modèle nécessite des avancées correspondantes en matière de sécurité. Pour o4-mini, nous avons entièrement reconstruit notre ensemble de données d’entraînement lié à la sécurité, en ajoutant de nouvelles consignes de refus dans des domaines sensibles tels que les menaces biologiques, la génération de logiciels malveillants et les tentatives de contournement de sécurité. Ces nouvelles données permettent à o4-mini d’obtenir de très bons résultats sur nos évaluations internes de refus, notamment en ce qui concerne la hiérarchisation des instructions et les tests de résistance aux contournements.
Nous avons soumis o4-mini à notre programme de sécurité le plus rigoureux à ce jour. Conformément à notre cadre de préparation mis à jour, le modèle a été évalué dans trois domaines critiques : les risques biologiques et chimiques, la cybersécurité, et l’amélioration autonome de l’IA. Sur la base des résultats, o4-mini reste en dessous du seuil « Élevé » dans toutes les catégories. Les résultats détaillés sont publiés dans la fiche système associée.
Accès
Les utilisateurs de ChatGPT Plus, Pro et Team peuvent désormais sélectionner o4-mini et o4-mini-high dans la liste des modèles, remplaçant les anciennes versions telles que o3-mini et o3-mini-high. Les utilisateurs de ChatGPT Enterprise et Edu y auront accès dans une semaine. Les utilisateurs gratuits peuvent essayer o4-mini en sélectionnant « Réfléchir » dans le compositeur avant de soumettre leur requête. Les limites de taux d’utilisation restent inchangées par rapport aux anciens modèles.
o4-mini est également disponible dès aujourd’hui pour les développeurs via l’API Chat Completions et l’API Responses. Cette dernière permet de préserver les jetons de raisonnement autour des appels de fonctions pour de meilleures performances, et prendra bientôt en charge les outils intégrés tels que la recherche web, la recherche dans les fichiers et l’interpréteur de code. Pour commencer, consultez notre documentation.