
OpenAI hisse l’IA de raisonnement à un nouveau sommet avec o3 et o4‑mini
Un tournant stratégique
OpenAI a levé le voile sur deux modèles baptisés o3 et o4‑mini, présentés comme les systèmes de raisonnement les plus avancés jamais mis en ligne par l’entreprise. En rupture avec la lignée GPT d’orientation conversationnelle pure, ces modèles unifient logique, vision et contrôle d’outils dans une même architecture : recherche web, interprétation Python, génération et analyse d’images, lecture de fichiers – tout cela orchestré directement par l’IA, sans intervention humaine intermédiaire.
Ce qui change concrètement
- Raisonnement multimodal
o3 et o4‑mini « pensent » désormais avec des images. L’IA peut intégrer un schéma, zoomer sur un détail, ou faire pivoter une photo dans sa chaîne logique avant de répondre, un pas décisif vers une compréhension proche de la cognition humaine. - Agentic tool use
Les modèles choisissent eux‑mêmes l’outil pertinent – exécution de code, navigation web, génération visuelle – puis enchaînent les appels pour livrer une solution complète en moins d’une minute. Cette autonomie transforme ChatGPT en véritable agent d’exécution. - Reinforcement learning démultiplié
OpenAI déclare avoir augmenté d’un ordre de grandeur la puissance de calcul allouée au RL, permettant au modèle de « réfléchir plus longtemps ». Résultat : des gains nets sur la quasi‑totalité des benchmarks, sans surcoût de latence pour l’utilisateur final.
Des performances record
Benchmark | o1 | o3 | o4‑mini |
---|---|---|---|
AIME 2025 (maths) | 79 % | 91,6 % | 92,7 % |
Codeforces ELO | 1 891 | 2 706 | 2 719 |
MMMU (vision) | 77,6 % | 82,9 % | 81,6 % |
Ces scores, issus des notes de version officielles, placent o3 au‑dessus du précédent état de l’art en programmation, mathématiques et analyse d’images, tandis qu’o4‑mini reproduit l’essentiel de ces performances pour un coût par token divisé par deux.
Disponibilité et modèles tarifaires
Les abonnés ChatGPT Plus, Pro et Team voient déjà apparaître o3, o4‑mini et o4‑mini‑high dans leur sélecteur de modèles. Les entreprises sous licence Enterprise et les universités basculeront la semaine prochaine. Côté API, les deux modèles sont accessibles dès aujourd’hui, avec un mécanisme de « Responses API » destiné à conserver les traces du raisonnement autour des appels de fonction.
Sécurité renforcée
OpenAI publie simultanément une System Card détaillant un nouvel ensemble de données de refus et l’emploi d’un LLM monitor chargé de détecter les usages sensibles (biothreats, génération de malware, tentatives de jailbreak). L’éditeur affirme atteindre 99 % de détection lors de phases de red‑teaming internes et garantit que les modèles restent sous les seuils « High » de la Preparedness Framework pour la biologie, la cybersécurité et l’auto‑amélioration.
o3 vs o4‑mini : lequel choisir ?
Critère | o3 | o4‑mini |
---|---|---|
Puissance brute | ★★★★☆ | ★★★☆☆ |
Coût/token | élevé | faible |
Latence | moyenne | basse |
Chaînage d’outils complexe | optimal | bon |
Cas d’usage type | recherche « deep research », analyses visuelles lourdes, production de code sophistiqué | assistants embarqués, lot de requêtes volumineux, intégration mobile |
Un écosystème qui s’élargit
En parallèle, l’éditeur publie Codex CLI, un agent open‑source pour le terminal capable de piloter localement les nouveaux modèles, tandis qu’un fonds de 1 million de dollars en crédits API finance les projets exploitant cet outil.
Perspectives
En dissociant l’arrivée d’o3 de celle de GPT‑5, OpenAI démontre sa volonté d’itérer rapidement sur le raisonnement sans attendre la prochaine grande version. L’avenir immédiat de l’IA passera par des modèles capables d’agir, non plus seulement de converser. Reste à savoir comment seront gérés, à grande échelle, les risques d’hallucination instrumentée et la captation de données sensibles induites par cette autonomie accrue. Pour l’heure, OpenAI reprend une longueur d’avance dans la course au raisonnement agentique.