Avec GPT-4o, OpenAI donne la vision et la voix à ChatGPT

Par Julie JAMMOT / AFP

14/05/2024

OpenAI a présenté lundi une nouvelle version de ChatGPT qui peut désormais tenir des conversations orales et fluides avec ses utilisateurs, un pas de plus vers des assistants d’intelligence artificielle (IA) ultra perfectionnés, le graal actuel de la Silicon Valley.

Grâce à un nouveau modèle, GPT-4o (« o » pour « omni »), ChatGPT va pouvoir comprendre aussi bien du texte, que du son et des images, et répondre à l’écrit, par la voix ou en générant des images.

Ces nouvelles capacités vont être progressivement ajoutées à ChatGPT, d’abord le texte et l’image pour les abonnés payants, ainsi que les utilisateurs gratuits, avec des limites en matière d’usage. La nouvelle version du « Voice Mode » (mode vocal) doit arriver dans les prochaines semaines pour les abonnés.

Elle permet de reproduire de façon bluffante des discussions entre humains.

Dans une démonstration vidéo diffusée en direct, ChatGPT a ainsi lu les émotions des utilisateurs sur leurs visages via la caméra d’un smartphone, les a guidés dans des exercices de respiration, leur a raconté une histoire et les a aidés à résoudre un problème mathématique. Surtout, les utilisateurs peuvent facilement l’interrompre.

« Tu as l’air joyeux. (…) Tu veux me dire quelle est la source de toute cette bonne humeur ? », a ainsi demandé la machine à un ingénieur d’OpenAI, qui lui a répondu être en train de montrer au public à quel point elle est « utile et fabuleuse ». « Oh arrête, tu me fais rougir », s’est-elle exclamée en retour.

– « Prophétique » –

Fin 2022, avec le lancement de ChatGPT, qui génère des contenus sur simple requête en langage courant, OpenAI a mis sur les rails l’IA générative, une révolution qui a pris de court tous les géants technologiques.

Depuis, toute la Silicon Valley s’est lancée dans une course aux outils et assistants d’IA toujours plus performants. Google doit présenter ses dernières innovations mardi, tandis que Microsoft, principal investisseur d’OpenAI, a prévu un événement pour la presse et les développeurs la semaine prochaine.

Vendredi, Sam Altman, le patron d’OpenAI, avait démenti les rumeurs au sujet des annonces que préparait son entreprise. « Pas GPT-5, pas un moteur de recherche », avait-il déclaré sur X (ex-Twitter). « Mais (…) nous avons travaillé sur des nouvelles choses et nous pensons que les gens vont adorer », avait-il ajouté. « Pour moi, c’est comme de la magie. »

Dans le passé, il avait confié adorer le film de science-fiction « Her », où un homme tombe amoureux d’une IA, en conversant à l’oral avec elle.

« C’était incroyablement prophétique », avait-il déclaré en septembre dernier lors d’une conférence. « Et cela nous a inspirés à plus d’un titre, (…) notamment l’idée que nous ayons tous un agent personnalisé qui essaie de nous aider. »

ChatGPT est encore loin des agents d’IA omniscients, proactifs et personnalisés que promettent les entreprises. Mais cette mise à jour a impressionné, ou inquiété, les experts du secteur.

– « Anthropomorphisation » –

« J’ai été frappé à quel point les démonstrations anthropomorphisent les modèles », a réagi Jeff Boudier, de Hugging Face, pour l’AFP. « Cela crée de la confusion et des fausses attentes ».

« Les gens risquent de projeter des qualités sur les modèles, et de s’attacher émotionnellement. Ils ne vont pas comprendre pourquoi les modèles peuvent créer de fausses informations, ni savoir dans quelles situations ils peuvent leur faire confiance ou pas », a expliqué le responsable produit de cette plateforme collaborative et ouverte d’IA générative.

Sam Altman promeut régulièrement sa vision d’une IA qui sera un jour « générale », c’est-à-dire dotée de capacités cognitives humaines, capable de réaliser des percées scientifiques au service de l’humanité.

La société OpenAI, initialement créée comme un laboratoire de recherche à but non lucratif, a été valorisée à quelque 80 milliards de dollars, selon le New York Times, lors d’une vente de titres en février dernier. Et d’après le Financial Times, ses revenus annualisés sont de l’ordre de 2 milliards de dollars depuis décembre 2023.

« Une part très importante de notre mission consiste à mettre gratuitement à la disposition du public tous nos outils d’IA avancés (pour que) les gens comprennent de façon intuitive ce que la technologie peut faire », a souligné Mira Murati, directrice technologique de la start-up californienne, pendant la présentation de lundi.

« C’est la première fois que nous faisons un grand pas en avant en matière de facilité d’utilisation », a-t-elle ajouté. « C’est extrêmement important, il s’agit de l’avenir de l’interaction entre nous et les machines ».

À propos
Articles récents

LA REDACTION DE FRENCHWEB.FR

Pour nous contacter, nous vous avons préparé un petit formulaire pour bien gérer votre demande et pouvoir l'adresser en toute confidentialité. Cliquez ici pour y accéder

Les derniers articles par LA REDACTION DE FRENCHWEB.FR (tout voir)

Numérique africain : Huawei trace sa route, n’en déplaise à Orange - 19/04/2025
Devoxx France 2025 : les 5 idées que tout CTO devrait intégrer dans sa roadmap - 19/04/2025
Génération cobaye : grandir dans l’expérience à ciel ouvert des réseaux sociaux - 18/04/2025

14/05/2024

– « Prophétique » –

– « Anthropomorphisation » –

Biopiraterie: le pillage des ressources génétiques en discussion à l'ONU

[SERIE A] ZESTMEUP lève 6 millions et veut jouer un role de consolidateur dans la HRTECH