
OpenAI, fabriquant de ChatGPT, a annoncé le mardi 30 juillet qu'il commencera à offrir à ses clients son nouveau mode vocal, un mois après avoir retardé le lancement pour réaliser des tests supplémentaires de sécurité de l'outil.
OpenAI a présenté en mai le mode vocal conversationnel, capable de détecter différents tons de voix et de répondre aux interruptions comme un humain. Cependant, certains chercheurs ont rapidement critiqué l'entreprise pour avoir présenté un produit d'intelligence artificielle qui répondait à des stéréotypes sexistes sur des assistantes féminines coquettes et dociles.
L'actrice Scarlett Johansson a allégué que l'entreprise avait copié sa voix du film "Her", où un robot d'intelligence artificielle entame une relation romantique avec un homme.

Les enregistrements d'OpenAI montrent qu'elle a travaillé avec une actrice totalement différente et a retiré la voix, appelée Sky, de son produit. En juin, elle a déclaré qu'elle retarderait le lancement du mode vocal pour effectuer des tests de sécurité supplémentaires. Le nouveau mode vocal lancé mardi n'inclut pas la voix de Sky, a confirmé un porte-parole d'OpenAI.
Les entreprises technologiques travaillent depuis des années pour créer des chatbots conversationnels avec IA. Alexa, d'Amazon, et Siri, d'Apple, sont omniprésents et des millions de personnes les utilisent pour programmer des horaires et consulter la météo, mais elles ne sont pas assez performantes pour réaliser des tâches complexes.
Maintenant, OpenAI, Google, Microsoft, Apple et toute une série d'autres entreprises technologiques essaient d'utiliser les avancées en IA générative pour construire enfin le type d'assistant qui a été un élément fixe de la science-fiction pendant des décennies.
Les fans et clients d'OpenAI ont demandé le mode vocal, et certains se sont plaints sur Internet lorsque l'entreprise a retardé le lancement en juin. La nouvelle fonction sera d'abord disponible pour un petit nombre d'utilisateurs, et l'entreprise l'ouvrira progressivement à tous les clients payants d'OpenAI à l'automne.

Les versions précédentes de ChatGPT pouvaient écouter des questions posées à voix haute et répondre avec du son en transcrivant les questions en texte, en les faisant passer par son algorithme IA et en lisant ensuite sa réponse en texte à voix haute. Mais les nouvelles fonctions vocales reposent sur le dernier modèle d'IA d'OpenAI, qui traite directement l'audio sans avoir besoin de le convertir d'abord en texte.
Cela permet au robot d'écouter plusieurs voix simultanément et de déterminer le ton de la voix d'une personne, répondant différemment en fonction de ce qu'il pense être les émotions de la personne.
Cela ouvre un nouveau champ de questions, telles que la manière dont les différences culturelles entrent en jeu ou si les gens pourraient établir des relations avec des bots entraînés pour répondre à leurs émotions de manières spécifiques.
OpenAI affirme avoir travaillé avec des personnes représentant 45 langues et 29 "géographies" pour améliorer les capacités de son modèle d'IA. Seulement quatre voix uniques pourront être utilisées, et l'outil bloquera les tentatives pour que le bot génère des voix de personnes réelles, affirme l'entreprise.
(c) 2024, The Washington Post
Nouveau