
Depuis que l'être humain a commencé à utiliser des outils, il a souhaité aller au-delà de ses propres limitations. Aujourd'hui, l'intelligence artificielle est l'outil le plus avancé dont nous disposons, et elle se positionne comme une extension de notre propre intelligence. Cependant, nous ne pouvons pas affirmer que l'IA soit une entité créative autonome, ni un co-créateur. C'est la manifestation amplifiée de ce que nous concevons, le miroir qui reflète nos idées.
Dans ce processus d'itération entre les humains et l'IA, les prompts jouent un rôle essentiel. Ils sont plus que de simples instructions pour les machines ; ils sont, en leur essence, le langage à travers lequel nous guidons l'IA vers le résultat que nous souhaitons. Des modèles comme ChatGPT ou Copilot ont démontré que la qualité du résultat dépend du soin avec lequel le créateur façonne ses mots, affinant la technique de la description précise. Plus les prompts sont bons, meilleurs seront les résultats dans différentes tâches.
Pour cela, les techniques les plus avancées d'ingénierie de prompting nous permettront d'accomplir des tâches plus complexes. Ainsi, du prompt sans entraînement préalable, ou Zero-shot, ou instruction qui ne fournit aucun exemple au modèle, jusqu'au prompt CoT multimodal ou chaînes de pensée multimodales, qui intègre texte et vision dans un cadre d'étapes. Les prompts sont devenus une forme contemporaine de communication, où l'humain reste le protagoniste, maniant les fils invisibles du résultat des agents intelligents.
Cyberattaques par clonage vocal avec l'IA
Lorsque nous entendons une voix clonée ou voyons une image générée par l'IA, nous ne sommes pas face à la création d'une machine autonome. La voix clonée n'a pas d'essence propre, c'est l'acte de la volonté humaine qui interagit avec une IA, que ce soit pour cloner sa propre voix ou celle d'un tiers. Par conséquent, et selon l'évaluation comparative et l'appréciation des chercheurs en sécurité de McAfee, pour que la cybercriminalité puisse utiliser la voix de n'importe qui, il ne suffira que de trois secondes d'audio pour produire un clone avec 85 % de correspondance de voix avec l'original.
Selon le rapport de McAfee, parmi 7000 personnes interrogées, une sur quatre a déclaré avoir expérimenté une fraude de clonage vocal avec IA ou connaître quelqu'un qui l'avait subi, 70 % des personnes ont dit qu'elles n'étaient pas sûres de pouvoir distinguer entre une voix clonée et une voix réelle. Bien sûr, pour réaliser un clonage, un audio original sera toujours nécessaire.
Actuellement, les utilisateurs de réseaux publient des vidéos sur des plateformes comme YouTube, partagent des clips et peuvent même participer à des podcasts. Ainsi, en accédant à des sources relativement publiques, les cybercriminels peuvent disposer d'un arsenal de matériel suffisant pour leurs fins.
Le "spear phishing", ou attaque ciblée sur des personnes spécifiques, se nourrit des profils publics des réseaux sociaux et d'autres lieux d'Internet où les personnes publient sur elles-mêmes, leurs familles, leurs voyages, etc. Avec les informations qu'ils trouvent, ils peuvent utiliser des techniques de manipulation sociale pour créer des attaques exceptionnellement personnalisées qui trompent la cible en lui faisant croire qu'elle reçoit des demandes ou des messages audio légitimes. D'un autre côté, des entreprises comme Respeecher offrent des voix clonées incroyables dans toutes les industries.
Parmi les exemples de cas controversés et emblématiques, nous pouvons citer le cas du célèbre DJ, producteur de disques, musicien et compositeur suédois Tim Bergling, connu professionnellement sous le nom de Avicii, qui est mort à 28 ans. L'un de ses collaborateurs les plus connus, Aloe Blacc, pour rendre hommage à l'artiste, a interprété et enregistré le succès d'Avicii "Wake Me Up" en anglais, mandarin, espagnol, italien et français. Aloe Blacc a fait appel à Respeecher et Metaphysic.ai.
Le clonage vocal propulsé par IA de Respeecher a permis de synthétiser la voix pour produire un son qui correspondait à la voix de Blacc, en préservant tous les accents émotionnels de la chanson qui a été enregistrée à l'origine mais dans autant de langues qu'il le souhaitait. Un autre exemple, qui remonte déjà à plusieurs années, et est exposé sur la page de Respeecher comme un cas représentatif, est le film In Event of Moon Disaster, un court-métrage documentaire qui explore une réalité alternative dans laquelle la mission Apollo 11 échoue et les astronautes Neil Armstrong et Buzz Aldrin meurent sur la Lune. Utilisant la technologie deepfake, le documentaire recrée un discours fictif de l'ancien président Richard Nixon. Le film a été créé par le Centre de Virtualité Avancée du MIT et Respeecher, qui a généré une version synthétique de la voix de Nixon basée sur des enregistrements d'archives.
Audio IA au Parlement de Taïwan
De nombreuses entreprises offrent actuellement la conversion de texte en voix, parmi elles ElevenLabs est une entreprise de recherche et d'implémentation d'audio de IA qui annonce sur sa page avoir utilisé de l'audio de IA au Parlement de Taïwan.
Au parlement de Taïwan, la législatrice Dra. Chen Ching-Hui a temporairement perdu sa voix avant une session cruciale. Grâce à la technologie de clonage vocal de ElevenLabs, son collègue Dr. Ju Chun Ko et son équipe ont utilisé des enregistrements antérieurs de la Dra. Chen pour créer rapidement un clone vocal qui correspondait étroitement à son ton naturel. Le défi n'était pas seulement technologique. Les règles du parlement stipulent que pour que les déclarations soient incluses dans les registres officiels, elles doivent être prononcées à haute voix. Ainsi, la réplique de sa voix lui a permis de réaliser l'interpellation. Cet usage pionnier de l'IA a marqué un tournant dans l'histoire parlementaire et a ouvert des débats sur son application future dans les procédures législatives. Le Dr. Ko prévoit d'enseigner aux jeunes leaders comment tirer parti de cette technologie dans la politique.
L'intelligence artificielle amplifie nos capacités, mais ne nous remplace pas. Comme tous les outils que l'humanité a développés, du feu à l'écriture, l'IA reflète et renforce nos décisions, sans être autonome. Les prompts que nous utilisons pour diriger ces machines sont une forme moderne de langage, où la précision humaine est la clé pour obtenir des résultats de qualité. Cependant, la sophistication croissante de ces technologies, comme le clonage vocal ou les deepfakes, ouvre de nouvelles frontières éthiques et des risques de manipulation. La question n'est pas de savoir si l'IA remplacera notre créativité, mais comment nous choisirons de l'utiliser. Au final, l'intelligence humaine reste le pivot central de ce processus, et notre responsabilité est de la guider vers des fins qui enrichissent notre société et ne la nuisent pas.