
Comment fonctionne l'IA pour ajouter des langues dans Google Translate
La clé de cette expansion réside dans le modèle de langage large PaLM 2, une IA qui permet à Google Translate d'apprendre de nouvelles langues de manière plus efficace, en particulier celles qui sont étroitement liées entre elles. Ce modèle a été fondamental pour l'inclusion de 110 nouvelles langues dans le traducteur, dépassant toutes les expansions précédentes.

PaLM 2 fonctionne en utilisant des techniques d'apprentissage automatique et des réseaux neuronaux profonds pour analyser et comprendre les structures et règles des langues. Grâce à d'énormes quantités de données linguistiques et d'exemples de traduction, le modèle peut saisir des motifs et des relations entre mots et phrases dans différentes langues.
Cela lui permet de générer des traductions précises et cohérentes même dans des langues qui n'ont pas été largement documentées ou numérisées.
La sélection de nouvelles langues pour Google Translate n'est pas un processus simple. L'entreprise prend en compte une variété de facteurs, y compris les variétés régionales, les dialectes et les différents standards de l'orthographe.
De nombreuses langues n’ont pas de forme standard unique, ce qui rend impossible le choix d'une "variété correcte". La stratégie de Google a été de prioriser les variétés les plus couramment utilisées de chaque langue afin d’atteindre le plus grand nombre de locuteurs possible.

Par exemple, le romani est une langue avec de nombreux dialectes à travers l'Europe. Les modèles de la plateforme produisent un texte plus proche du romani vlax méridional, une variété couramment utilisée en ligne, mais incorporent également des éléments d'autres variantes, comme le romani vlax septentrional et le romani balkanique.
Pour assurer la qualité et la précision des traductions, Google collabore avec des linguistes experts et des locuteurs natifs. Cette collaboration est cruciale pour comprendre les subtilités et les particularités de chaque langue, et pour développer des modèles capables de gérer ces complexités.
De plus, environ un quart des nouvelles langues ajoutées proviennent d'Afrique, ce qui représente la plus grande expansion de langues africaines à ce jour. Des langues comme le fon, le kikongo, le luo, le ga, le swati, le venda et le wolof sont désormais disponibles sur Google Translate, élargissant l'accès à ces langues.

Exemples de nouvelles langues dans Google Translate
- Afar: une langue tonale parlée à Djibouti, en Érythrée et en Éthiopie. L’afar se distingue par avoir reçu le plus grand nombre de contributions communautaires volontaires.
- Cantonais: l'une des langues les plus demandées pour Google Translate. Son écriture se superpose souvent au mandarin, ce qui présente des défis uniques pour la collecte de données et l'entraînement des modèles.
- Manx: la langue celtique de l'île de Man, qui a presque disparu avec la mort de son dernier locuteur natif en 1974. Grâce à un mouvement de revitalisation à l'échelle de l'île, elle compte désormais des milliers de locuteurs.
- Nko: une forme standardisée des langues mandingues d'Afrique de l'Ouest, unifiant de nombreux dialectes en une langue commune.
- Punjabi (Shahmukhi): la variante du punjabi écrite en écriture perso-arabe, étant la langue la plus parlée au Pakistan.
- Tamazight (Amazigh): une langue berbère parlée en Afrique du Nord, écrite à la fois en alphabet latin et en tifinagh, tous deux pris en charge par Google Translate.
- Tok Pisin: une langue véhiculaire de Papouasie-Nouvelle-Guinée basée sur l'anglais. Les anglophones peuvent essayer de traduire en tok pisin et comprendront probablement le sens.
Nouveau