
Les meilleurs modèles d'intelligence artificielle (IA) d'aujourd'hui dépendent d'un grand nombre de processeurs de dernière génération connus sous le nom d'unités de traitement graphique (GPU). La plupart des entreprises occidentales n'ont pas de problèmes pour les acquérir. Llama 3, le dernier modèle de Meta, un géant des réseaux sociaux, a été entraîné avec 16 000 GPU H100 de Nvidia, un fabricant de puces américain. Meta prévoit de stocker 600 000 autres avant la fin de l'année. XAI, une startup soutenue par Elon Musk, a construit un centre de données à Memphis alimenté par 100 000 H100. Et bien qu'OpenAI, l'autre grand fabricant de modèles, ne dise rien sur ses réserves de GPU, Jensen Huang, le patron de Nvidia, lui a remis en main propre ses derniers processeurs en avril.
Ce type d'accès est un rêve lointain pour la plupart des entreprises technologiques chinoises. Depuis octobre 2022, les États-Unis ont bloqué la vente de processeurs hautes performances à la Chine. On dit que certaines entreprises chinoises se tournent vers le marché noir pour se procurer ces puces convoitées. Mais la plupart se sont concentrées sur l'optimisation de leurs ressources limitées. Leurs résultats interrogent les entreprises occidentales.
Parmi les innovateurs se trouve DeepSeek, une entreprise chinoise basée à Hangzhou. Son dernier modèle, DeepSeek-v2.5, lancé au début de septembre, concurrence les principaux modèles open source lors de défis de codage et de tâches en anglais comme en chinois. Ces avancées ne sont pas dues à la taille : on dit que DeepSeek dispose de peu plus de 10 000 vieilles GPU de Nvidia, un grand nombre pour une entreprise chinoise, mais faible comparé à ses concurrents américains.
DeepSeek compense ce manque de plusieurs manières. La première est qu'il se compose de plusieurs réseaux différents, chacun étant mieux adapté à un problème particulier. Cette approche de “mélange d'experts” permet au modèle de déléguer chaque tâche au réseau approprié, ce qui améliore la vitesse et réduit le temps de traitement. Bien que DeepSeek ait 236 milliards de “paramètres” - les connexions virtuelles reliant différents morceaux de données -, il utilise moins d'un dixième chaque fois qu'il traite un nouveau morceau d'information. Le modèle compresse également les nouvelles données avant de les traiter. Cela l'aide à gérer des entrées de grande taille de manière plus efficace.
DeepSeek n'est pas le seul à avoir trouvé des solutions créatives à la pénurie de GPU. MiniCPM, un modèle open source développé par l'Université de Tsinghua et ModelBest, une startup d'IA, propose des variantes avec 2,4 milliards et 1,2 milliard de paramètres, respectivement. Malgré sa petite taille, les performances de MiniCPM dans des tâches liées au langage sont comparables à celles de grands modèles linguistiques (LLM) comptant entre 7 et 13 milliards de paramètres. Comme le modèle de DeepSeek, il combine une approche de mélange d'experts avec une compression d'entrée. Cependant, comme d'autres modèles petits avec moins de paramètres, MiniCPM pourrait ne pas avoir de grandes performances dans des domaines en dehors de son domaine d'entraînement spécifique.
La taille minuscule de MiniCPM le rend idéal pour les dispositifs personnels. En août, ses créateurs ont lancé une version du modèle pour téléphones mobiles, qui prend en charge plusieurs langues et fonctionne avec divers types de données, du texte et des images à l'audio.
À d'autres endroits, des approches similaires sont testées. FlashAttention-3, un algorithme développé par des chercheurs de Together.ai, Meta et Nvidia, accélère l'entraînement et l'exécution des LLM en adaptant leur conception aux GPU H100 de Nvidia. JEST, un autre algorithme lancé en juillet par Google DeepMind, se nourrit de petites quantités de données de haute qualité pour son entraînement initial avant de se lâcher sur des ensembles de données plus grandes et de moindre qualité. L'entreprise affirme que cette méthode est 13 fois plus rapide et dix fois plus efficace que les autres. Les chercheurs de Microsoft, qui soutiennent OpenAI, ont également lancé un petit modèle linguistique appelé Phi-3 mini avec environ 4 milliards de paramètres.
Pour les entreprises chinoises, contrairement aux occidentales, faire plus avec moins n'est pas optionnel. Mais cela pourrait ne pas être une mauvaise chose. Après tout, affirme Nathan Benaich, d'Air Street Capital, un fonds d'investissement en IA, “la mentalité de pénurie incite sans aucun doute à accroître l'efficacité”.
© 2024, The Economist Newspaper Limited. Tous droits réservés.