
Le mois dernier, Hye Jung Han, chercheur à HRW, a rapporté à Wired que l'ensemble de données LAION-5B comprenait 170 photos d'enfants brésiliens. Les images ont été obtenues principalement à partir de blogs personnels, de réseaux sociaux et de vidéos peu visibles sur YouTube.
C'est extrêmement grave car les conditions d'utilisation de YouTube interdisent la collecte de données personnelles sans le consentement approprié, ce qui constitue une attaque directe contre ces politiques.
Quelles images d'enfants sont utilisées pour former des modèles d'IA

Lors d'une découverte encore plus récente, 190 autres images d'enfants australiens ont été trouvées, notamment des photos de nouveau-nés et de filles en maillot de bain lors d'un carnaval. Ces images ont été initialement partagées dans le cadre de strictes mesures de confidentialité, sur des blogs personnels ou sur des réseaux sociaux à accès limité.
De même, l’une des préoccupations les plus sérieuses soulignées par HRW est que les URL de ces images contiennent souvent des informations sensibles, telles que des noms et des lieux spécifiques.

Par exemple, une image étiquetée avec des détails précis a permis aux chercheurs d'obtenir les noms complets et la garderie fréquentée par deux enfants à Perth, en Australie. Cette capacité à extraire des informations privées à partir d’images prétendument sûres reflète la vulnérabilité à laquelle les mineurs sont exposés à l’ère numérique.
Est-il difficile de rechercher des images d'enfants en ligne
Ces images sont extrêmement difficiles à localiser grâce à des recherches régulières en ligne, ce qui indique que les parents et les tuteurs ont pris des mesures délibérées pour protéger la vie privée des enfants.
Cependant, les outils et techniques utilisés pour créer des ensembles de données massifs comme LAION-5B ont ignoré ces mesures, exposant la vie privée des mineurs à des risques considérables.

HRW a noté que son équipe n'a pu examiner qu'une infime fraction de l'ensemble de données, moins de 0,0001 % de ses 5,85 milliards d'images. Les chercheurs ont été surpris par le nombre de photos personnelles d’enfants qu’ils ont trouvées, même dans un échantillon aléatoire.
On s’attendrait plutôt à trouver une proportion plus élevée d’images plus courantes sur le Web, telles que des photos d’animaux ou de paysages, soulignant encore davantage le caractère invasif de cet ensemble de données spécifique.
À quoi répondent les modèles d'IA
Pour défendre ses pratiques, LAION, une ONG à l'origine de l'ensemble de données, a déclaré à Ars Technica qu'elle maintenait une politique de « tolérance zéro pour les contenus illégaux ».

Il reconnaît toutefois que l’élimination de ces images compromettantes est un processus lent et complexe. De plus, une fois les modèles d’IA entraînés avec ces données, il est impossible « d’oublier » les informations absorbées, ce qui signifie que les dommages potentiels ont déjà été causés.
Pour le moment, cette alerte souligne l’urgence d’établir des réglementations plus strictes et des contrôles plus robustes sur la collecte et l’utilisation des données pour la formation à l’IA.
L'exactitude et l'efficacité de ces modèles ne doivent pas se faire au détriment de la vie privée et des droits des individus , en particulier des enfants, qui constituent un groupe particulièrement vulnérable.
Non seulement la vie privée des mineurs est menacée, mais l’éthique et la légalité des pratiques de collecte de données de nombreux modèles d’IA actuels sont également remises en question.
Nouveau