Lors de son enquête exclusive, le Time magazine a pu consulter des documents internes d’OpenIA. Ceux-ci démontrent que l’entreprise a signé trois contrats d’une valeur totale d’environ 200.000 dollars avec l’entreprise Sama dès novembre 2021 pour étiqueter des descriptions textuelles d’abus sexuels, de discours de haine et de violence. L’étiquetage de certains mots, phrases ou image consiste à mettre manuellement une « étiquette informatique » dessus. Cela permet à l’IA de comprendre que ceux-ci ne sont pas adaptés et donc de ne pas les utiliser.
Pour obtenir ces étiquettes, OpenAI a envoyé des dizaines de milliers de bribes de texte, apparemment tirées des recoins les plus glauques d’Internet, à une entreprise de sous-traitance au Kenya. Certains décrivaient des situations très détaillées d’abus sexuels sur des enfants, de zoophilie, de meurtre, de suicide, de torture, d’automutilation et d’inceste.
Le partenaire d’OpenAI au Kenya était Sama, une entreprise basée à San Francisco qui emploie des travailleurs au Kenya, en Ouganda et en Inde pour étiqueter des données pour des clients de la Silicon Valley comme Google, Meta et Microsoft.
Un travailleur de Sama chargé de lire et d’étiqueter le texte pour OpenAI a confié au Time magazine qu’il souffrait de visions récurrentes après avoir lu une description graphique d’un homme ayant des relations sexuelles avec un chien en présence d’un jeune enfant. « C’était une torture », a-t-il déclaré. « Vous allez lire un certain nombre de déclarations de ce genre tout au long de la semaine. Au moment où l’on arrive au vendredi, vous êtes perturbé d’avoir pensé à cette image. » Le caractère traumatisant du travail a finalement conduit Sama à abandonner son travail pour OpenAI en février 2022, soit huit mois plus tôt que prévu.
À noter que Time magazine explique qu’ « OpenAI ne divulgue pas les noms des sous-traitants avec lesquels elle s’associe », et « qu’ il n’est pas clair si OpenAI a travaillé avec d’autres entreprises d’étiquetage de données en plus de Sama sur ce projet. »
Pourquoi faire cela manuellement ?
Le prédécesseur de ChatGPT avait déjà montré une impressionnante capacité de réponse et de production de texte. Mais il avait tendance à refroidir les investisseurs, car l’application tendait facilement à émettre des propos violents, sexistes et racistes. En effet, l’IA avait été entraînée sur des centaines de milliards de mots extraits piochés sur l’Internet, où on peut trouver ce que l’être humain fait de pire.
Pour mettre en place ce système de sécurité, OpenAI s’est inspirée de réseaux sociaux, comme Facebook. Le média de Mark Zuckerberg avait déjà montré qu’il était possible de créer des IA capables de détecter des propos dangereux comme les discours de haine afin de les retirer de leurs plateformes. Le principe était simple : il s’agissait de fournir à une IA des exemples étiquetés de violence, de discours haineux ou évoquant des abus sexuels, et cet outil pouvait apprendre à détecter ces formes de discours. Ce détecteur serait intégré à ChatGPT pour vérifier ses données d’apprentissage et les filtrer avant de soumettre une réponse à l’utilisateur. Il pourrait également contribuer à éliminer les textes contenant ce genre de propos des ensembles de données d’apprentissage des futurs modèles d’IA.
« Malgré le rôle fondamental joué par ces professionnels de l’enrichissement des données, un nombre croissant de recherches révèle les conditions de travail précaires auxquelles ces travailleurs sont confrontés », rappelle Partnership on AI, une coalition d’organisations consacrées à l’intelligence artificielle à laquelle appartient OpenAI, à Time magazine. « Cela peut être le résultat des efforts déployés pour cacher la dépendance de l’IA à cette importante main-d’œuvre lorsqu’on célèbre les gains d’efficacité de la technologie. Loin des yeux, c’est aussi loin de l’esprit. »
OpenAI et Sama confirment … en partie
Un porte-parole d’OpenAI a confirmé que les employés de Sama au Kenya avaient contribué à un outil de détection des contenus inappropriés, qui a finalement été intégré à ChatGPT. La déclaration indique également que ce travail a contribué aux efforts visant à supprimer les données dangereuses des ensembles de données d’entraînement d’outils comme ChatGPT. « Notre mission est de faire en sorte que l’intelligence artificielle générale profite à l’ensemble de l’humanité, et nous travaillons dur pour construire des systèmes d’IA sûrs et utiles qui limitent les préjugés et les contenus nuisibles », a déclaré le porte-parole. « La classification et le filtrage des textes et des images préjudiciables sont une étape nécessaire pour minimiser la quantité de contenus violents et sexuels inclus dans les données de formation et créer des outils capables de détecter les contenus préjudiciables. »
Les quatre employés interrogés par le Time ont tous déclaré avoir été marqués mentalement par ce travail. Bien qu’ils aient eu le droit d’assister à des séances avec des conseillers en « bien-être », tous les quatre ont déclaré que ces séances n’étaient pas utiles et qu’elles étaient rares en raison des exigences élevées pour être plus productif au travail. Deux d’entre eux ont déclaré qu’ils n’avaient le choix que d’assister à des séances de groupe, et un autre a dit que ses demandes pour voir des conseillers en tête-à-tête avaient été rejetées à plusieurs reprises par la direction de Sama.
Un porte-parole de Sama a déclaré que les employés avaient droit à des séances individuelles et collectives avec des « thérapeutes en santé mentale professionnellement formés et autorisés ». Ces thérapeutes étaient accessibles à tout moment, selon le porte-parole.
Un contrat non respecté ?
Les contrats stipulaient qu’OpenAI paierait un taux horaire de 12,50 dollars à Sama pour ce travail. Cela représente entre six et neuf fois le salaire horaire des employés de Sama participant au projet. Les étiqueteurs de données dits « junior » constituaient la majorité des trois équipes et recevaient un salaire de base de 21.000 shillings kenyans (170 dollars) par mois, selon trois employés de Sama interrogé par Time Magazine. Ils recevaient également des primes mensuelles d’une valeur d’à peu près 70 dollars en raison de la nature explicite de leur travail. Ils recevaient des commissions pour avoir atteint les indicateurs de performance clef tels que la précision ou encore la vitesse. Un agent travaillant neuf heures par jour pouvait s’attendre à gagner au moins 1,32 dollar de l’heure net d’impôts, et jusqu’à 1,44 dollar de l’heure s’il dépassait tous ses objectifs. Les analystes de la qualité, des étiqueteurs plus expérimentés dont le travail consistait à vérifier le travail des agents, pouvaient gagner jusqu’à 2 dollars de l’heure s’ils atteignaient tous leurs objectifs.
Dans une déclaration, un porte-parole de Sama a indiqué qu’il était demandé aux travailleurs d’étiqueter 70 passages de texte par poste de neuf heures, et non jusqu’à 250. Il explique aussi que les travailleurs pouvaient gagner entre 1,46 et 3,74 dollars de l’heure après impôts. Le porte-parole n’a pas voulu préciser quelles fonctions pouvaient donner lieu à des salaires se situant dans le haut de cette fourchette. « Le tarif de 12,50 $ pour le projet couvre tous les coûts, comme les dépenses d’infrastructure, ainsi que le salaire et les avantages sociaux des associés et des analystes d’assurance qualité et chefs d’équipe entièrement dévoués », a-t-il ajouté.
Et pourtant
OpenAI serait maintenant en pourparlers avec des investisseurs pour lever des fonds à une valorisation de 29 milliards de dollars, y compris un investissement potentiel de 10 milliards de dollars par Microsoft. Cela ferait d’OpenAI l’une des sociétés d’Intelligence artificielle les plus valorisées au monde. Sauf si ces révélations du Time font tout capoter.