Principaux renseignements
- Reddit poursuit Perplexity AI pour avoir prétendument récupéré des messages d’utilisateurs protégés par le droit d’auteur sur sa plateforme sans autorisation pour entraîner son modèle.
- Reddit affirme que la dépendance de Perplexity à l’égard des données de Reddit pour générer des réponses souligne le rôle essentiel de la plateforme dans l’entraînement des modèles d’IA.
- Perplexity nie toute faute, affirmant qu’il ne fait que résumer et citer des discussions publiques et suggérant que le procès est une tactique de Reddit pour obtenir un avantage dans les négociations de licence.
Reddit, le géant des médias sociaux, est engagé dans une bataille juridique contre Perplexity, une société spécialisée dans l’intelligence artificielle, en raison d’allégations de vol de données. Le procès, intenté devant le tribunal fédéral de New York, accuse Perplexity d’avoir illégalement récupéré des messages d’utilisateurs de Reddit pour entraîner son modèle d’intelligence artificielle. C’est ce qu’écrit CNBC.
Gratteurs
Trois entités prétendument impliquées dans la collecte de données se joignent à Perplexity en tant que défendeurs : Oxylabs, un gratteur de données lituanien ; AWMProxy, décrit par Reddit comme un « ancien botnet russe » ; et SerpApi, une startup texane. Reddit allègue que ces entreprises ont déguisé leurs scrapeurs web pour imiter des utilisateurs ordinaires, ce qui leur a permis d’extraire des contenus protégés par le droit d’auteur tout en dissimulant leur identité et leur localisation.
Perplexity nie catégoriquement les accusations, qualifiant les actions de Reddit d' »extorsion » et d’attaque contre les principes d’un internet ouvert. SerpApi a également réfuté les affirmations de Reddit et s’est engagé à se défendre devant les tribunaux. Cette affaire s’inscrit dans une tendance croissante de poursuites engagées par des propriétaires de contenu contre des entreprises d’intelligence artificielle pour avoir utilisé sans autorisation du matériel protégé par le droit d’auteur afin d’entraîner leurs grands modèles de langage.
Reddit a été à l’avant-garde
Reddit a été à la pointe de ce combat, ayant déjà intenté un procès similaire contre la startup d’IA Anthropic. L’entreprise considère son contenu généré par les utilisateurs comme très précieux, attirant les développeurs d’IA à la recherche de données de conversation humaine de qualité. Le vaste réseau de Reddit, qui compte plus de 100 000 communautés « subreddit », en fait une cible de choix pour le scraping de données.
Le procès affirme que Perplexity s’est fortement appuyé sur les posts Reddit pour générer des réponses dans son moteur de recherche IA et a même augmenté la fréquence des citations après avoir reçu une lettre de cessation et de désistement de la part de Reddit. Reddit affirme que cette dépendance met en évidence le rôle essentiel que joue sa plateforme dans l’entraînement des modèles d’IA, ce qui permet d’obtenir des réponses à consonance plus naturelle.
Réaction Perplexity
En réponse à la plainte, Perplexity maintient qu’elle ne fait que résumer et citer les discussions publiques sur Reddit, et qu’elle n’entraîne pas directement ses modèles d’IA sur le contenu. L’entreprise affirme que la signature d’un accord de licence est « impossible » en raison de cette distinction. Elle suggère en outre que l’action en justice est une tactique de Reddit pour obtenir un effet de levier dans les négociations de licence avec d’autres géants de la technologie comme Google et OpenAI.
La déclaration de Perplexity renvoie à un problème plus large, à savoir que les données publiques deviennent une source de revenus importante pour des plateformes telles que Reddit, soulignant la tension entre le libre accès et les droits de propriété intellectuelle à l’ère de l’intelligence artificielle.
Suivez également Business AM sur Google Actualités
Si vous souhaitez accéder à tous les articles, abonnez-vous ici!

