La division cloud computing d’Amazon a lancé une enquête sur Perplexity AI. La startup de recherche AI violait les règles d’Amazon Web Services en analysant les sites Web qui tentaient de l’empêcher de le faire, a appris WIRED.
Un porte-parole d’AWS, qui a parlé à WIRED sous couvert d’anonymat, a confirmé l’enquête menée par la société sur Perplexity. WIRED a précédemment constaté que la startup – qui a soutenir Du fonds familial de Jeff Bezos et de Nvidia, et c’était récemment valeur D’un coût de 3 milliards de dollars, il semble s’appuyer sur le contenu de sites Web volés dont l’accès a été bloqué via le Bot Exclusion Protocol, une norme Web courante. Bien que le protocole d’exclusion des robots ne soit pas juridiquement contraignant, les conditions d’utilisation le sont généralement.
Protocole d’exclusion des robots Il s’agit d’une norme Web vieille de plusieurs décennies qui consiste à placer un fichier texte brut (tel que wired.com/robots.txt) sur un domaine pour indiquer quelles pages ne doivent pas être accessibles aux robots et aux robots d’exploration automatisés. Si les entreprises utilisant des scrapers peuvent choisir d’ignorer ce protocole, la plupart l’ont traditionnellement respecté. Un porte-parole d’Amazon a déclaré à WIRED que les clients AWS doivent respecter la norme robots.txt lors de l’exploration de sites Web.
« Les conditions d’utilisation d’AWS interdisent aux clients d’utiliser nos services pour toute activité illégale, et nos clients sont responsables du respect de nos conditions et de toutes les lois applicables », a déclaré le porte-parole dans un communiqué.
Un audit des pratiques de Perplexity suit Reportage du magazine Forbes du 11 juin La startup a été accusée d’avoir plagié au moins un de ses articles. Les enquêtes de WIRED ont confirmé cette pratique et ont trouvé d’autres preuves d’utilisation abusive et d’usurpation d’identité de données par des systèmes liés au robot de recherche Perplexity, alimenté par l’IA. Les ingénieurs de Condé Nast, la société mère de WIRED, ont bloqué le robot Perplexity sur tous ses sites Web à l’aide d’un fichier robots.txt. Mais WIRED a découvert que la société avait accès à un serveur avec une adresse IP non publiée – 44.221.181.252 – qui avait visité les propriétés de Condé Nast au moins des centaines de fois au cours des trois derniers mois, apparemment pour détourner les sites Web de Condé Nast.
L’appareil associé à Perplexity semble être engagé dans une exploration à grande échelle de sites d’actualités qui empêche les robots d’accéder à leur contenu. Les porte-parole du Guardian, de Forbes et du New York Times affirment également avoir détecté l’adresse IP sur leurs serveurs à plusieurs reprises.
WIRED a retracé l’adresse IP jusqu’à une machine virtuelle connue sous le nom d’instance Elastic Compute Cloud (EC2) hébergée sur AWS, qui a commencé son enquête après que nous ayons demandé si l’utilisation de l’infrastructure AWS pour supprimer des sites Web les empêchait de violer les conditions de service de l’entreprise.
La semaine dernière, le PDG de Perplexity, Aravind Srinivas, a d’abord répondu à l’enquête de WIRED en déclarant que les questions que nous avons posées à l’entreprise « reflètent une incompréhension profonde et fondamentale du fonctionnement de Perplexity et d’Internet ». Alors Srinivas dit : Il a dit à Fast Company L’adresse IP secrète observée par WIRED lors du scraping des sites Condé Nast et du site de test que nous avons créé était exploitée par un tiers qui effectue des services d’exploration et d’indexation du Web, a déclaré Srinivas. Il a refusé de nommer l’entreprise, invoquant un accord de non-divulgation. Lorsqu’on lui a demandé s’il dirait aux tiers d’arrêter d’explorer WIRED, Srinivas a répondu : « C’est compliqué. »
« Amateur de musique. Joueur. Alcooliste. Lecteur professionnel. Spécialiste du Web. »