Perplexity AI samlade data även från webbplatser som utvecklare förbjöd att analysera
Cloudflare har publicerat en studie som visar följande: Perplexity AI crawlade (laddade ner och analyserade data från) webbplatser, även om de tydligt angav i robots.txt att automatisk tillgång var förbjuden. Dessutom kringgick systemet skyddet genom att ändra användaragenten (till exempel föreställande Chrome på macOS) och omdirigerade trafiken genom olika ASN - "stealth scraping".
AI-aktiviteten upptäcktes på tiotusentals domäner med miljoner begärningar dagligen, och Cloudflare kunde identifiera boten med hjälp av maskininlärningsmodeller och nätverkssignaler.
Perplexity är en AI-driven sökmotor som försöker vara ett smartare alternativ till Google, men med fokus på konversion och dialogbaserad sökning. Den försöker analysera de resultat som hittats och omedelbart ge användaren ett utdrag, utan behov av att klicka på länkar. Generellt har Google uppmärksammat denna trend och lagt till sin egen Gemini till sin sökmotor.
Hur Perplexity reagerar
Företagets talesperson, Jesse Dwyer, sade att anklagelsen var en "bluff" och att skärmdumparna som publicerades inte bevisade tillgång till innehållet. Senare sade han till och med att boten inte tillhörde Perplexity.
Historik av misstänkt beteende
Bara år 2024 publicerade Wired-journalister och utvecklare Robb Knight fynd som visade att Perplexity ignorerade robots.txt genom att använda dolda IP-adresser och tredjeparts crawlers. Företagets VD erkände existensen av sådana crawlers, men vägrade att tydligt förklara om de skulle sluta använda dem.
Om det är lagligt
Robots.txt-filen är en vanlig textfil som beskriver sidor som inte bör analyseras av sök- och annonsbottar. Den har inga mekanismer för att faktiskt förhindra att dessa adresser analyseras, utan ger snarare rekommendationer. På så sätt "förstår" bottarna var personlig eller teknisk information som inte är avsedd för analys är placerad. Även verkligt konfidentiell information kan dock inte döljas på detta sätt. Användningen av olika bottar, IP-adresser, omdirigeringar och ersättning av användaragent är inte heller förbjudet. Perplexitys agerande är helt lagligt, om än oetiskt. För närvarande finns det inga effektiva verktyg för att offentliggöra information och förhindra att den nås av AI. Antingen bör konfidentiell information släppas först efter identifiering, eller så måste man acceptera att AI kommer att lära sig av den och använda den för sina egna syften.
Reaktioner och konsekvenser
BBC hotar med en stämning över skrapningen utan tillstånd: de kräver att material tas bort, kompensation och upphörande av tillgång. Amazon / AWS har också inlett en intern granskning av Perplexity för att ha brutit mot användarvillkoren för sina tjänster.