New York Times och CNN blockerade åtkomst till innehåll för OpenAI:s webbcrawler GPTBot

Av: Bohdan Kaminskyi | 25.08.2023, 11:53

Nyhetsbyråer som New York Times, CNN, Reuters och Australian Broadcasting Corporation (ABC) har blockerat ett verktyg från OpenAI som samlar in innehåll från deras webbplatser.

Här är vad vi vet

The Verge var först med att rapportera blockeringen av GPTBot. Därefter fann The Guardian att andra stora nyhetssajter inklusive CNN, Reuters, Chicago Tribune ABC och andra också har förbjudit webbcrawlern.

Blockeringen av GPTBot syns i utgivarnas robots.txt-filer, som talar om för sökmotorer och andra organisationer vilka sidor de får besöka.

Alla de listade publicisterna lade till blockeringen i augusti. CNN bekräftade blockeringen av GPTBot. En talesperson för Reuters sa att företaget regelbundet granskar robots.txt och webbplatsens användarvillkor.

New York Times användarvillkor uppdaterades också nyligen. Specifikt förbjuder reglerna skrapning av innehåll för AI-utbildning och utveckling.

Tillbakablick

OpenAI är skaparen av en av de mest kända chatbotarna för artificiell intelligens, ChatGPT. Dess webbcrawler, som kallas GPTBot, kan crawla webbsidor för att förbättra AI.

Stora språkmodeller som ChatGPT kräver enorma mängder information för att träna sina system. Utvecklare är dock ofta tysta om förekomsten av upphovsrättsskyddat material i sina dataset.

För att hantera potentiella intrång har OpenAI publicerat information om GPTBot och beskrivit hur webbplatser kan förhindra att crawlern samlar in information från webbplatser vars ägare inte vill att deras innehåll används för att träna AI.

Källa: The Guardian