OpenAI lärde ut GPT-4 på dekrypterade YouTube-videor - NYT
Growtika/Unsplash.
OpenAI använde algoritmen Whisper för att transkribera över en miljon timmar YouTube-videor för att träna sin senaste GPT-4-språkmodell.
Här är vad vi vet
Enligt The New York Times har OpenAI slut på kvalitetsdata för att träna så tidigt som 2021. För att lösa detta problem har företaget utvecklat sin egen Whisper-modell specifikt för transkribering av videor, podcasts och ljudböcker.
The Times hävdar att OpenAI:s president Greg Brockman personligen var involverad i att samla in klipp från YouTube.
En talesperson för företaget sa att de använder en mängd olika datakällor, inklusive offentligt tillgängliga data och data som erhållits genom partnerskapsavtal.
Google, som äger YouTube, säger att plattformens användarvillkor förbjuder obehörig insamling eller uppladdning av innehåll. Företaget vidtar tekniska och juridiska åtgärder för att förhindra sådan obehörig användning av data, säger en talesman för teknikjätten.
Under tiden har Google också använt en del innehåll från YouTube för att träna AI. Företaget betonade dock att detta sker enligt separata avtal med varje innehållsskapare vars klipp är inblandade.
Tidningen rapporterar också att Meta har ställts inför liknande problem med datatillgänglighet för att träna sina AI-system. Företaget ska ha övervägt att olagligt använda upphovsrättsskyddat material.
Gå djupare:
Källa: The New York Times, The Verge