Forskare avslöjar att Meta Llama 3.1 AI-modellen kränker upphovsrätten - den kan återkalla 42 procent av den första Harry Potter-boken

Nyss visade en studie av Stanford, Cornell och West Virginia University att Meta Llama 3.1 (70B), som släpptes i juli 2024, medvetet memorerade 42% av den första Harry Potter-boken så att den kan återge avsnitt på 50 token med en sannolikhet över 50%. Med andra ord, modellen minns inte bara handlingen - den kan återge hela textavsnitt om den får den första meningen. För jämförelse, den gamla modellen kom ihåg endast 4,4%.
Vad hände?
En grupp forskare kontrollerade hur mycket den nya Llama "fastnade" i böcker. Det visade sig att om texten är mycket populär (som Harry Potter eller Hobbit), kan AI:n upprepa stora avsnitt. Däremot väckte mindre kända böcker (till exempel Sandman Slim) inte mycket entusiasm: modellen kom ihåg mindre än 1% av dem.
Forskare använde en speciell metod som visar hur säker modellen är på varje följande ord - och denna säkerhet var så hög att det blev tydligt att den definitivt hade sett det förut.
Hur mättes det?
De använde metoden för att analysera sannolikheterna för efterföljande token: om, efter att ha bytt ut de första 50 token från avsnittet, modellen återger de följande, ansågs det vara ett tecken på memorering.
Varför är detta viktigt?
- För att böcker är upphovsrättsskyddade och AI inte bara ska kunna återge dem som en skrivare.
- Om den kan upprepa Harry Potter från minnet, kommer det att bli lätt att generera hela böcker som liknar en kopia men med ett nytt namn i framtiden.
- Detta är inte längre lärande, det är Ctrl+C och Ctrl+V, och advokaterna gick genast in i "aha, du har blivit fångad!"-läget.
Varför hände detta?
För att Meta tränade denna modell på 15 triljoner ord, vilket är mycket. Kanske inkluderade träningen inte bara böcker, utan även forum, fansidor och recensioner med citat - ju oftare en text dök upp i datasetet, desto mer påverkade den modellen.
Och nu då?
Om advokater kan bevisa att AI återger texter nästan ordagrant, kan det innebära stora problem för Meta. Speciellt eftersom deras modell är öppen och alla kan kontrollera den. Stängda språkmodeller (OpenAI, Anthropic och Google) kan också ha liknande problem, men det är mycket svårare att bevisa. Detta gör det svårare för Meta att försvara sig på basis av rimlig användning - en domstol kan betrakta minne som bevis på att modellen skapar ett derivat från en stor del av texterna. Det blir också svårt att säga att det bara är "inget mer än mönster".
Ironiskt nog kan den transparens som Llamas skapare är stolta över nu spela emot dem.
Det är alltså så att denna språkmodell nu kan ge Meta riktiga rättegångsfall, eftersom den har "skrapat" texter som den inte borde ha kommit ihåg så exakt. Å ena sidan kan domstolen skärpa kraven för modeller med öppna vikter: "ge skalorna och du får bevisen emot dig". Å andra sidan kan institutioner och domstolar som värderar transparens uppmärksamma detta. Meta och andra kan använda detta som ett argument för att öppenhet är en "tjänst" och ett "ansvar".
Källa: understandingai.org