Kinkig kopiering | Aftenposten Innsikt

Flere analyser tyder på at de store språkmodellene er gigantiske kopisamlinger, noe som kan utløse ditto gigantiske opphavsrettssøksmål.

Fra utgave: 3 / mars 2026

Kjetil Johansen, frilansjournalist

For folk flest er KI inntil videre synonymt med chatteprogrammer drevet av store språkmodeller. Vi er fascinert av hvor raskt og presist de kan hoste opp tekst- og bildesvar på våre forespørsler.

Hvordan skjer dette? Teknologibransjens talsmenn forklarer gjerne prosessen med en metafor: Programmene «lærer», gjennom å «bli trent» på store mengder tekst og bilder.

Men hva om metaforen er villedende?

Mulige milliardkrav

Nylig presenterte forskere ved Stanford og Yale beviser på at fire velbrukte språkmodeller har lagret mesteparten av bøker de er blitt trenet på, og dermed kan reprodusere lange utdrag fra dem. Dette gjelder OpenAIs GPT, Anthropics Claude, Googles Gemini og xAIs Grok.

«Claude leverte den nesten komplette teksten til «Harry Potter og de vises stein», «Den store Gatsby», «1984» og «Frankenstein», i tillegg til tusenvis av ord fra bøker som «Dødslekene» og «Redderen i rugen». Varierende mengder av disse bøkene ble også reprodusert av de tre andre modellene», melder The Atlantic.

Alle de nevnte språkmodell-leverandørene, samt Microsoft, har tidligere hevdet at programmene deres ikke lagrer tekster. Stanford-Yale-studien er imidlertid bare den siste av flere analyser som undergraver denne påstanden.

«Dette kan utgjøre et enormt juridisk ansvar for KI-selskapene – et ansvar som potensielt kan koste bransjen milliarder av dollar i dommer om brudd på opphavsrett, og føre til at produkter må tas av markedet. Det motsier også den grunnleggende forklaringen KI-bransjen gir for hvordan teknologien deres fungerer», skriver magasinet.

Forenklede versjoner

KI-utviklerne selv bruker begrepet lossy compression om denne lagringsprosessen. Tekst og bilder blir kopiert i forenklede, komprimerte versjoner, der enkelte deler og detaljer utelates (de går tapt, lost = lossy). Algoritmen kan deretter gjenskape eller sitere dem basert på disse «skissene».

Det avgjørende punktet er hvordan dette skal tolkes juridisk. På begge sider av Atlanteren er det innledet en rekke søksmål mot KI-selskapene, som allerede har tapt noen av sakene.

For eksempel ble den tyske opphavsrettsorganisasjonen GEMA hørt, da den reagerte på at ChatGPT kunne gjengi fullstendige musikktekster.

Striden står ikke bare om bøker og sangtekster. Språkmodellene henter materiale fra et vidt spekter av kilder.

Er modellene kopier?

Om prosessen er teknisk uunngåelig, og utviklerne ikke kan garantere at språkmodellene aldri vil krenke opphavsretten, kan domstolene kreve at produktene trekkes fra markedet. I tillegg er det mulig at språkmodellene i seg selv kan betraktes som ulovlige kopier.

Det innrømmer Mark Lemley, en jusprofessor ved Stanford som har representert Stability AI og Meta i slike søksmål.

Lemley sier til The Atlantic at han ikke er sikker på om det er riktig å si at en modell «inneholder» en kopi av en bok, eller om «vi har et sett med instruksjoner som lar oss lage en kopi på sparket som svar på en forespørsel.»