Hold dig opdateret på AI og ophavsret via vores nyhedsbrev.
Rettighedshavere har rejst kritik af udformningen af praksiskodekset for udbydere af AI-modeller til almen brug samt transparensskabelonen for træningsdata, som blev offentliggjort i sommer. Her er de udfordringer, vi ser for håndhævelse af ophavsretten.
Over sommeren udsendte EU-Kommissionen den endelige version af praksiskodekset for udbydere af AI-modeller til almen brug, foruden den endelige udgave af en transparensskabelon, de samme udbydere skal udfylde med oplysninger om det træningsmateriale, de har anvendt. Endelig kom der også guidelines til forståelsen af udvalgte begreber i selve Forordningen om AI. Den 2. august trådte transparensforpligtelserne for udbydere af AI-modeller til almen brug i kraft.
RettighedsAlliancen og andre rettighedshaverorganisationer har arbejdet intenst for at give rettighedshavere en reel mulighed for at håndhæve deres ophavsret. Det har vi gjort ved at deltage i arbejdsgruppen omkring praksiskodekset og afgive bemærkninger til et udkast af transparensskabelonen, som EU’s AI-Kontor udsendte i begyndelsen af året.
Selvom indsatsen har været med til at skærpe visse forpligtelser, er det endelige praksiskodeks og skabelonen langt fra det, vi ønskede for at sikre en effektiv håndhævelse af ophavsretten. Vi tilslutter os derfor kritikken, som for nylig er fremsat af flere rettighedsorganisationer på internationalt plan, samt på nationalt plan blandt andre fra vores medlemmer Danske Forlag, Producentforeningen og Koda.
Transparensskabelonen giver begrænsede muligheder for håndhævelse
Mens tanken med praksiskodekset er, at underskrivende AI-udbydere kan vise, at de overholder AI-Forordningen, var forhåbningen med transparensskabelonen, at den ville give rettighedshavere den efterspurgte, og for håndhævelse helt essentielle, indsigt i AI-udbydernes træningsdata. Vi opsummerer her de væsentligste udfordringer, der er for vores arbejde med at håndhæve ophavsretten.
Overholdelse af forpligtelser forventes tidligst i 2026
Selvom forpligtelserne om ophavsret i AI-Forordningen er trådt i kraft, kan vi tidligst forvente konkret handling fra AI-udbyderne om et års tid. Det skyldes, at AI-Kontoret først begynder at håndhæve overtrædelser af AI-Forordningen fra den 2. august 2026, og at AI-udbydere, som har underskrevet praksiskodekset, har samme frist til at vise, at de opfylder forpligtelserne. Hertil kommer, at udbydere af AI-modeller til alment brug, som var placeret på det europæiske marked inden 2. august 2025, først skal overholde forpligtelserne fra den 2. august 2027.
Historikken fortæller os, at AI-udbyderne først overholder regulering, når de tvinges til det via håndhævelsesindsatser. Vi kan allerede konstatere, at OpenAI har undladt at offentliggøre træningsdata for deres nyeste GPT-5-model, selvom modellen er lanceret på det europæiske marked efter 2. august 2025.
Utilstrækkelige transparenskrav til datasæt, crawlede domæner og ulovlige fildelingstjenester
Ifølge AI-Forordningen skal udbydere af AI-modeller til alment brug udarbejde og offentliggøre en tilstrækkelig detaljeret sammenfatning af det indhold, der er anvendt til træning af modellen, i overensstemmelse med AI-Kontorets skabelon. Vi må desværre konstatere, at skabelonen ikke giver tilstrækkelige informationer til en effektiv udnyttelse og håndhævelse af ophavsrettigheder.
I det følgende beskriver vi eksempler fra den virkelige verden, hvor AI-udbydere ikke er forpligtet til at oplyse tilstrækkelige oplysninger.
1. Datasæt
For anvendelsen af datasæt gælder, at kun “store” offentligt tilgængelige datasæt skal oplistes med navn og link. Det betyder, at AI-udbyderne kun er forpligtet til at offentliggøre detaljer om indholdet, hvis datasættet udgør mere end 3 procent af alle offentligt tilgængelige datasæt, som er anvendt i træningen inden for en specifik kategori (fx tekst, lyd eller video). Hvis datasættet derimod udgør mindre end 3 procent, skal indholdet kun beskrives i generelle termer.
RettighedsAlliancen har, med afsæt i vores sag om Books3-datasættet, anbefalet, at grænsen fjernes helt, da vores erfaringer viser, at AI-udbyderne anvender datasæt med ulovligt indhold, som ofte vil udgøre en mindre del af den samlede mængde træningsdata. Grænsen blev sænket fra 5 til 3 procent, men det er ikke nok.
For at illustrere manglerne kan vi se på selvsamme sag om Books3-datasættet, der blev anvendt af bl.a. Meta til træning af deres Llama 1 AI-model. Foruden Books3 anvendte Meta et offentligt tilgængeligt datasæt med tekst fra Common Crawl på hele 3,3 TB data, foruden data fra en række andre offentlige datasæt, der tilsammen betød, at Meta brugte data svarende til ca. 4,7 TB. Da Books3 højst bestod af 85 GB data-tekst, udgjorde Books3 mindre end 1,7 procent af den samlede mængde træningsdata inden for tekstkategorien. Det betyder, at Meta ikke skulle oplyse navn og link på Books3, hvis de placerede Llama 1 på det europæiske marked i dag.
Da nærmest alle udbydere af AI-modeller til alment brug benytter sig af Common Crawl-data, formodes dette at være en generel udfordring for tilstrækkelig transparens ved alle populære AI-modeller.
2. Indsamling af træningsmateriale fra internetdomæner
AI-udbyderne er ifølge skabelonen kun forpligtet til at opliste de mest “relevante” domæner, de har indsamlet data fra. Det svarer til top 10 procent af domænerne, opgjort efter mængden af data som indsamles fra et specifikt domæne, på en repræsentativ måde på tværs af alle indholdskategorier.
Denne begrænsning i graden af transparens betyder, at vi formodentligt ikke vil få oplyst domæner tilhørende danske rettighedshavere, da AI-udbyderne fokuserer deres indsamling på domæner med tekst inden for de største sprogområder som engelsk og spansk. Det skævvrider håndhævelsesmulighederne og rammer især små og mellemstore rettighedshavere samt dem fra mindre sprogområder som Danmark.
For AI-udbydere, der er små eller mellemstore virksomheder, er udsigterne til transparens ringere endnu. Her skal domæner først oplistes, hvis de udgør top 5 procent eller de 1.000 mest anvendte domæner.
3. Indsamling af træningsdata fra ulovlige fildelingstjenester
Det er gentagne gange kommet frem i amerikanske retssager om AI og ophavsret, at AI-udbydere som Meta, Anthropic og OpenAI har indsamlet træningsdata fra ulovlige fildelingstjenester såsom LibGen.
Da der ikke er tale om indsamling med crawlere eller bots, når AI-udbydere har downloadet indhold fra LibGen og lignende, er vi bekymrede for, at AI-udbyderne vil opliste dette under afsnit 2.6 “other sources of data”, hvor der alene kræves en “narrativ” beskrivelse af datakilder og data, hvis de da overhovedet vælger at beskrive indhold, indsamlet fra ulovlige fildelingstjenester.
Hvor stiller det rettighedshaverne?
På grund af den manglende indgriben over for AI-udbyderne indtil tidligst 2. august 2026, forventer vi ikke nye toner fra AI-udbyderne foreløbig. Selv efter denne dato vil rettighedshaverne ikke få tilstrækkelig indsigt i, om deres indhold er anvendt til træning af AI-modeller til almen brug. Det gælder i særlig høj grad de små og mellemstore rettighedshavere og rettighedshavere fra mindre sprogområder som Danmark.
De lave grænser for offentliggørelse af data og de vage krav til dokumentationens indhold, vil betyde, at de danske rettighedshavere får begrænset indsigt i brugen af deres indhold. Vores håndhævelsesarbejde kan derfor ikke baseres på den begrænsede viden, AI-udbyderne skal stille til rådighed som følge af transparensskabelonen.
Vi og andre rettighedshavere står derfor fortsat med den store opgave, det er at dokumentere, hvilket ophavsretligt beskyttet indhold der anvendes til at træne AI-modeller til alment brug, som er afgørende for effektivt at kunne udnytte og håndhæve ens ophavsrettigheder.
Kommissionen vil løbende vurdere, om der er behov for at revidere transparensskabelonen bl.a. i lyset af praktiske erfaringer og den teknologiske udvikling. Kommissionen kan vælge at revidere skabelonen, før dens håndhævelsesbeføjelser træder i kraft 2. august 2026.
RettighedsAlliancen vil derfor fortsat gøre, hvad vi kan for at illustrere de væsentlige udfordringer for en effektiv håndhævelse af ophavsrettigheder.
