Foto: Phonlamaiphoto

Webarkivet Common Crawl stopper ulovlig kopiering af danske mediehuses indhold

sep 2, 2024 | Kunstig intelligens

2. september 2024

Resultatet kommer efter en skriftlig anmodning fra RettighedsAlliancen, hvormed vi i Danmark fortsat går forrest i håndhævelsen af rettigheder overfor kunstig intelligens

Danske mediehuses eksklusive råderet over eget indhold er afgørende for at bevare fundamentet under dansk journalistik. Men mediernes ophavsret bliver i stigende grad udfordret af ’webcrawlers’, som kopierer indhold fra deres hjemmesider, med formål om at stille artikler ulovligt til rådighed i datasæt anvendt til træning af AI-tjenester.

Men efter en skriftlig anmodning fra RettighedsAlliancen, stopper webarkivet Common Crawl nu med at kopiere indhold fra hjemmesider tilhørende en række danske mediehuse. Det sker efter at Common Crawl over længere tid har kopieret artikler i fuld længde fra mediehusenes hjemmesider uden hverken at have indhentet tilladelse fra eller ydet kompensation til rettighedshaverne.

Danske rettighedshavere går i front

De danske rettighedshavere lægger sig endnu engang i front internationalt, hvad angår håndhævelsen af rettigheder over for kunstig intelligens. Det skete ligeledes sidste år, da det lykkedes os at få fjernet det omstridte træningsdatasæt Books3, hvor op imod 200.000 ulovlige kopier af danske og internationale forfattere indgik. Den eneste øvrige rettighedshaver i verden, der har opnået tilsvarende, er The New York Times, som i forbindelse med deres sagsanlæg har anmodet Common Crawl om at slette ulovlige kopier.

Head of Content Protection and Enforcement, Thomas Heldrup, siger:

”Når indhold stilles gratis til rådighed og frit kan anvendes af udviklere af kunstig intelligens, forsvinder deres incitament til at betale for rettighedshavernes indhold. Ved at håndhæve mod den ulovlige kopiering af indhold, der bruges til at træne kunstig intelligens, kan vi give kontrollen tilbage til rettighedshaverne og styrke deres position i forhandlinger med AI-udviklere. Det sender samtidig et klart signal til AI-udviklere om, at brugen af kreativt indhold kræver tilladelse fra de respektive rettighedshavere.”

Generativ AI trænes på data fra Common Crawl

Som reaktion på vores anmodning, vil Common Crawl desuden gennemgå deres eksisterende datasæt, med henblik på at fjerne indhold tilhørende de pågældende danske mediehuse.

Men håndhævelsen af mediehusenes indhold stopper ikke ved Common Crawl, da indhold fra webarkivet ligger til grund for mange datasæt på nettet, som bliver anvendt af tech-virksomheder til at træne kunstig intelligens.

Et eksempel er Googles populære C4-datasæt, som er baseret på kopier fra Common Crawl og som er blevet anvendt af blandt andre OpenAI, Meta og Google til at træne generativ AI. Alene i juli og august blev C4-datasættet downloadet næsten 200.000 gange fra platformen Hugging Face. RettighedsAlliancen fortsætter derfor med at afdække brugen af ulovlige kopier af dansk medieindhold i træningsdata, med henblik på at håndhæve mediehusenes rettigheder.

Læs også Wireds artikel: Publishers Target Common Crawl In Fight Over AI Training Data

Få opdateringer på vores indsatser om AI Thomas’s linkedin her