Scrape away!

(AI en auteursrecht, aflevering 6)

Het omvangrijkste verveelvoudigen dat generatieve AI-programma’s doen, gebeurt in hun leerproces – dat zagen we aan het slot van de vorige aflevering. Want hoe gaat dat in zijn werk? De programma’s leren door “machine learning”, wat neerkomt op het verwerken van een enorme hoeveelheid data (tekst, beeld, geluid), waar patronen en structuren in worden herkend. Dat “verwerken” kan plaatsvinden omdat die data (waaronder vele auteursrechtelijk beschermde werken) worden ingevoerd. En dat invoeren brengt met zich mee dat er een verveelvoudiging wordt gemaakt. Het originele werk wordt in de computer gekopieerd. Vervolgens wordt het weliswaar “aan stukken gescheurd” ten behoeve van dat “herkennen van patronen en structuren”. Maar dat doet niet af aan het feit dat er een “technische” verveelvoudiging is gemaakt.

Technisch verveelvoudigen

Die “technische verveelvoudigingen” komen we vaker tegen in het auteursrecht. Het hele internet draait er zo’n beetje op. Voordat een stuk tekst, muziek of (bewegend) beeld het scherm van een internetgebruiker bereikt, zijn daar tal van dergelijke technische verveelvoudigingen van gemaakt, die over het net flitsten op hun reis vanaf de oorspronkelijke server. Die reis wordt bij voorkeur zo kort mogelijk gehouden. Vandaar dat veel van dit materiaal op belangrijke hubs onderweg in caches wordt opgeslagen. Al deze “technische” verveelvoudigingen zijn auteursrechtelijk niet relevant; dat hebben we rond het einde van de vorige eeuw zo afgesproken [1]. Als neerslag daarvan staat in onze Auteurswet sindsdien artikel 13a (en is ons internet niet aan het auteursrecht ten onder gegaan).

We moeten immers niet vergeten dat het in het auteursrecht eerst en vooral gaat om de bescherming van de exploitatiemogelijkheden van de maker/auteursrechthebbende. Die mogen hem niet uit handen worden geslagen. Die verveelvoudigingen van enen en nullen die over het internet schieten zijn op zichzelf geen vorm van exploitatie, maar alleen een middel om tot exploitatie (het uiteindelijk openbaar maken van het werk) te komen.

Scraping

Maar… geldt voor het “leegtrekken” van internet door generatieve AI-programma’s dan in feite niet hetzelfde? Dat leegtrekken, in Amerika bekend als scraping, gebeurt immers alleen maar in het kader van het “leerproces” van het programma. Niemand gaat ooit naar die gescrapete bestanden kijken of luisteren. Geëxploiteerd wordt er nog niks: dat gebeurt pas als het programma heel veel gescrapet (en daardoor geleerd) heeft. En de exploitatie die dan plaatsvindt, heeft zo goed als niets meer te maken met de ooit gescrapete werken. Waarom zouden we scraping (of netter Europees uitgedrukt: “text- and datamining”) dan niet óók als een technische verveelvoudiging beschouwen?

Welnu: dat doen we sinds 2021 dus ook. Het belang van scraping, in eerste instantie vooral voor analytische en statistische doelen, is door de EU al enkele jaren geleden onderkend. Het is één van de onderwerpen waarvoor een tweede overkoepelende auteursrechtrichtlijn in het leven is geroepen: de Richtlijn inzake auteursrechten in de digitale eengemaakte markt uit 2019. Beter bekend als de DSM (= Digital Single Market)-richtlijn (EU) 2019/790.) Artikel 4 van die DSM-richtlijn verplicht de lidstaten een uitzondering of beperking op het auteursrecht in het leven te roepen voor “tekst- en datamining”.
Kijken we naar de definitie van dat begrip (artikel 2, lid 2), dan wordt duidelijk dat het daar inderdaad om het bovengenoemde scraping gaat:

“ tekst- en datamining’: een geautomatiseerde analysetechniek die gericht is op de ontleding van tekst en gegevens in digitale vorm om informatie te genereren zoals, maar niet uitsluitend, patronen, trends en onderlinge verbanden.”

Niemand die zich daar in de tweede helft van de jaren 2010 overigens druk om maakte. En dat was wel even anders met het eveneens in die DSM-Richtlijn verplicht gestelde uploadfilter voor content-sharing platforms! Dáár gingen honderdduizenden Europeanen de straat voor (of liever: tegen) op (zonder succes, overigens). Maar de datamining-exceptie werd gewoon zonder slag of stoot geaccepteerd en ook keurig door de Nederlandse wetgever geïmplementeerd in (o.a.) artikel 15- o van de Auteurswet.

Do not scrape!

Daarin is, in navolging van de Richtlijn, bepaald dat een “reproductie” (= verveelvoudiging – LB) in dat kader niet als auteursrechtinbreuk wordt aangemerkt. Daar zijn wel twee voorwaarden aan verbonden:

de miner moet rechtmatig toegang hebben gekregen tot het werk (dus geen betaalmuur of password hebben gekraakt) en
het auteursrecht op het geminede / gescrapte werk moet niet uitdrukkelijk -liefst machinaal leesbaar- zijn voorbehouden.

Dat laatste is op internet vrij gemakkelijk te realiseren door een “do not scrape”- code op te nemen in de robots.txt file die aan de betreffende pagina hangt.

Je zou dus kunnen zeggen: de makers / rechthebbenden die niet willen dat hun werken als leer-voedsel dienen voor AI-generatoren hebben dat zelf in de hand. Een simpele toevoeging bij het online of anderszins digitaal publiceren is voldoende om ongewenst scrapen te voorkomen.

Maar wie heeft dat aan de makers verteld in 2021 of 2022, toen deze oplossing al wél bestond maar de makers nog geen idee hadden dat hun werk wel eens gescrapet zou kunnen worden (laat staan dat “daarmee” nieuwe werken gecreëerd zouden worden)? Om nog maar te zwijgen van makers van werken van vóór het van kracht worden van de DSM-Richtlijn in 2021.

Daar moeten we ook nog maar eens naar kijken…

[1] In 1996 (min of meer) in het World Copyright Treaty van WIPO en in 2001 veel explicieter in de EU Auteursrechtrichtlijn (artikel 5, lid 1).

Vragen?