
La batalla entre els grans editors de referència i les empreses d'intel·ligència artificial ha fet un nou gir amb la demanda presentada per Enciclopèdia Britànica i la seva filial Merriam-webster contra OpenAI, la companyia responsable de ChatGPT al punt de mira judicial. Les editorials sostenen que els models de l'empresa han utilitzat de forma massiva el contingut protegit per entrenar i alimentar el chatbot, sense permís ni compensació econòmica.
Segons l'escrit registrat en un tribunal federal de Manhattan, la companyia de Sam Altman hauria aprofitat el prestigi i la fiabilitat del catàleg de Britannica i Merriam-Webster per convertir-lo en matèria primera dels sistemes d'IA, alhora que desviava els usuaris que abans acudien directament a les webs de les enciclopèdies cap a les respostes generades per ChatGPT, reduint així el seu trànsit i els seus ingressos.
Una demanda per infracció massiva de drets d'autor i ús de marca
L'acció legal, interposada davant del Tribunal de Districte del Sud de Nova York, acusa OpenAI de dur a terme una infracció massiva de drets d'autor en copiar i reutilitzar de manera sistemàtica el catàleg d'articles enciclopèdics i definicions de diccionari de les dues cases editorials. Les xifres que s'esmenten a la demanda són especialment cridaneres: es parla de prop de 100.000 articles que haurien estat extrets i emprats per entrenar models com GPT-4 i les seves variants accessibles a través de ChatGPT.
Els demandants denuncien que el contingut fiable i elaborat per equips humans -investigadors, redactors, editors i lexicògrafs- s'ha convertit en insum directe de l'entrenament dels models, sense que hagi intervingut llicència, remuneració o acord de cap mena. Des del seu punt de vista, OpenAI hauria aixecat un negoci milionari recolzant-se en recursos aliens que segueixen protegits per la normativa de propietat intel·lectual.
A més del front purament relacionat amb el copyright, la querella obre un segon bloc jurídic en sostenir que també es vulnera la legislació sobre marques registrades. Segons el document, ChatGPT arriba a generar textos inexactes o directament inventats –les conegudes “al·lucinacions” de la IA– que són atribuïts a Encyclopèdia Britannica o Merriam-Webster, el que podria induir els usuaris a creure que aquestes editorials donen suport al contingut generat o que existeix algun tipus de col·laboració o llicència.
Aquest tipus d'errors, argumenten les empreses, no només perjudica la confiança acumulada durant dècades al voltant de les seves marques, sinó que compromet la percepció pública sobre la qualitat i el rigor de les obres de referència, especialment sensible en l'àmbit educatiu i acadèmic, també a Europa i Espanya, on els seus materials s'utilitzen com a fonts autoritzades.
Com hauria utilitzat OpenAI els continguts de Britannica i Merriam-Webster
La demanda sosté que OpenAI hauria recorregut a la còpia massiva de pàgines web de les editorials -incloses les versions en línia de l'enciclopèdia i el diccionari- per alimentar els conjunts de dades amb què s'entrenen els models de llenguatge. En aquest procés, s'hi haurien incorporat tant textos complets com amplis fragments d'articles, definicions i altres continguts de referència.
Un cop entrenat el model, ChatGPT seria capaç de reproduir o condensar de manera molt propera les entrades originals quan rep determinades consultes. Les editorials afirmen que el chatbot genera reproduccions gairebé literals o resums tan ajustats que, a la pràctica, substitueixen la lectura de l'obra original, especialment quan l'usuari busca explicacions generals o definicions de conceptes bàsics.
L'escrit va més enllà de l'entrenament inicial i apunta també a l'ús continuat que farien els sistemes d'OpenAI d'aquests textos mitjançant tècniques de Generació augmentada de recuperació (RAG). Aquest enfocament permet que el model recuperi informació addicional de bases de dades o de la web en temps real per ampliar-ne les respostes. Segons Britannica i Merriam-Webster, aquest mecanisme seguiria explotant-ne el contingut sense permís, combinant extracció de dades, còpia i reutilització en un flux constant.
En aquest context, els demandants subratllen que la diferència amb un cercador tradicional és clau. Mentre un motor de cerca clàssic ofereix enllaços i redirigeix trànsit als llocs originals —el que es tradueix en visites, publicitat i subscripcions—, ChatGPT respon directament a les preguntes dels usuaris, evitant que aquests necessitin fer clic a les pàgines de les editorials. Aquesta dinàmica, al·leguen, canibalitza el trànsit i erosiona el seu model econòmic.
OpenAI, per la seva banda, manté públicament que els seus models s'entrenen “amb dades de domini públic i altres materials legals” i que tot el procés es recolza en la doctrina de l'ús legítim o ús just del dret nord-americà. La companyia defensa que laprenentatge estadístic que realitza el model transforma el text dorigen i que, per tant, no es tractaria duna simple còpia de les obres.
El debat sobre el fair use i la memorització de continguts
El cor jurídic del conflicte gira al voltant d'una pregunta gens menor: entrenar una IA amb textos protegits constitueix un ús legítim o una violació de copyright? Fins ara gran part de la indústria tecnològica ha sostingut que l'entrenament massiu amb material disponible a internet és un ús transformador, imprescindible per al desenvolupament de models avançats.
Les editorials demandants qüestionen de ple aquest plantejament. Al seu parer, quan un sistema com ChatGPT és capaç de lliurar paràgrafs pràcticament idèntics als originalso definicions que calquen l'estructura, el vocabulari i l'enfocament de les seves obres, el caràcter transformador desapareix i queda al descobert una reproducció no autoritzada. En la seva argumentació fan referència al fenomen de la “memorització”, és a dir, la capacitat d'alguns models d'emmagatzemar i tornar fragments concrets del material d'entrenament.
Investigacions recents, citades en diferents anàlisis sobre IA, han mostrat que models capdavanters com GPT-4 poden generar contingut protegit per drets d'autor amb molta més freqüència de l'esperada, i que altres sistemes, com alguns de la família Llama, han estat capaços de reproduir percentatges significatius d'obres literàries incloses a les vostres dades d'entrenament. Per als titulars de drets, aquests exemples reforcen la tesi que no només es tracta d'aprendre patrons lingüístics, sinó de guardar parts substancials de les obres.
Aquest debat no es limita als Estats Units. A nivell europeu, on Espanya es regeix per una normativa de propietat intel·lectual més restrictiva, diferents experts i resolucions judicials han començat a qüestionar que l'entrenament indiscriminat amb continguts protegits pugui considerar-se emparat per excepcions similars al ús just. Per al sector editorial europeu, la posició de Britannica i Merriam-Webster encaixa amb una preocupació cada cop més estesa: quin marge tenen els creadors per controlar l'ús de les obres a l'era de la IA generativa.
En paral·lel, la demanda també insisteix en el dany reputacional de les “al·lucinacions” de ChatGPT. Quan el model genera respostes errònies i les atribueix a una font tan reconeguda com Britannica oa un diccionari de prestigi com Merriam-Webster, es posa en qüestió la fiabilitat dels referents tradicionals del coneixement, cosa que preocupa tant en sistemes educatius nord-americans com a universitats i centres d'ensenyament de tot Europa.
Impacte econòmic i model de negoci en joc
Un dels elements clau del cas és la descripció del perjudici econòmic que la suposada conducta d'OpenAI estaria causant a les editorials. Britannica i Merriam-Webster recorden que la seva activitat se sosté gràcies a subscripcions digitals, llicències educatives i publicitat en línia, un ecosistema que depèn en bona part del trànsit que arriba a les pàgines web des de cercadors i altres plataformes.
L'ús de ChatGPT altera aquesta dinàmica. Quan un usuari formula una pregunta al chatbot i rep una resposta directa, ben redactada i prou detallada, la necessitat de visitar la pàgina original disminueix dràsticament. El text mateix de la demanda denuncia que el sistema "priva d'ingressos a editors web" en oferir continguts que "substitueixen i competeixen directament" amb els materials originals, especialment en el cas d'articles de divulgació, definicions bàsiques i explicacions introductòries.
Per a les editorials, la qüestió va més enllà d?una caiguda puntual de trànsit: es tractaria d?una amenaça estructural a la sostenibilitat del periodisme i de les obres de referència en format digital. Si els models d'IA es nodreixen de continguts professionals d'alta qualitat i, alhora, es converteixen en el punt d'accés principal a aquesta informació sense compartir els beneficis, l'incentiu econòmic per continuar produint aquest tipus de materials es redueix de manera notable.
En el cas específic de Britannica, que des de fa anys opera fonamentalment en format en línia i col·labora amb institucions educatives de nombrosos països, inclòs l'espai europeu, la preocupació és que la irrupció de la IA generativa pugui debilitar el finançament de recursos didàctics contrastats. En un context on escoles, universitats i administracions públiques espanyoles aposten per la digitalització, el conflicte planteja com equilibrar l'adopció d'eines com ChatGPT amb la protecció dels catàlegs de continguts que nodreixen aquests mateixos sistemes.
Per tot això, la demanda no sols demana el reconeixement dels danys patits i la devolució de beneficis, sinó també una ordre judicial que prohibeixi de forma permanent a OpenAI continuar utilitzant els continguts de les editorials en els termes descrits. Tot i que no es detallen xifres concretes d'indemnització, la magnitud del catàleg afectat suggereix que l'impacte econòmic, si prosperés la demanda, podria ser molt considerable.
La resposta d'OpenAI i el xoc de models
En les primeres reaccions públiques, OpenAI ha defensat que els seus models s'entrenen amb dades de domini públic, continguts llicenciats i altres fonts legals, insistint que lús dinformació disponible a internet sajusta a la doctrina de lús legítim. L'empresa argumenta que el valor afegit dels seus sistemes resideix precisament en la capacitat de síntesi i en la combinació de múltiples fonts, més que no pas en la reproducció literal de textos concrets i en qüestions de privadesa i riscos legals.
Aquest xoc entre la visió dels editors i la de les companyies tecnològiques reflecteix dos models difícilment reconciliables. D'una banda, les editorials reivindiquen que la qualitat i la fiabilitat dels seus continguts són fruit d'una inversió constant en equips humans, rigorosos processos d'edició i verificació, i que qualsevol explotació comercial d'aquest material ha de passar per acords de llicència i compensacions econòmiques clares.
D'altra banda, empreses com OpenAI consideren que restringir en excés l'accés a les dades limita la capacitat de innovar en models de llenguatge i frena el progrés tecnològic, especialment en un camp tan competitiu com el de la IA generativa, on actors dels Estats Units, Europa i Àsia intenten guanyar avantatge. Segons aquest punt de vista, entrenar amb grans volums d'informació és una condició necessària per oferir eines útils que, alhora, podrien millorar l'accés al coneixement per a milions de persones.
Enmig d'aquest pols alguns analistes apunten a possibles sortides intermèdies: sistemes de llicències col·lectives, acords sectorials o noves figures legals que permetin entrenar models dIA a canvi de remuneracions estandarditzades per als titulars de drets. Per a l'entorn europeu, on el Reglament d'IA i la normativa de copyright ja exigeixen una certa transparència sobre les dades d'entrenament, aquest tipus de solucions podrien encaixar amb les exigències de traçabilitat i control que es reclamen des de Brussel·les.
Sigui quina sigui la fórmula final, el que està en joc és la manera com es reparteixen els beneficis de l'economia de les dades entre els qui generen el contingut i els que l'utilitzen per desenvolupar productes i serveis basats en IA.
Una baula més en una cadena de plets contra la IA generativa
L'ofensiva d'Encyclopedia Britannica i Merriam-Webster no arriba pas en solitari. En els darrers anys se n'ha acumulat una autèntica onada de litigis contra les grans companyies de IA generativa, amb OpenAI al centre de moltes d'aquestes disputes. Entre els casos més coneguts figura la demanda presentada per The New York Times, que acusa l'empresa i el seu soci Microsoft de reproduir articles, fins i tot aquells protegits per murs de pagament, a partir dels continguts.
A la llista se sumen procediments iniciats per grups mediàtics com Ziff Davis —propietari de capçaleres com Mashable, CNET, IGN o PCMag— i per una coalició de diaris dels Estats Units i el Canadà, entre ells Chicago Tribune, Denver Post, Toronto Star o la CBC. Autors, guionistes, fotògrafs, músics i altres creadors individuals també han recorregut als tribunals per qüestionar l'ús de les seves obres a l'entrenament de models d'IA, fet que ha portat el nombre de processos actius a desenes de casos en jurisdiccions clau. Casos de la indústria de l'entreteniment també han destacat a la polèmica, amb demandes per infracció de drets vinculades a models de IA.
La mateixa Britannica ja havia fet un pas en aquesta direcció amb una demanda prèvia contra la startup Perplexity AI, en què denuncia un patró molt similar d'utilització no autoritzada de continguts i de generació de resums que competeixen amb els originals. El nou plet contra OpenAI reutilitza bona part de l'arquitectura jurídica desplegada en aquest cas, ampliant-la i inserint-la en un context encara més mediàtic.
A Europa, encara que alguns processos es troben en fases inicials, ja s'han dictat resolucions que qüestionen obertament que la memorització de passatges protegits per part de models de llenguatge es pugui considerar un ús lícit. Determinades fallades han subratllat que, encara que la informació no s'emmagatzemi en un format tradicional, la capacitat del sistema per reproduir obres reconeixibles constitueix una reproducció als efectes de la normativa de copyright.
El resultat d'aquests procediments tindrà implicacions directes per a les empreses que operen a la UE, incloses les que ofereixen serveis d'IA a Espanya. Les futures decisions judicials i regulatòries podrien obligar a reentrenar models, limitar certes funcionalitats o establir pagaments obligatoris per l'ús de catàlegs editorials, cosa que afectaria tant grans tecnològiques com startups i desenvolupadors que construeixen sobre aquestes tecnologies.
Mentrestant, organitzacions com la Aliança de Drets d'Autor documenten un augment constant de reclamacions de creadors de contingut digital —inclosos youtubers i generadors de contingut online— contra empreses d'IA, cosa que apunta a un clima de creixent tensió entre la indústria tecnològica i l'ecosistema creatiu i editorial.
En aquest escenari en plena ebullició, la disputa entre Britannica, Merriam-Webster i OpenAI ha esdevingut un cas emblemàtic que resumeix moltes de les preguntes obertes sobre propietat intel·lectual, responsabilitat i sostenibilitat del coneixement a l'era de la intel·ligència artificial. El que decideixin els tribunals de Nova York, i les possibles repercussions a les normatives europees, condicionarà com s'entrenen i utilitzen els models d'IA que ja formen part del dia a dia a Espanya ia la resta del continent.
Tot aquest pols legal, que enfronta la protecció de catàlegs editorials amb l'impuls innovador de la IA, està dibuixant un nou mapa on creadors de contingut, plataformes tecnològiques i reguladors hauran de trobar fórmules de convivència si volen garantir alhora un ecosistema digital econòmicament viable i el desenvolupament responsable d'eines com ChatGPT a Europa i la resta del món.