La imagen de libros destruidos para su digitalización condensa con crudeza el momento actual del sector editorial. Expone de forma directa cómo se están obteniendo los corpus que alimentan los modelos de inteligencia artificial y pone el foco en el uso de contenidos sin licencia ni remuneración para sus titulares.
A partir de ese punto, el artículo analiza el marco jurídico en el que se han desarrollado estas prácticas y examina la aparición de un mercado de licencias de contenido. Este escenario introduce cambios en la forma en que se negocia, se mide y se remunera el uso del catálogo editorial.
La realidad crea imágenes muy poderosas, capaces de resumir un cambio de ciclo mejor que cualquier análisis.
La imagen de millones de libros destruidos para alimentar sistemas de inteligencia artificial ilustra en toda su crudeza el momento de transición que atraviesa la industria editorial.
A comienzos de 2026, el Washington Post desveló que Anthropic había comprado y escaneado entre 500.000 y dos millones de libros impresos para obtener corpus textuales destinados al entrenamiento de modelos de lenguaje (LLM). El escaneo de libros no siempre es un proceso estético. Hay que guillotinar los ejemplares por el lomo para soltar las hojas y poder pasarlas por la máquina. Los libros, literalmente, se destripan y luego se desechan.
Esa imagen es muy potente, factual y metafóricamente.
Por una parte, simboliza el miedo subyacente en el rechazo a la IA, el miedo a ser sustituidos por máquinas con conocimientos y habilidades muy superiores a las nuestras.
Por la otra, ilustra la lógica que ha dominado hasta ahora la carrera de las tecnológicas por los datos que, para satisfacer las enormes cantidades de contenido que demandan sus modelos de inteligencia artificial para ser entrenados, han recurrido a cualquier tipo de medio.
Y, como para ellas, esos medios están justificados por la finalidad perseguida, el acceso a los contenidos se ha producido casi siempre mediante procedimientos que, desde el punto de vista legal o contractual, se sitúan en una zona entre el gris de lo dudoso y el rojo de la transgresión.
A estas prácticas, las editoriales y los autores han respondido principalmente mediante demandas judiciales o abriendo debates públicos sobre copyright y scraping, en un intento por crear una regulación aunque sea a golpe de sentencia y de socavar la reputación de las tecnológicas.
Sin embargo, algunos movimientos recientes sugieren que la relación entre las tecnológicas y los productores de contenido podría estar entrando en una nueva etapa.
Pero antes de entrar en más explicaciones, conviene entender bien las esferas de legalidad que han conducido a esta nueva etapa de consenso entre la empresas tecnológicas y la industria editorial.
Dos esferas jurídicas en el uso de libros para entrenar IA
El uso de libros como corpus de entrenamiento para sistemas de inteligencia artificial puede entenderse a partir de dos zonas jurídicas diferenciadas, cuya distinción es clave para el sector editorial.
La zona roja está en el acceso ilícito al contenido por parte de las tecnológicas, que obtienen los textos accediendo a bases de datos pirata o al scraping no autorizado.
La zona gris combina el acceso legal (compra) con un uso no licenciado.
Aquí los libros se compran legalmente y, posteriormente, son digitalizados y utilizados para entrenar modelos sin consentimiento de los titulares de derechos. Un ejemplo es la mencionada compra, escaneo y destrucción de libros.
El caso Bartz v. Anthropic, juzgado en EEUU, es interesante porque incluye ambas prácticas. Pero su relevancia está en trasladar el foco a la legitimidad del uso que se hace de los contenidos:
Según la sentencia que lo resolvió, mientras que el uso de contenidos de origen ilícito se considera punible por provenir de una adquisición ilegal, el uso de libros adquiridos legalmente para entrenar un sistema de inteligencia artificial «puede encajar» dentro del principio de fair use del derecho estadounidense. La razón está en considerar que el uso que se hace del contenido es «transformador» y que, por tanto, no vulnera el copyright.
Este razonamiento introduce una paradoja, digamos que «muy inquietante» para la industria editorial (se me ocurren palabras más gruesas, pero no es este el lugar adecuado):
La legalidad en el acceso al libro legitima la utilización que se hace de su contenido como entrenamiento de un modelo de inteligencia artificial, aunque no exista una licencia específica para ese uso.
Demoledor: Si la adquisición del contenido es legal, su uso también.
Obviamente, esta interpretación jurídica ha sido muy controvertida y sigue siendo objeto de debate en distintos litigios en curso. No obstante, ilustra bien la complejidad del marco legal actual y explica por qué muchas empresas tecnológicas han optado por comprar libros impresos y digitalizarlos antes que utilizar directamente copias digitales cuya procedencia pudiera ser cuestionada.
En Europa, sin embargo, este asunto se fronta de otra manera.
La Directiva de Copyright en el Mercado Único Digital (Directiva 2019/790/UE) establece una excepción específica para la minería de textos y datos (TDM, Text and Data Mining) con fines de investigación científica por la que reconoce a los titulares de derechos la facultad de reservarse expresamente ese uso mediante una declaración de opt-out. Para que lo entendamos: en el marco jurídico europeo, el silencio del titular no equivale a su consentimiento.
En el Reino Unido, fuera del marco europeo, el gobierno propuso una excepción amplia de copyright que habría permitido el uso de contenido protegido para entrenar IA sin licencia previa, dejando en manos de los titulares de los derechos la carga de excluirse activamente.La presión coordinada de autores e industrias creativas forzó este mismo marzo a una marcha atrás. Es un recordatorio de que ninguno de los marcos regulatorios actuales —ni el estadounidense, ni el europeo, ni el británico— ofrece todavía una solución consolidada.
Esta asimetría entre el sistema de fair use estadounidense y el régimen europeo de opt-out tiene implicaciones prácticas inmediatas para las editoriales que operan en España y en el mercado hispanohablante.
Por una parte, conviene revisar si los contratos de edición vigentes y posteriores a 2019 aceptan o excluyen los usos de minería de datos y de entrenamiento de IA (bastante improbable, pero no imposible).
Por la otra, si el contrato incluye la posibilidad de ejercer el opt-out de forma activa —publicando una declaración de reserva de derechos accesible en los metadatos del catálogo o en los propios archivos digitales— las editoriales europeas deberían activarlo.
Desde mi punto de vista, la relevancia de la mencionada zona gris jurídica está en que es el origen de un interés creciente por crear mercados regulados de licencias de contenido editorial para entrenamiento de IA.
El contenido editorial como dataset
Según un artículo publicado por Publishers Weekly, empresas tecnológicas como Microsoft y Amazon están explorando la creación de estos mercados de licencias de contenido en los que el uso de corpus editoriales para el entrenamiento de los LLM se consensua mediante acuerdos formales con los titulares de derechos.
En este nuevo escenario comercial, el uso del contenido se negocia mediante condiciones contractuales explícitas, que además introducen métricas de uso y crean modelos de pago vinculados al consumo real de datos.
En otras palabras, se pasa de una relación tecnológica con una base legal turbia a una posible relación estratégica con base económica y menor incertidumbre jurídica. En teoría, un win-win. En la práctica, un escenario no exento de tensiones en la fijación de precios, el control del uso y el reparto de valor entre tecnológicas, editoriales y autores.
Y es esta transición la que nos lleva al punto central de este artículo: La transformación conceptual por la que el contenido editorial empieza a ser tratado como un dataset.
En el contexto de la inteligencia artificial, un dataset es un conjunto estructurado de datos preparado para ser procesado por algoritmos. Para los LLM, la calidad del dataset es uno de los factores que más influye en el rendimiento final del modelo de aprendizaje.
Desde esta perspectiva, los textos provenientes de editoriales poseen unas características especialmente valiosas, sobre todo los contenidos de no ficción: están redactados con criterios profesionales, han pasado por unos procesos de edición y revisión que garantizan coherencia lingüística y se organizan (en muchos casos) en corpus temáticos especializados. Agua de mayo para cualquier Large Language Model (LLM).
Los mercados de licencias introducen una potencialidad nueva en la explotación económica del contenido editorial y, como consecuencia, el fondo editorial adquiere la naturaleza de un activo de datos cuyo valor reside en la calidad, la coherencia y la especialización del corpus textual que contiene.
Así pues, el catálogo amplio y bien estructurado de una editorial puede convertirse en un recurso valioso para empresas tecnológicas interesadas en entrenar modelos especializados y, por tanto, en un activo monetizable para las editoriales.
Hay que matizar que este mercado es incipiente, pero no parte de cero. Existen ya varios precedentes de acuerdos bilaterales directos, como se verá a continuación.
En este mercado incipiente coexisten tres modelos:
– El acuerdo bilateral directo:
Es el modelo predominante hasta el momento.
Previa negociación con una tecnológica, la editorial le entrega sus archivos digitales y recibe un pago único o recurrente. Existen ya varios precedentes:
La editorial académica Wiley cerró en 2024 un acuerdo valorado en 23 millones de dólares con una empresa tecnológica no identificada para ceder el acceso a su fondo de libros y revistas científicas con fines de entrenamiento.
Taylor & Francis, por su parte, formalizó un acuerdo con Microsoft por valor de 10 millones de dólares en el primer año y pagos recurrentes hasta 2027, por el acceso a sus contenidos académicos y profesionales.
Y HarperCollins anunció a finales de 2024 un programa de licencias de IA para títulos de no ficción de su fondo histórico, con una remuneración de 2.500 dólares por título y posibilidad de que los autores opten por participar o rechazar el acuerdo.
La limitación de los acuerdos bilaterales está en que solo los grandes grupos editoriales tienen masa crítica para negociar con fuerza con una tecnológica. No es una opción para la mayoría de las editoriales independientes, que no tienen fondos editoriales ni suficientemente grandes ni bien estructurados.
– El marketplace centralizado:
Se trata del modelo emergente más relevante.
Su ejemplo más desarrollado es el Publisher Content Marketplace (PCM) que Microsoft lanzó en febrero de 2026.
Funciona como una tienda de aplicaciones dedicada al contenido: La editorial expone su catálogo con sus condiciones y precio, la tecnológica selecciona y contrata lo que necesita, y el pago se vincula al uso real mediante sistemas de medición del consumo.
En el caso de PCM, la plataforma está abierta a editoriales de cualquier tamaño, aunque en la fase inicial los socios son exclusivamente medios de comunicación (Associated Press, Condé Nast, Vox Media) y ninguna editorial figura aún en el catálogo.
Es el modelo con mayor potencial de democratización, pero por ahora es una promesa con lista de espera.
– La licencia colectiva
Es un modelo que está aún en desarrollo. Se inspira en el modelo de gestión colectiva de derechos de autor, en el que una entidad negocia en nombre de múltiples titulares y distribuye los ingresos entre ellos.
Su principal obstáculo es técnico y se encuentra en el tracking. A diferencia de la música, donde es posible registrar qué canciones se reproducen y cuántas veces, el entrenamiento de modelos de IA no permite aún rastrear con precisión qué obras individuales han contribuido al modelo ni en qué medida, lo que hace muy difícil una distribución equitativa.
Es el modelo en teoría más justo, pero el más difícil de llevar a la práctica con éxito.
Las editoriales medianas deben estar preparadas para negociar
Para una editorial mediana, la ventana real está en el marketplace centralizado, si llega a abrirse al libro y al mercado hispanohablante. Mientras tanto, la tarea es prepararse para negociar.
Lo primero es la adecuación técnica del fondo editorial.
Un catálogo que no puede describirse con precisión no puede negociarse con fuerza. Eso implica, como mínimo:
- identificar corpus temáticos coherentes dentro del catálogo
- determinar qué partes de dichos tienen valor para los sistemas de inteligencia artificial
- evaluar la calidad de la digitalización de los textos
- revisar la estructura y la calidad de los metadatos
Sobre la calidad de los metadatos para la utilización del fondo como dataset hablaré en un futuro artículo, pero ya adelanto que puede marcar una diferencia significativa tanto en el valor del corpus como en la capacidad de trazabilidad del uso.
Una vez que la editorial disponga de un fondo listo para ser negociado en el mercado de licencias, ha de decidir cuál será el alcance del uso de dicho fondo.
No es lo mismo ceder contenido para el entrenamiento inicial de un modelo base que para su uso como fuente de consulta en tiempo real (lo que se conoce como grounding) o para la generación de textos derivados. Son usos distintos, con valores y restricciones distintos, que los contratos deben separar explícitamente.
Y ahí el margen de error ha de ser mínimo o ninguno, porque lo que se negocia mal al principio es muy difícil de renegociar después.
Esto nos lleva a la ampliación de las cláusulas de contratación con los autores, tanto para la determinación del uso de su contenido como para su retribución.
El contrato de edición tradicional no contempla los usos de entrenamiento de IA ni la mencionada posibilidad de opt-out, por lo que, actualmente, licenciar el contenido para ese fin requiere un nuevo acuerdo con el autor.
La asociación de autores estadounidense Authors Guild ha sentado las primeras bases para estos nuevos elementos contractuales. Aún no se ha pronunciado en cuanto al tipo de uso, lo que me lleva a deducir que deja ese tema a cada autor y su agente literario. Pero sí ha establecido dos principios retributivos:
- Los ingresos derivados no deberían restarse el anticipo, sino pagarse directamente al creador.
- La distribución de los ingresos debería ser del 75-85% para el autor, dependiendo del trabajo que haya asumido la editorial en la preparación del corpus.
La situación recuerda a la controversia sobre la retribución por el formato digital que enfrentó a agentes y editoriales en 2011. El guion se repite: aparición de un nuevo uso, nuevo valor económico emergente y la misma tensión sobre la distribución de porcentajes. Pese a las recomendaciones de la Authors Guild, algunas editoriales académicas están ofreciendo un 25% a los autores.
Y a medida que el contenido editorial adquiere valor económico como dataset, la cuestión sobre quién captura ese valor va a adquirir mayor relevancia. El uso del contenido para entrenamiento de IA introduce una forma de explotación cuyos límites contractuales y económicos aún no están definidos y tampoco tienen todavía eslabones forjados en la cadena de valor del libro. Si sus condiciones no se articulan con claridad, es previsible que emerjan fricciones similares, o incluso más intensas, que las que acompañaron la transición al libro digital.
Hay una decisión más que las editoriales deberán tomar, si cabe más importante que las anteriores, porque se refiere a su posicionamiento estratégico ante esta nueva forma de monetizar el fondo. ¿Limitar su papel a autorizar usos puntuales del contenido? o ¿abordar la estructuración y licencia de su catálogo como una forma recurrente de negocio, con criterios, condiciones y modelos de remuneración propios en un mercado que aún no ha fijado sus reglas?
En mi opinión, esta reflexión debería abordarse por todo el sector de forma conjunta, a través de los gremios y asociaciones, para llegar a conceptos marco que luego puedan ser aplicados por cada editorial en función de sus circunstancias.
Un jarrito de agua fría: ni los catálogos editoriales son tan importantes ni todo el contenido interesa a la IA
Conviene dimensionar correctamente la importancia de los libros en este ecosistema de datos, porque el modelo de marketplace centralizado no será la panacea que aparenta.
Thad McIlroy, analista especializado en tecnología editorial, ha calculado que los libros representan menos del 0,01% de toda la información almacenada en el mundo.
En la práctica, los grandes modelos de lenguaje se entrenan principalmente con contenido procedente de la web abierta —rastreado a través de fuentes como Common Crawl—, de Wikipedia y de bases de datos especializadas. Los libros constituyen una fracción pequeña del volumen total, aunque su valor relativo en términos de calidad lingüística y densidad de conocimiento supera con creces ese porcentaje.
Precisamente ahí reside la lógica económica emergente: en un entorno saturado de datos, el valor no lo determina el volumen, sino la calidad y la coherencia del corpus.
La relevancia de los libros como corpus de calidad queda bien ilustrada por el propio comportamiento de las tecnológicas: Meta, pese a haber explorado inicialmente la posibilidad de licenciar libros de editoriales, acabó recurriendo a fuentes pirata —Library Genesis, Z-Library y Anna’s Archive— para obtener millones de libros con los que entrenar sus modelos LLaMA (Large Language Model Meta AI), según los documentos del caso Kadrey v. Meta. Ese riesgo jurídico deliberado revela que el valor no reside en cada título individual, sino en la calidad agregada de conjuntos amplios y temáticamente coherentes.
Estos movimientos, aunque aún incipientes en el segmento del libro, contrastan con la actividad mucho más intensa registrada en el ámbito de la prensa y los medios digitales. La oleada de acuerdos arrancó en julio de 2023 con un primer pacto entre Associated Press y OpenAI, y desde entonces compañías como la citada OpenAI, Microsoft, Meta y Google han suscrito decenas de acuerdos de licencia con grupos como Financial Times, News Corp, Axel Springer, Condé Nast, Le Monde o Prisa Media, entre otros. El mercado de licencias de contenido para IA está madurando con más rapidez en el sector de medios de comunicación que en el editorial, pero la trayectoria apunta en la misma dirección.
El interés de las empresas tecnológicas se concentra de forma muy marcada en los fondos de no ficción.
Los acuerdos formalizados hasta la fecha con editoriales de libro —Wiley, Taylor & Francis, HarperCollins— cubren exclusivamente catálogos de no ficción: obras académicas, divulgación científica, manuales técnicos, ensayo especializado. Desde la perspectiva del entrenamiento de modelos de lenguaje, este tipo de contenido ofrece una densidad informativa, una precisión terminológica y una coherencia argumental que lo convierte en un corpus especialmente valioso para mejorar el rendimiento de los LLM (Large Language Models) en dominios específicos del conocimiento.
La ficción, en cambio, presenta una dinámica distinta: su valor para el entrenamiento reside más en la sofisticación lingüística y la diversidad estilística que en la transmisión de conocimiento factual, lo que la hace teóricamente valiosa pero jurídicamente más frágil a la hora de negociar acuerdos, dado que los derechos morales de los autores y la singularidad de la voz literaria generan mayores resistencias. Esto significa que, en la práctica, las oportunidades más inmediatas para la industria editorial se concentrarán en aquellos fondos con catálogos temáticos de no ficción bien estructurados y con una digitalización de calidad.
¿Hasta qué punto conocen realmente las editoriales el valor de su propio fondo?
Estas cuestiones abren un campo de análisis que merece un tratamiento específico. En un artículo complementario abordaré con más detalle qué acciones concretas pueden emprender las editoriales ante este mercado emergente.
En ese análisis, como ya indiqué más arriba, los metadatos ocuparán un papel central, no solo como herramienta técnica de gestión del catálogo, sino como infraestructura estratégica para identificar, estructurar y valorar los corpus textuales que pueden convertirse en datasets.
Conclusión
La inteligencia artificial está ampliando el valor económico de los contenidos editoriales.
Durante años, la relación entre las tecnológicas y el sector editorial se ha definido en los juzgados, pero esta dinámica está virando hacia una política de acuerdos que abren camino a nuevos mercados de licencias .
La cuestión no es solo cómo proteger los derechos existentes, sino cómo participar en la creación de nuevas fuentes de valor. En ese nuevo escenario, las editoriales no pueden desempeñar un papel pasivo ni esperar a activarse cuando el marco esté mejor definido.
El marco ha de crearlo la industria dle libro, no Silicon Valley. Y para ello los debates locales e internacionales dentro de asociaciones y gremios tienen que empezar ya.




