La IA se entrena con grandes clásicos de la literatura para parecer más humana
Editoriales llegan a acuerdos con empresas de tecnología para entrenar con sus libros las herramientas de inteligencia artificial generativa
Las nuevas tecnologías de inteligencia artificial se desarrollan a un ritmo vertiginoso con el objetivo de imitar cada vez mejor la inteligencia humana y crear la virtualidad de que es, efectivamente, inteligencia.
Porque, se ha repetido hasta la saciedad, la inteligencia artificial no es realmente inteligencia, sino el resultado de una serie de algoritmos y programaciones de software ideadas y desarrolladas por ingenieros tan humanos como el más común de los mortales.
Con todo, las compañías tecnológicas se afanan en que sus inteligencias artificiales parezcan cada vez más reales y creíbles.
Para lograrlo, se han alcanzado acuerdos con editoriales para que las inteligencias artificiales adquieran nuevos conocimientos y recursos a partir de grandes clásicos de la literatura universal y también de ensayos y libros científicos y académicos.
La medida requiere de un beneficioso acuerdo con las editoriales que, informa AFP, ven así cómo se amplia el negocio de los derechos de autor gracias a los contratos con empresas tecnológicas que permiten que sus libros alimenten las necesidades cada vez más grandes de la inteligencia artificial generativa.
La gran editorial estadounidense HarperCollins acaba de proponer a algunos de sus autores un contrato con una sociedad de inteligencia artificial para que esta pueda usar sus libros para entrenar su modelo de IA generativa.
En un correo consultado por la AFP, la empresa tecnológica, cuya identidad es confidencial, propone 2.500 dólares por cada libro seleccionado para entrenar su modelo de lenguaje durante un periodo de tres años.
Para poder producir todo tipo de contenidos, esta tecnología necesita alimentarse continuamente de una gran cantidad de datos.
Contactada por la AFP, la editorial confirmó la operación. «HarperCollins cerró un acuerdo con una sociedad de tecnología de inteligencia artificial para autorizar el uso limitado de ciertos títulos (...) para entrenar modelos de IA, con tal de mejorar su calidad y su rendimiento», escribió.
La editorial precisó que el acuerdo «limita claramente la producción de modelos respetuosos con los derechos de autor».
La oferta generó opiniones discrepantes en el sector y escritores como el estadounidense Daniel Kibblesmith la rechazaron tajantemente.
«Lo haría probablemente por mil millones de dólares. Lo haría por una suma de dinero que no me exigiera trabajar más, porque este es el objetivo final de esta tecnología», publicó en la red social Bluesky.
Nuevos materiales
HarperCollins es uno de los mayores actores del sector en dar este paso, pero no el primero.
La editorial estadounidense de libros científicos Wiley dio acceso «al contenido de libros académicos y profesionales publicados para un uso específico en la formación de estos modelos por 23 millones de dólares a una gran empresa tecnológica», indicó la compañía en marzo durante la presentación de sus resultados financieros.
Este tipo de colaboración pone de manifiesto los problemas vinculados al desarrollo de la inteligencia artificial generativa, entrenada con enormes cantidades de datos recogidos en internet, lo que puede resultar en posibles violaciones de los derechos de autor.
Para Giada Pistilli, responsable de ética en Hugging Face, una plataforma de IA franco-estadounidense de acceso libre, el anuncio es un paso adelante, porque el contenido de los libros pasa a monetizarse. Pero lamenta un margen de negociación limitado para los autores.
«Lo que vamos a ver, es un mecanismo de acuerdos bilaterales entre empresas de nuevas tecnologías y editores o propietarios de los derechos de autor, cuando en mi opinión haría falta un diálogo más amplio para incluir todas las partes concernidas», opina.
«Venimos de muy lejos», comenta de su lado Julien Chouraqui, director jurídico del sindicato francés de la edición SNE. «Es un progreso: el hecho de que haya un acuerdo significa que ha habido un diálogo y una voluntad de alcanzar un equilibrio en el uso de datos fuentes que están bajo derechos de autor y que van a generar valor», afirma.
Los editores de prensa también están organizándose ante este problema. A finales de 2023, el diario estadounidense The New York Times se querelló contra OpenAI, creador del programa ChatGPT, y Microsoft, su principal inversor, por violación de los derechos de autor.
Otros medios han optado por cerrar acuerdos con esta empresa pionera en la IA. Las firmas tecnológicas se pueden estar quedando sin otra opción que rascarse el bolsillo para mejorar sus productos puesto que están agotando sus bases de datos y materiales para entrenar sus modelos.
La prensa estadounidense ha publicado recientemente que los nuevos modelos en desarrollo dan señales de haber alcanzado su límite, especialmente en Google, Anthropic y OpenAI.
«En la red, recoges material lícito e ilícito y muchos contenidos pirateados. Esto implica un problema jurídico. Sin olvidar el problema de la calidad de los datos», apunta Julien Chouraqui, del SNE.
«Si se pretende el desarrollo de un mercado sobre una base virtuosa, hay que implicar a todos los actores».