Meta ha sido atrapado en una muy esperada demanda de infracción de derechos de autor, y el demandante acusó a su CEO Mark Zuckerberg de aprobar personalmente el uso de libros electrónicos pirateados y conjuntos de datos de artículos para capacitar a su modelo de IA LLAMA. Este caso no solo empujó a Meta a la vanguardia, sino que también atrajo la atención generalizada de la industria sobre el uso de derechos de autor de los gigantes tecnológicos en la capacitación del modelo de IA. Vale la pena señalar que esta es una de las muchas demandas por derechos de autor contra múltiples compañías tecnológicas que han sido acusadas de capacitar a los modelos de IA utilizando trabajos con derechos de autor sin autorización.
Según las últimas presentaciones presentadas al Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, el demandante citó el testimonio de Meta a fines del año pasado, que mencionó explícitamente que Zuckerberg aprobó el uso de un conjunto de datos llamado Libgen para capacitar al modelo LLAMA. Como "agregador de enlaces", LibGen proporciona una gran cantidad de publicaciones académicas con derechos de autor. Aunque el sitio web ha sido demandado y cerrado por infracción de derechos de autor, continúa proporcionando obras de los principales editores como Cengage Learning y McGraw Hill, que facilita la infracción de Meta.

El documento reveló además que los meta empleados internos reconocieron a Libgen como un "conjunto de datos pirateados conocido" y se dio cuenta de que su uso podría afectar negativamente la posición negociada de la compañía con los reguladores. Lo que es aún más impactante es que Meta Engineer Nikolay Bashlykov fue acusado de escribir scripts específicamente para eliminar la información de derechos de autor en los libros electrónicos de Libgen, incluidas palabras como "copyright" y "reconocimiento". Además, Meta ha sido acusado de eliminar las etiquetas de derechos de autor y los metadatos de origen de los artículos de la revista científica, ambos destinados a encubrir su infracción.
La acusación más controvertida en el caso fue que Meta descargó el contenido de LibGen a través de torrenting y ayudó a difundir estos documentos pirateados con derechos de autor. Torrenting es un método de distribución de archivos de red, y los descargadores también comparten contenido al cargar archivos. Los abogados del demandante señalaron que Meta realmente llevó a cabo otra forma de infracción de derechos de autor a través de su participación en la torrente. Aunque los meta ingenieros ofrecieron reservas sobre esto, creyendo que este comportamiento era ilegal, Meta continuó llevando a cabo el comportamiento con el apoyo de Ahmad al-Dahle, el jefe de IA del generador.
Las acusaciones coinciden con un informe del New York Times en abril pasado que sugirió que Meta había cortado las esquinas al recopilar datos de IA. Según los informes, Meta contrató a contratistas africanos para resumir el resumen del libro y consideró la adquisición del editor Simon Schuster. Sin embargo, los meta ejecutivos creen que la negociación de las licencias de derechos de autor lleva demasiado tiempo y el principio de uso razonable se ha convertido en su principal defensa, una actitud que ha provocado dudas sobre la ética empresarial de las empresas tecnológicas.
En la actualidad, el juicio del caso aún no se ha concluido, y solo el modelo de llamas temprano de Meta está involucrado. Aunque el tribunal desestimó varias demandas por derechos de autor relacionadas con la IA en 2023, creyendo que el demandante no probó la infracción, las acusaciones en este caso aún pueden tener un impacto significativo en el meta. En una orden del miércoles, el juez presidente Vince Chabria señaló que rechazó la solicitud de Meta de eliminar la mayoría de los archivos, diciendo que la eliminación de estos archivos claramente tenía la intención de evitar la publicidad negativa en lugar de proteger la información comercial confidencial. golpe a meta.
El caso no solo plantea un desafío serio para Meta, sino que también desencadena amplias discusiones sobre cómo las empresas de tecnología pueden usar trabajos con derechos de autor para capacitar a los modelos de IA. Especialmente en el tema del límite entre el uso razonable y la protección de los derechos de autor, este caso puede convertirse en una referencia importante para casos similares en el futuro. Con el rápido desarrollo de la tecnología de IA, cómo encontrar un equilibrio entre la innovación y la protección de los derechos de autor se convertirá en un problema importante que enfrenta las empresas de tecnología y la comunidad legal.