Amazon Web Services (AWS) está investigando a la startup de búsqueda de inteligencia artificial Perplexity AI por supuestamente violar los términos de servicio de AWS al extraer el contenido del sitio web en un intento de evitar que lo haga. Perplexity AI está valorada en 3 mil millones de dólares y cuenta con el respaldo de la Jeff Bezos Family Foundation y Nvidia. La investigación ha provocado una preocupación generalizada sobre la forma en que las empresas de inteligencia artificial obtienen datos, lo que incluye disputas sobre acuerdos de exclusión de robots, cuestiones de derechos de autor y el papel de terceros proveedores de servicios. El desarrollo posterior del incidente tendrá un profundo impacto en las regulaciones y la ética de adquisición de datos de la industria de la inteligencia artificial.
Amazon Web Services (AWS) está investigando a la startup de búsqueda de inteligencia artificial Perplexity AI por supuestamente violar los términos de servicio de AWS al extraer contenido de sitios web que intentaron evitar que lo hiciera, informa Wired.
Perplexity AI, una startup respaldada por la fundación familiar de Jeff Bezos y Nvidia, fue valorada recientemente en 3 mil millones de dólares. Wired descubrió que la empresa parece depender de la extracción de contenido de sitios web que están bloqueados mediante el acuerdo de exclusión de Robots. El Protocolo de exclusión de robots es un estándar web que indica a qué páginas no deben acceder robots y rastreadores automatizados. Si bien el acuerdo no es jurídicamente vinculante, la mayoría de las empresas tradicionalmente lo han respetado.

Un portavoz de AWS dijo que los términos de servicio de la compañía prohíben a los clientes utilizar sus servicios para realizar actividades ilegales, y que los clientes son responsables de cumplir con los términos y todas las leyes aplicables. Los clientes de AWS deben cumplir con el estándar robots.txt al rastrear sitios web.
La investigación encontró que Perplexity tuvo acceso a un servidor utilizando una dirección IP no revelada que accedió a propiedades propiedad de Condé Nast al menos cientos de veces durante los últimos tres meses, aparentemente para eliminar contenido prohibido. Portavoces de The Guardian, Forbes y The New York Times también dijeron que se habían detectado casos similares.
El director ejecutivo de Perplexity, Aravind Srinivas, dijo que el raspado descubierto fue realizado por una empresa externa que proporciona servicios de indexación y raspado web, pero se negó a nombrar la empresa. La portavoz de Perplexity, Sara Platnick, dijo que la compañía respondió a la consulta de Amazon y dijo que su PerplexityBot respeta el archivo robots.txt pero ignora el protocolo cuando los usuarios ingresan una URL específica.
Jason Kint, director ejecutivo de Digital Content Next, la asociación comercial de la industria de contenidos digitales, cree que si las acusaciones contra Perplexity son ciertas, la empresa ha violado una serie de principios para evitar posibles infracciones de derechos de autor. Hizo hincapié en que, por defecto, las empresas de inteligencia artificial no deberían acceder ni utilizar el contenido de los editores sin permiso.
Actualmente, este incidente ha provocado una atención y un debate generalizados sobre la forma en que las empresas de IA obtienen datos. La industria espera con ansias la publicación de los resultados de la investigación de AWS y posibles acciones adicionales contra Perplexity.
El incidente de Perplexity AI destaca los desafíos y dilemas éticos que enfrentan las empresas de inteligencia artificial en la adquisición de datos. También advierte a la industria de la IA que necesita establecer especificaciones de datos y mecanismos de gestión más completos para garantizar y promover la legalidad y el cumplimiento de la adquisición de datos. Inteligencia artificial. Desarrollo saludable de la tecnología.