Anthropic Corporation anunció recientemente un ambicioso plan para financiar el desarrollo de nuevos puntos de referencia para evaluar el rendimiento y el impacto de los modelos de inteligencia artificial, lo que marca un paso importante en el campo de la evaluación de la seguridad de la inteligencia artificial. El programa proporcionará financiación a organizaciones de terceros para desarrollar herramientas que puedan medir eficazmente las capacidades avanzadas de los modelos de inteligencia artificial, especialmente las capacidades de los modelos de IA generativa. Esta medida no solo mejorará el nivel general del campo de la seguridad de la inteligencia artificial, sino que también proporcionará valiosas herramientas de evaluación para todo el ecosistema y resolverá la actual falta de herramientas de evaluación de alta calidad relacionadas con la seguridad. La iniciativa de Anthropic es digna de mención, pero también ha provocado cierta discusión sobre su equidad y enfoque.
Anthropic anunció el lunes el lanzamiento de una nueva iniciativa para financiar el desarrollo de nuevos puntos de referencia que puedan evaluar el rendimiento y el impacto de los modelos de inteligencia artificial, incluidos los modelos generativos como el propio Claude.
Según información publicada en el blog oficial de Anthropic, la empresa brindará apoyo financiero a organizaciones de terceros para desarrollar herramientas que “midan efectivamente las capacidades avanzadas de los modelos de inteligencia artificial”. Las organizaciones interesadas pueden enviar una solicitud y la evaluación se realizará de forma continua.

Anthropic dijo que la inversión tiene como objetivo mejorar el campo general de la seguridad de la inteligencia artificial y proporcionar herramientas valiosas para todo el ecosistema. La empresa cree que desarrollar evaluaciones de alta calidad relacionadas con la seguridad sigue siendo un desafío y que la demanda supera la oferta.
Centrándose en la seguridad de la IA y el impacto social, el programa planea crear puntos de referencia desafiantes a través de nuevas herramientas, infraestructura y metodologías. Anthropic solicitó específicamente pruebas para evaluar las capacidades del modelo en áreas como ciberataques, modificaciones de armas, manipulación o engaño. Además, la empresa está trabajando en el desarrollo de un "sistema de alerta temprana" para identificar y evaluar los riesgos de inteligencia artificial relacionados con la seguridad nacional y la defensa.
Anthropic también dijo que el nuevo programa apoyará la investigación que explore el potencial de la inteligencia artificial para ayudar a la investigación científica, comunicarse en varios idiomas, mitigar los prejuicios y la autocensura. Para lograr estos objetivos, la empresa prevé construir nuevas plataformas que permitan a los expertos desarrollar evaluaciones y realizar ensayos a gran escala.
Si bien la medida de Anthropic fue elogiada, también planteó algunas preguntas. Algunas personas creen que, teniendo en cuenta los intereses comerciales de la empresa, la equidad de los proyectos que financia puede verse afectada. Además, algunos expertos han expresado escepticismo sobre algunos de los riesgos "catastróficos" y "engañosos" de la IA citados por Anthropic, argumentando que esto podría distraer la atención de las cuestiones más apremiantes de la regulación actual de la IA.
Anthropic espera que esta iniciativa ayude a que las evaluaciones integrales de IA sean el estándar de la industria. Sin embargo, queda por ver si los grupos independientes de desarrollo de referencias de IA estarán dispuestos a trabajar con proveedores comerciales de IA.
Tomará tiempo probar si la medida de Anthropic puede promover con éxito el desarrollo del campo de la evaluación de la seguridad de la inteligencia artificial y promover el establecimiento de estándares de evaluación más justos y completos. El impacto a largo plazo y las posibles limitaciones de sus planes aún requieren atención y evaluación continuas.