Anthropic Corporation a récemment annoncé un plan ambitieux visant à financer le développement de nouveaux critères d'évaluation des performances et de l'impact des modèles d'intelligence artificielle, marquant une étape importante dans le domaine de l'évaluation de la sécurité de l'intelligence artificielle. Le programme fournira un financement à des organisations tierces pour développer des outils capables de mesurer efficacement les capacités avancées des modèles d’intelligence artificielle, en particulier les capacités des modèles d’IA générative. Cette décision améliorera non seulement le niveau global du domaine de la sécurité de l'intelligence artificielle, mais fournira également des outils d'évaluation précieux pour l'ensemble de l'écosystème et résoudra le manque actuel d'outils d'évaluation de haute qualité liés à la sécurité. L’initiative d’Anthropic est remarquable, mais elle a également suscité des discussions sur son équité et son orientation.
Anthropic a annoncé lundi le lancement d'une nouvelle initiative visant à financer le développement de nouveaux benchmarks capables d'évaluer les performances et l'impact des modèles d'intelligence artificielle, y compris des modèles génératifs comme le sien Claude.
Selon les informations publiées sur le blog officiel d’Anthropic, la société fournira un soutien financier à des organisations tierces pour développer des outils qui « mesurent efficacement les capacités avancées des modèles d’intelligence artificielle ». Les organisations intéressées peuvent soumettre une candidature et l’évaluation se fera sur une base continue.

Anthropic a déclaré que l'investissement visait à améliorer le domaine global de la sécurité de l'intelligence artificielle et à fournir des outils précieux pour l'ensemble de l'écosystème. L'entreprise estime que l'élaboration d'évaluations de haute qualité liées à la sécurité reste un défi et que la demande dépasse l'offre.
En mettant l’accent sur la sécurité de l’IA et l’impact social, le programme prévoit de créer des références stimulantes grâce à de nouveaux outils, infrastructures et méthodologies. Anthropic a spécifiquement demandé des tests pour évaluer les capacités du modèle dans des domaines tels que les cyberattaques, les modifications d'armes, la manipulation ou la tromperie. En outre, l'entreprise travaille au développement d'un « système d'alerte précoce » permettant d'identifier et d'évaluer les risques liés à la sécurité nationale et à l'intelligence artificielle liés à la défense.
Anthropic a également déclaré que le nouveau programme soutiendrait la recherche explorant le potentiel de l'intelligence artificielle pour faciliter la recherche scientifique, communiquer dans plusieurs langues, atténuer les préjugés et l'autocensure. Pour atteindre ces objectifs, l’entreprise envisage de construire de nouvelles plateformes qui permettront aux experts de développer des évaluations et de mener des essais à grande échelle.
Si la décision d'Anthropic a été saluée, elle a également soulevé certaines questions. Certains estiment que compte tenu des intérêts commerciaux de l'entreprise, l'équité des projets financés pourrait en être affectée. En outre, certains experts ont exprimé leur scepticisme quant à certains des risques « catastrophiques » et « trompeurs » de l’IA cités par Anthropic, arguant que cela pourrait détourner l’attention des questions les plus urgentes de la réglementation actuelle de l’IA.
Anthropic espère que cette initiative contribuera à faire des évaluations complètes de l’IA la norme de l’industrie. Cependant, il reste à voir si les groupes indépendants de développement de références en matière d’IA seront disposés à travailler avec des fournisseurs commerciaux d’IA.
Il faudra du temps pour vérifier si la décision d'Anthropic peut réussir à promouvoir le développement du domaine de l'évaluation de la sécurité de l'intelligence artificielle et à promouvoir l'établissement de normes d'évaluation plus équitables et plus complètes. L’impact à long terme et les limites potentielles de ses plans nécessitent encore une attention et une évaluation continues.