La bibliothèque TypeScript LLM Evaluations
Evalkit est une bibliothèque open source conçue pour les développeurs de typeScript afin d'évaluer et d'améliorer les performances des modèles de grande langue (LLM) en toute confiance. Assurez-vous que vos modèles d'IA sont fiables, précis et dignes de confiance.
Cliquez ici pour accéder à la documentation officielle d'Evalkit
Dans la documentation, vous pouvez trouver des informations sur la façon d'utiliser l'évaluation, son architecture, y compris les tutoriels et les recettes pour divers cas d'utilisation et les fournisseurs LLM.
| Fonctionnalité | Disponibilité | Docs |
|---|---|---|
| Métrique de détection des biais | ✅ | ? |
| Métrique de cohérence | ✅ | ? |
| Métrique dynamique (G-Eval) | ✅ | ? |
| Métrique de la fidélité | ✅ | ? |
| Métrique d'hallucination | ✅ | ? |
| Métrique de détection d'intention | ✅ | ? |
| Métrique de similitude sémantique | ✅ | ? |
| Métrique de similitude sémantique | ✅ | ? |
| Déclaration | ? | ? |
Vous cherchez une métrique / fonctionnalité qui n'est pas répertoriée ici? Ouvrez un problème et faites-le nous savoir!
Evalkit exporte actuellement un package de base qui inclut toutes les fonctionnalités liées à l'évaluation. Installez le package en exécutant la commande suivante:
npm install --save-dev @evalkit/coreNous accueillons les contributions de la communauté! N'hésitez pas à soumettre des demandes de traction ou à créer des problèmes pour les bogues ou les suggestions de fonctionnalités.
Le code source de ce référentiel est disponible sous la licence Apache 2.0.