Téléchargement de scaleeval - Téléchargement du code source scaleeval

scaleeval

Autre code source

1.0.0

Télécharger

Scaleeval: méta-évaluation évolutive des LLMS en tant qu'évaluateurs via un débat pour agent

Ce référentiel contient le code source et le lien vers notre article.

ScaleeVal est un cadre de méta-évaluation assisté par un agent qui exploite les capacités de plusieurs agents LLM communicatifs. Ce cadre prend en charge les discussions multi-rondes pour aider les humains à discerner les évaluateurs les plus compétents basés sur LLM. Les utilisateurs peuvent fournir leurs soumissions, critères et scénarios LLM avec notre cadre pour mener une méta-évaluation.

Scaleeval Framework

Commencer

pip install scaleeval
export OPENAI_API_KEY=XXXX.YYYY.ZZZ
export ANTHROPIC_API_KEY=XXXX.YYYY.ZZZ

Python 3.9+ est requis.

Pour les développeurs

Installer en tant que développeur

git clone [email protected]:GAIR-NLP/scaleeval.git
cd scaleeval
pip install -e .

# install pre-commit hooks
pip install pre-commit
pre-commit install

Formation de course

 # this is necessary before you commit
git init
git add .
pre-commit run

Exécuter la méta-évaluation

 cd scaleeval
python evaluation.py

Échantillon de critères

criteria/metaeval_creativity : notation de 1 à 5 pour chaque soumission LLM en fonction des critères de créativité, et décidez quelle soumission est la meilleure.
criteria/metaeval_helpfulness : notation de 1 à 5 pour chaque soumission LLM en fonction des critères de l'utilité, et décidez quelle soumission est la meilleure.
criteria/metaeval_interpretability : notation de 1 à 5 pour chaque soumission LLM en fonction de l'interprétabilité, et décidez quelle soumission est la meilleure.
criteria/metaeval_reasoning : score de 1 à 5 pour chaque soumission LLM en fonction des critères de raisonnement, et décidez quelle soumission est la meilleure.

Exemples d'invites et de soumissions de questions LLM

scaleeval/responses/gpt3.5/brainstorming.jsonl : réponses générées à partir de gpt3.5-turbo sur la base des invites du scénario de brainstorming.
scaleeval/responses/claude-instant/brainstorming.jsonl : réponses générées à partir d'instants claude sur la base des invites du scénario de brainstorming.

Fournissez vos propres critères et scénario!

 cd criteria

Ajoutez vos propres descriptions de critères à un nouveau fichier .yaml! Suivez le format ci-dessous:

 criteria :
    [ your defined criteria ]:
        "1" : ...
        "2" : ...
        "3" : ...
        "4" : ...
        "5" : ...

Fournissez vos propres soumissions LLM!

Collectez vos soumissions LLM et enregistrez-les dans un fichier .jsonl avec le format suivant:

{ "prompt" : ..., "category" : ..., "response" : ...}

Voici un exemple:

{ "prompt" : "Can you tell me how to make chocolate chip cookies?" , "category" : "brainstorming" , "response" : "Certainly! Here's a simple recipe for making chocolate chip cookies: n n Ingredients: n - 1 cup (2 sticks) unsalted butter, softened n - 1 cup granulated sugar n - 1 cup packed brown sugar n - 2 large eggs n - 1 teaspoon vanilla extract n - 3 cups all-purpose flour n - 1 teaspoon baking soda n - 1/2 teaspoon salt n - 2 cups chocolate chips n n Instructions: n 1. Preheat your oven to 350 u00b0 F (175 u00b0 C) and line a baking sheet with parchment paper. n 2. In a large mixing bowl, cream together the softened butter, granulated sugar, and brown sugar until well combined and creamy. n 3. Add the eggs one at a time, beating well after each addition. Then, stir in the vanilla extract. n 4. In a separate bowl, whisk together the flour, baking soda, and salt. Gradually add this dry mixture to the wet ingredients, mixing until just combined. n 5. Fold in the chocolate chips until evenly distributed throughout the dough. n 6. Using a cookie scoop or tablespoon, drop rounded portions of dough onto the prepared baking sheet, spacing them about 2 inches apart. n 7. Bake in the preheated oven for 10-12 minutes, or until the edges are golden brown. The centers may still appear slightly soft, but they will firm up as they cool. n 8. Remove the baking sheet from the oven and let the cookies cool on the sheet for a few minutes before transferring them to a wire rack to cool completely. n 9. Repeat the process with the remaining dough until all the cookies are baked. n n Enjoy your homemade chocolate chip cookies!" }

Citation

Veuillez envisager de citer notre article si vous trouvez notre dépôt et nos résultats utiles!

 @article{chern2024scaleeval,
  title={Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate},
  author={Chern, Steffi and Chern, Ethan and Neubig, Graham and Liu, Pengfei},
  journal={arXiv preprint arXiv:2401.16788},
  year={2024}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-08
taille 5.4MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout