scaleeval
1.0.0
يحتوي هذا المستودع على رمز المصدر وربط ورقتنا.
Scaleeval هو إطار التقييم التلوي بمساعدة الوكيل الذي يدعو إلى الاستفادة من قدرات عوامل LLM التواصلية المتعددة. يدعم هذا الإطار مناقشات متعددة الجولات لمساعدة البشر في تمييز المقيمين الأكثر قدرة على LLM. يمكن للمستخدمين تقديم عروضهم الخاصة بـ LLM ، ومعاييرهم ، والسيناريوهات مع إطار عملنا لإجراء التقييم التلوي.

pip install scaleeval
export OPENAI_API_KEY=XXXX.YYYY.ZZZ
export ANTHROPIC_API_KEY=XXXX.YYYY.ZZZPython 3.9+ مطلوب.
git clone [email protected]:GAIR-NLP/scaleeval.git
cd scaleeval
pip install -e .
# install pre-commit hooks
pip install pre-commit
pre-commit install # this is necessary before you commit
git init
git add .
pre-commit run cd scaleeval
python evaluation.pycriteria/metaeval_creativity : تسجيل 1 إلى 5 لكل تقديم LLM بناءً على معايير الإبداع ، وقرر التقديم الأفضل.criteria/metaeval_helpfulness : تسجيل من 1 إلى 5 لكل تقديم LLM بناءً على معايير المساعدة ، وتحديد التقديم الأفضل.criteria/metaeval_interpretability : تسجيل من 1 إلى 5 لكل تقديم LLM استنادًا إلى التفسير ، وتحديد التقديم الأفضل.criteria/metaeval_reasoning : تسجيل 1 إلى 5 لكل تقديم LLM بناءً على معايير التفكير ، وقرر التقديم الأفضل.scaleeval/responses/gpt3.5/brainstorming.jsonl : الاستجابات التي تم إنشاؤها من GPT3.5-Turbo استنادًا إلى المطالبات في سيناريو العصف الذهني.scaleeval/responses/claude-instant/brainstorming.jsonl . cd criteriaأضف أوصاف المعايير الخاصة بك إلى ملف. yaml جديد! اتبع التنسيق أدناه:
criteria :
[ your defined criteria ]:
"1" : ...
"2" : ...
"3" : ...
"4" : ...
"5" : ...اجمع عمليات إرسال LLM الخاصة بك وحفظها في ملف .jsonl بالتنسيق التالي:
{ "prompt" : ..., "category" : ..., "response" : ...}هنا مثال واحد:
{ "prompt" : "Can you tell me how to make chocolate chip cookies?" , "category" : "brainstorming" , "response" : "Certainly! Here's a simple recipe for making chocolate chip cookies: n n Ingredients: n - 1 cup (2 sticks) unsalted butter, softened n - 1 cup granulated sugar n - 1 cup packed brown sugar n - 2 large eggs n - 1 teaspoon vanilla extract n - 3 cups all-purpose flour n - 1 teaspoon baking soda n - 1/2 teaspoon salt n - 2 cups chocolate chips n n Instructions: n 1. Preheat your oven to 350 u00b0 F (175 u00b0 C) and line a baking sheet with parchment paper. n 2. In a large mixing bowl, cream together the softened butter, granulated sugar, and brown sugar until well combined and creamy. n 3. Add the eggs one at a time, beating well after each addition. Then, stir in the vanilla extract. n 4. In a separate bowl, whisk together the flour, baking soda, and salt. Gradually add this dry mixture to the wet ingredients, mixing until just combined. n 5. Fold in the chocolate chips until evenly distributed throughout the dough. n 6. Using a cookie scoop or tablespoon, drop rounded portions of dough onto the prepared baking sheet, spacing them about 2 inches apart. n 7. Bake in the preheated oven for 10-12 minutes, or until the edges are golden brown. The centers may still appear slightly soft, but they will firm up as they cool. n 8. Remove the baking sheet from the oven and let the cookies cool on the sheet for a few minutes before transferring them to a wire rack to cool completely. n 9. Repeat the process with the remaining dough until all the cookies are baked. n n Enjoy your homemade chocolate chip cookies!" }يرجى التفكير في ذكر ورقتنا إذا وجدت إعادة الريبو والنتائج المفيدة!
@article{chern2024scaleeval,
title={Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate},
author={Chern, Steffi and Chern, Ethan and Neubig, Graham and Liu, Pengfei},
journal={arXiv preprint arXiv:2401.16788},
year={2024}
}