قمنا بتقييم واجهة برمجة تطبيقات Ntropy ومجموعة من LLMs في مهمة استخراج الحقول التالية: التسمية ، التاجر والموقع.
تتم مقارنة واجهة برمجة تطبيقات Ntropy مع:
يمكن العثور على مجموعة البيانات المستخدمة هنا: /datasets/100_labeled_consumer_transactions.csv . يمكن العثور على جميع التنبؤات هنا: /datasets/benchmark_predictions.csv . وهو يتألف من مجموعة فرعية عشوائية من 100 معاملات المستهلك مجهولة الهوية. يمكن العثور على قائمة التسمية الكاملة هنا.
| GPT 4 | Llama Finetuned 7b | Llama Finetuned 13b | ntropy API | |
|---|---|---|---|---|
| دقة العلامات | 0.71 | 0.72 | 0.78 | 0.86 |
| علامة F1 | 0.64 | 0.56 | 0.65 | 0.73 |
| Labeler Label Tharing * | 0.85 | 0.82 | 0.87 | 0.91 |
| زمن انتقال العلامات (S/TX) | 1.47 | 0.27 | 0.34 | 0.01 |
| دقة التاجر | 0.66 | / | / | 0.87 |
| دقة الموقع | 0.69 | / | / | 0.87 |
| الكمون الطبيعي (S/TX) | 4.45 | / | / | 0.01 |
*: تشابه التسمية هو مقياس تقريبي يستخدم مسافة التضمين لإعطاء مقياس أكثر سلاسة من الدقة (على سبيل المثال: 2 ستحصل الملصقات المماثلة على درجة قريبة من 1 بينما سيكون لدى 2 مختلفين تمامًا درجة قريبة من 0). يمكنك رؤية المزيد من التفاصيل في tests/integration/test_openai::test_label_similarity_score .
من بين النماذج التي تم تقييمها ، يوضح ntropy أفضل المقاييس من حيث الدقة والكمون. يمكن أن يعزى هذا التفوق إلى عدة عوامل ، بما في ذلك وصوله إلى محركات البحث على الويب وقواعد بيانات التاجر الداخلية. علاوة على ذلك ، تم ضبط النماذج الداخلية لـ NTROPY خصيصًا للمهام المالية ، مما يساهم في فعاليتها في الحصول على ملصقات دقيقة.
لاحظنا أنه عندما يتم ضبط نموذج LLAMA على معاملات المستهلكين ، حتى دون الوصول إلى معلومات خارجية حول التجار ، فإنه يحقق دقة أعلى مقارنة بـ GPT-4 (بمقدار 7 نقاط). هذا يشير إلى أن نماذج LLM تمتلك قدرًا كبيرًا من المعرفة حول الشركات ، على الرغم من أن قياس هذه المعرفة مباشرة يمكن أن يكون تحديًا. بالإضافة إلى ذلك ، يبدو أن استرداد أسماء الشركات التي تم تنظيفها ومواقع الويب أكثر صعوبة بالنسبة لهذه النماذج.
استنادًا إلى مجموعة البيانات هذه ، من المثير للاهتمام أن نلاحظ أن GPT-4 لديه القدرة على إنشاء مواقع ويب تبدو صحيحة للوهلة الأولى ولكن في الواقع ، غير موجودة. على سبيل المثال:
ملاحظة: تم قياس نماذج Llama على وحدة معالجة الرسومات A100 واحدة.
(العودة إلى الأعلى)
يستخدم هذا المشروع Python> = 3.10
حزمة Python التي يمكن تثبيتها إما باستخدام الشعر أو pip:
poetry install
poetry shell
pip install .
اعتمادًا على النموذج الذي تريد تشغيله ، تحتاج إلى واحد على الأقل مما يلي (أو جميعًا لتشغيل المعيار الكامل):
لاستخدام واجهة برمجة تطبيقات ntropy ، تحتاج إلى مفتاح API:
enrichment_models/__init__.pyملاحظة: ستحصل على حد 10000 معاملة مع حساب مجاني. إذا كنت بحاجة إلى المزيد ، يرجى الاتصال بنا.
لاستخدام نماذج Openai ، ستحتاج إلى مفتاح API:
enrichment_models/__init__.pyمحولات LLAMA مفتوحة مصدرها ويمكن استخدامها من مركز Huggingface. تحتوي النماذج على نوعين من المتغيرات (7B params و 13b params ، 16bits) ويمكن العثور عليها في عناوين URL التالية:
ملاحظة: هناك حاجة إلى الحد الأدنى من ذاكرة الوصول العشوائي 32 جيجابايت لتشغيل نماذج Llama (أفضل إذا كان لديك وصول إلى بعض GPU مع ما يكفي من VRAM)
(العودة إلى الأعلى)
إذا كنت ترغب في تشغيل المعيار الكامل ، بعد إعداد مفتاح API في enrichment_models/__init__.py ، يمكنك فقط التشغيل:
make benchmark
أو
python scripts/full_benchmark.py
سيؤدي ذلك إلى طباعة النتائج على المحطة الطرفية وكذلك إلقاء المقاييس والتنبؤات في datasets/ المجلد.
إذا كنت ترغب في دمج أحد هذه النماذج ، فيمكنك فقط أخذ أمثلة على دفاتر الملاحظات ، في notebooks/ مجلد.
أيضًا ، إذا كنت ترغب في دمج واجهة برمجة تطبيقات Ntropy ، فقد ترغب في إلقاء نظرة على الوثائق
يوجد دفتر واحد لكل طراز (ntropy و Openai و Llama).
نرحب ونقدر أي طلب سحب يقترح تحسينات أو يقدم نماذج جديدة ، واجهات برمجة التطبيقات ، وما إلى ذلك لإضافتها إلى الجدول القياسي.
(العودة إلى الأعلى)
موزعة تحت رخصة معهد ماساتشوستس للتكنولوجيا. انظر LICENSE لمزيد من المعلومات.
(العودة إلى الأعلى)
تبعيات المشروع الرئيسية:
(العودة إلى الأعلى)