تنزيل enrichment_models - تنزيل رمز enrichment

enrichment_models

شفرة المصدر الأخرى

1.0.0

تنزيل

نماذج المعاملات المالية معيار

يوفر هذا المستودع معيارًا لاتصالات واجهة برمجة تطبيقات NTROPY ونماذج لغة كبيرة مختلفة (Openai ChatGPT و Llama Finetuned Models) في مهمة إثراء المعاملات. كما أنه يحتوي على غلاف سهل الاستخدام يمكّن استخدام LLMS لأداء إثراء المعاملات. كانت محولات Llama مفتوحة من مصادر ومتاحة على Huggingface Hub.

جدول المحتويات

معيار
تثبيت
الاستخدام
المساهمة
رخصة
اتصال
ريسورس

معيار

قمنا بتقييم واجهة برمجة تطبيقات Ntropy ومجموعة من LLMs في مهمة استخراج الحقول التالية: التسمية ، التاجر والموقع.

تتم مقارنة واجهة برمجة تطبيقات Ntropy مع:

Openai's LLM's (GPT-4) باستخدام مطالبة مباشرة.
نماذج Llama Finetuned (7B و 13B Params) على بيانات معاملات المستهلك مع محولات LORA.

يمكن العثور على مجموعة البيانات المستخدمة هنا: /datasets/100_labeled_consumer_transactions.csv . يمكن العثور على جميع التنبؤات هنا: /datasets/benchmark_predictions.csv . وهو يتألف من مجموعة فرعية عشوائية من 100 معاملات المستهلك مجهولة الهوية. يمكن العثور على قائمة التسمية الكاملة هنا.

	GPT 4	Llama Finetuned 7b	Llama Finetuned 13b	ntropy API
دقة العلامات	0.71	0.72	0.78	0.86
علامة F1	0.64	0.56	0.65	0.73
Labeler Label Tharing *	0.85	0.82	0.87	0.91
زمن انتقال العلامات (S/TX)	1.47	0.27	0.34	0.01

دقة التاجر	0.66	/	/	0.87
دقة الموقع	0.69	/	/	0.87
الكمون الطبيعي (S/TX)	4.45	/	/	0.01

*: تشابه التسمية هو مقياس تقريبي يستخدم مسافة التضمين لإعطاء مقياس أكثر سلاسة من الدقة (على سبيل المثال: 2 ستحصل الملصقات المماثلة على درجة قريبة من 1 بينما سيكون لدى 2 مختلفين تمامًا درجة قريبة من 0). يمكنك رؤية المزيد من التفاصيل في tests/integration/test_openai::test_label_similarity_score .

من بين النماذج التي تم تقييمها ، يوضح ntropy أفضل المقاييس من حيث الدقة والكمون. يمكن أن يعزى هذا التفوق إلى عدة عوامل ، بما في ذلك وصوله إلى محركات البحث على الويب وقواعد بيانات التاجر الداخلية. علاوة على ذلك ، تم ضبط النماذج الداخلية لـ NTROPY خصيصًا للمهام المالية ، مما يساهم في فعاليتها في الحصول على ملصقات دقيقة.

لاحظنا أنه عندما يتم ضبط نموذج LLAMA على معاملات المستهلكين ، حتى دون الوصول إلى معلومات خارجية حول التجار ، فإنه يحقق دقة أعلى مقارنة بـ GPT-4 (بمقدار 7 نقاط). هذا يشير إلى أن نماذج LLM تمتلك قدرًا كبيرًا من المعرفة حول الشركات ، على الرغم من أن قياس هذه المعرفة مباشرة يمكن أن يكون تحديًا. بالإضافة إلى ذلك ، يبدو أن استرداد أسماء الشركات التي تم تنظيفها ومواقع الويب أكثر صعوبة بالنسبة لهذه النماذج.

استنادًا إلى مجموعة البيانات هذه ، من المثير للاهتمام أن نلاحظ أن GPT-4 لديه القدرة على إنشاء مواقع ويب تبدو صحيحة للوهلة الأولى ولكن في الواقع ، غير موجودة. على سبيل المثال:

Kwikcash => http://www.kwikcash.com/ (بدلاً من https://www.kwikcashonline.com/)
Clark's pump-n-shop => https://pumpnshop.com/ (بدلاً من https://www.myclarkspns.com/)
...

ملاحظة: تم قياس نماذج Llama على وحدة معالجة الرسومات A100 واحدة.

(العودة إلى الأعلى)

تثبيت

يستخدم هذا المشروع Python> = 3.10

حزمة Python التي يمكن تثبيتها إما باستخدام الشعر أو pip:

شِعر:

 poetry install
poetry shell

PIP:

 pip install .

اعتمادًا على النموذج الذي تريد تشغيله ، تحتاج إلى واحد على الأقل مما يلي (أو جميعًا لتشغيل المعيار الكامل):

مفتاح API ntropy

لاستخدام واجهة برمجة تطبيقات ntropy ، تحتاج إلى مفتاح API:

انتقل إلى https://dashboard.ntropy.com/
قم بإنشاء حساب (يمكنك تسجيل الدخول بحساب Google ، ولكن يجب عليك استخدام مجال الشركة)
في القائمة اليسرى ، يمكنك النقر فوق "مفاتيح API" ثم انقر فوق "إنشاء مفتاح API"
انسخ مفتاح API ولصقه هنا: enrichment_models/__init__.py

ملاحظة: ستحصل على حد 10000 معاملة مع حساب مجاني. إذا كنت بحاجة إلى المزيد ، يرجى الاتصال بنا.

مفتاح API Openai

لاستخدام نماذج Openai ، ستحتاج إلى مفتاح API:

انتقل إلى https://platform.openai.com/
إنشاء حساب
في القائمة المنسدلة ، انقر فوق "عرض مفاتيح API"
ثم ، "إنشاء مفتاح سري جديد"
انسخ مفتاح API ولصقه هنا: enrichment_models/__init__.py

متطلبات لاما

محولات LLAMA مفتوحة مصدرها ويمكن استخدامها من مركز Huggingface. تحتوي النماذج على نوعين من المتغيرات (7B params و 13b params ، 16bits) ويمكن العثور عليها في عناوين URL التالية: