نموذج لغة حساسة للصناعة للأعمال. النموذج متاح على Huggingface: https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )نحن نقدم شركة BusinessBert ، نموذج لغة جديد حساس للصناعة لتطبيقات الأعمال. تكمن الجدة الرئيسية لنموذجنا في دمج معلومات الصناعة لتعزيز اتخاذ القرارات في مهام معالجة اللغة الطبيعية المتعلقة بالأعمال (NLP). يمتد BusinessBert تمثيلات تشفير ثنائية الاتجاه من هندسة Transformers (BERT) من خلال تضمين معلومات الصناعة أثناء التدريب من خلال نهجين مبتكرين تمكنين من BusinessBert التقاط المصطلحات الخاصة بالصناعة: (1) يتم تدريب BusinessBert على شركة Business Communication Corpora التي يبلغ مجموعها 2.23 مليار رموز تتألف من محتوى موقع الشركة ، MD & A BACETITIONS PACETITIONS في مجال الأعمال التجارية. (2) نستخدم تصنيف الصناعة كهدف إضافي قبل التدريب. تشير نتائجنا إلى أن شركة BusinessBert تعمل على تحسين اتخاذ القرارات القائمة على البيانات من خلال توفير أداء فائق في مهام NLP المتعلقة بالأعمال. تغطي تجاربنا 7 مجموعات بيانات قياسية تتضمن تصنيف النص ، والتعرف على الكيان المسمى ، وتحليل المشاعر ، ومهام إجابة الأسئلة. بالإضافة إلى ذلك ، تقلل هذه الورقة من تعقيد استخدام BusinessBert لتطبيقات NLP الأخرى من خلال جعلها متاحة بحرية كنموذج لغة مسبق لمجتمع الأعمال.
يتكون المعيار من مهام NLP المتعلقة بالأعمال المهيكلة في الفئات التالية:
تصنيف النص
اسم التعرف على الكيان
تحليل المشاعر
data/fiqa/build_fiqa.py لدمج أجزاء البيانات وإنشاء data/fiqa/train.json . رابط أو تنزيل مباشرإجابة سؤال
قم بتشغيل makfolder.sh لإنشاء بنية المجلد أدناه.
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.py يمكن تكرار نتائج Business NLP القياسية باستخدام البرنامج النصي run_benchmark.sh . لاحظ أن مجموعة بيانات FINQA والرمز المقابل متاحين هنا: https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
doneيتم تحديد حجم الدُفعة ومعلمات تراكم التدرج لتشغيل التجربة على وحدة معالجة الرسومات NVIDIA RTX4000 (8GB).
هذا العمل مرخص له بموجب ترخيص Creative Commons Attribution 4.0 الدولي.