تنزيل BusinessBERT - تنزيل رمز المصدر BusinessBERT

BusinessBERT

كود الذكاء الاصطناعي

1.0.0

تنزيل

BusinessBert

نموذج لغة حساسة للصناعة للأعمال. النموذج متاح على Huggingface: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

ملخص

محول مسبق: بيرت القاعدة
تدرب على الاتصالات التجارية المستخرجة:
- المناقشة الإدارية وبيانات الشلل الشلية CaltechData | MD & A.
- محتوى موقع الشركة هذه الدراسة | CompanyWeb
- الأدب التجاري العلمي باحث الدلالي | S2ORC
هدف إضافي ما قبل التدريب: تصنيف الصناعة (IC) يتنبأ بالوثائق النصية لتصنيف الصناعة القياسي
أداء SOTA على تصنيف النص المتعلق بالأعمال ، والتعرف على الكيان المسماة والأسئلة الإجابة على المعايير

خلاصة

نحن نقدم شركة BusinessBert ، نموذج لغة جديد حساس للصناعة لتطبيقات الأعمال. تكمن الجدة الرئيسية لنموذجنا في دمج معلومات الصناعة لتعزيز اتخاذ القرارات في مهام معالجة اللغة الطبيعية المتعلقة بالأعمال (NLP). يمتد BusinessBert تمثيلات تشفير ثنائية الاتجاه من هندسة Transformers (BERT) من خلال تضمين معلومات الصناعة أثناء التدريب من خلال نهجين مبتكرين تمكنين من BusinessBert التقاط المصطلحات الخاصة بالصناعة: (1) يتم تدريب BusinessBert على شركة Business Communication Corpora التي يبلغ مجموعها 2.23 مليار رموز تتألف من محتوى موقع الشركة ، MD & A BACETITIONS PACETITIONS في مجال الأعمال التجارية. (2) نستخدم تصنيف الصناعة كهدف إضافي قبل التدريب. تشير نتائجنا إلى أن شركة BusinessBert تعمل على تحسين اتخاذ القرارات القائمة على البيانات من خلال توفير أداء فائق في مهام NLP المتعلقة بالأعمال. تغطي تجاربنا 7 مجموعات بيانات قياسية تتضمن تصنيف النص ، والتعرف على الكيان المسمى ، وتحليل المشاعر ، ومهام إجابة الأسئلة. بالإضافة إلى ذلك ، تقلل هذه الورقة من تعقيد استخدام BusinessBert لتطبيقات NLP الأخرى من خلال جعلها متاحة بحرية كنموذج لغة مسبق لمجتمع الأعمال.

معيار

يتكون المعيار من مهام NLP المتعلقة بالأعمال المهيكلة في الفئات التالية:

تصنيف النص

المخاطر: تصنيف المخاطر المالية القائمة على الإفصاح عن الشركات. وصلة
الأخبار: تصنيف الموضوع بناءً على عناوين الأخبار. وصلة

اسم التعرف على الكيان

ملفات SEC: NER بناءً على اتفاقيات مالية. وصلة

تحليل المشاعر

FIQA: توقع درجة المشاعر المستمرة بناءً على رسائل المدونات الصغيرة أو بيانات الأخبار أو العناوين الرئيسية. قم بتشغيل data/fiqa/build_fiqa.py لدمج أجزاء البيانات وإنشاء data/fiqa/train.json . رابط أو تنزيل مباشر
PhraseBank: تصنيف المشاعر على أساس الأخبار المالية. وصلة
StockTweets: تصنيف المشاعر بناءً على تغريدات باستخدام علامات مثل "#SPX500" و "#Stocks". وصلة

إجابة سؤال

FINQA: الإجابة على الأسئلة التوليدية بناءً على تقارير الأرباح لشركات S&P 500. وصلة

هيكل المجلد

قم بتشغيل makfolder.sh لإنشاء بنية المجلد أدناه.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

شفرة

يمكن تكرار نتائج Business NLP القياسية باستخدام البرنامج النصي run_benchmark.sh . لاحظ أن مجموعة بيانات FINQA والرمز المقابل متاحين هنا: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done