Model bahasa yang sensitif terhadap industri untuk bisnis. Model ini tersedia di HuggingFace: https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )Kami memperkenalkan Businessbert, model bahasa yang sensitif terhadap industri baru untuk aplikasi bisnis. Kebaruan utama dari model kami terletak pada menggabungkan informasi industri untuk meningkatkan pengambilan keputusan dalam tugas pemrosesan bahasa alami (NLP) terkait bisnis. BusinessBert memperluas representasi enkoder dua arah dari arsitektur Transformers (BerT) dengan menyematkan informasi industri selama pretraining melalui dua pendekatan inovatif yang memungkinkan Businessbert untuk menangkap terminologi khusus industri: (1) BusinessBert dilatih pada perusahaan komunikasi bisnis yang berjumlah 2,23 miliar TOKENS yang terdiri dari konten situs web perusahaan, MD & MD & A Gagasan Komunikasi Bisnis A MD & A MD & A MD & A GERATIRAN MD & A MD & A CERTANING MD & A MD & A MD & A GERATIAN MD & A MD & A MD & A MDAN SATUS DOKSI DAN MD & A MD & A MDAN TERUSAHAN MD & A MD & A MD & A MDAN ATUNGSI A MD & A MD & A MDAN MD & A MDAN MD & A MDAN SATUS DOKULAN MD & A. (2) Kami menggunakan klasifikasi industri sebagai tujuan pretraining tambahan. Hasil kami menunjukkan bahwa BusinessBert meningkatkan pengambilan keputusan berbasis data dengan memberikan kinerja yang unggul pada tugas NLP terkait bisnis. Eksperimen kami mencakup 7 dataset benchmark yang mencakup klasifikasi teks, pengenalan entitas yang disebutkan, analisis sentimen, dan tugas-tugas yang dijawab. Selain itu, makalah ini mengurangi kompleksitas menggunakan BusinessBert untuk aplikasi NLP lainnya dengan membuatnya tersedia secara bebas sebagai model bahasa pretrain untuk komunitas bisnis.
Benchmark terdiri dari tugas NLP terkait bisnis yang disusun dalam kategori berikut:
Klasifikasi Teks
Pengakuan entitas yang disebutkan
Analisis sentimen
data/fiqa/build_fiqa.py untuk menggabungkan bagian data dan membuat data/fiqa/train.json . Tautan atau unduhan langsungPertanyaan menjawab
Jalankan makfolder.sh untuk membuat struktur folder di bawah ini.
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.py Hasil benchmark NLP bisnis dapat direplikasi menggunakan skrip run_benchmark.sh . Perhatikan bahwa dataset FINQA dan kode yang sesuai tersedia di sini: https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
doneUkuran batch dan parameter akumulasi gradien dipilih untuk menjalankan percobaan pada GPU NVIDIA RTX4000 (8GB).
Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0.