BusinessBERT
1.0.0
業務敏感語言模型。該模型可在HuggingFace上獲得:https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )我們介紹了BusinessBert,這是一種新的行業敏感語言模型,用於業務應用程序。我們模型的主要新穎性在於合併行業信息以增強與業務相關的自然語言處理(NLP)任務中的決策。 BusinessBert通過兩種創新方法在預處理過程中嵌入了行業信息,從而擴展了雙向編碼器的表示,使Businessbert能夠捕獲特定於行業的術語:(1)BusinessBert在商業通信公司接受了22.3億個公司的商業通信公司的培訓。 (2)我們將行業分類作為額外的預處理目標。我們的結果表明,BusinessBert通過在與業務相關的NLP任務上提供出色的績效來改善與數據驅動的決策。我們的實驗涵蓋了7個基準數據集,其中包括文本分類,命名實體識別,情感分析和提問任務。此外,本文通過將其作為驗證的語言模型提供給商業界的語言模型,從而降低了將BusinessBert用於其他NLP應用程序的複雜性。
基準由與業務相關的NLP任務組成:
文本分類
命名實體識別
情感分析
data/fiqa/build_fiqa.py以組合數據部分並創建data/fiqa/train.json 。鏈接或直接下載問題回答
運行makfolder.sh以在下面創建文件夾結構。
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.pyBusiness NLP基準測試結果可以使用run_benchmark.sh腳本複制。請注意,FinQA數據集和相應的代碼可在此處提供:https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
done選擇批處理大小和梯度積累參數以在NVIDIA RTX4000(8GB)GPU上運行實驗。
這項工作是根據創意共享歸因4.0國際許可證獲得許可的。