BusinessBERT
1.0.0
业务敏感语言模型。该模型可在HuggingFace上获得:https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )我们介绍了BusinessBert,这是一种新的行业敏感语言模型,用于业务应用程序。我们模型的主要新颖性在于合并行业信息以增强与业务相关的自然语言处理(NLP)任务中的决策。 BusinessBert通过两种创新方法在预处理过程中嵌入了行业信息,从而扩展了双向编码器的表示,使Businessbert能够捕获特定于行业的术语:(1)BusinessBert在商业通信公司接受了22.3亿个公司的商业通信公司的培训。 (2)我们将行业分类作为额外的预处理目标。我们的结果表明,BusinessBert通过在与业务相关的NLP任务上提供出色的绩效来改善与数据驱动的决策。我们的实验涵盖了7个基准数据集,其中包括文本分类,命名实体识别,情感分析和提问任务。此外,本文通过将其作为验证的语言模型提供给商业界的语言模型,从而降低了将BusinessBert用于其他NLP应用程序的复杂性。
基准由与业务相关的NLP任务组成:
文本分类
命名实体识别
情感分析
data/fiqa/build_fiqa.py以组合数据部分并创建data/fiqa/train.json 。链接或直接下载问题回答
运行makfolder.sh以在下面创建文件夹结构。
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.pyBusiness NLP基准测试结果可以使用run_benchmark.sh脚本复制。请注意,FinQA数据集和相应的代码可在此处提供:https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
done选择批处理大小和梯度积累参数以在NVIDIA RTX4000(8GB)GPU上运行实验。
这项工作是根据创意共享归因4.0国际许可证获得许可的。