BusinessBERT下载 - BusinessBERT源代码下载

BusinessBERT

Ai源码

1.0.0

下载

Businessbert

业务敏感语言模型。该模型可在HuggingFace上获得：https：//huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

概括

预处理的变压器：Bert-Base架构
受过商业沟通的培训已提取：
- 管理讨论和Analaysis声明Caltechdata | MD＆A。
- 公司网站内容此研究| CompanyWeb
- 科学商业文献语义学者| S2orc
其他预审进目标：行业分类（IC）预测标准行业分类文本文档源自
SOTA与业务相关文本分类的绩效，命名实体识别和问题回答基准

抽象的

我们介绍了BusinessBert，这是一种新的行业敏感语言模型，用于业务应用程序。我们模型的主要新颖性在于合并行业信息以增强与业务相关的自然语言处理（NLP）任务中的决策。 BusinessBert通过两种创新方法在预处理过程中嵌入了行业信息，从而扩展了双向编码器的表示，使Businessbert能够捕获特定于行业的术语：（1）BusinessBert在商业通信公司接受了22.3亿个公司的商业通信公司的培训。（2）我们将行业分类作为额外的预处理目标。我们的结果表明，BusinessBert通过在与业务相关的NLP任务上提供出色的绩效来改善与数据驱动的决策。我们的实验涵盖了7个基准数据集，其中包括文本分类，命名实体识别，情感分析和提问任务。此外，本文通过将其作为验证的语言模型提供给商业界的语言模型，从而降低了将BusinessBert用于其他NLP应用程序的复杂性。

基准

基准由与业务相关的NLP任务组成：

文本分类

风险：基于财务风险分类的公司披露。关联
新闻：基于新闻头条的主题分类。关联

命名实体识别

SEC文件：基于财务协议的NER。关联

情感分析

FIQA：基于微博消息，新闻报表或头条新闻预测连续的情感得分。运行data/fiqa/build_fiqa.py以组合数据部分并创建data/fiqa/train.json 。链接或直接下载
金融短语库：基于财务新闻的情感分类。关联
StockTweets：基于推文的情感分类，使用“＃SPX500”和“ #Stocks”之类的标签。关联

问题回答

FinQA：根据标准普尔500年公司的收入报告，生成问题回答。关联

文件夹结构

运行makfolder.sh以在下面创建文件夹结构。

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

代码

Business NLP基准测试结果可以使用run_benchmark.sh脚本复制。请注意，FinQA数据集和相应的代码可在此处提供：https：//github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done