BusinessBERT下載 - BusinessBERT源代碼下載

BusinessBERT

Ai源碼

1.0.0

下載

Businessbert

業務敏感語言模型。該模型可在HuggingFace上獲得：https：//huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

概括

預處理的變壓器：Bert-Base架構
受過商業溝通的培訓已提取：
- 管理討論和Analaysis聲明Caltechdata | MD＆A。
- 公司網站內容此研究| CompanyWeb
- 科學商業文獻語義學者| S2orc
其他預審進目標：行業分類（IC）預測標準行業分類文本文檔源自
SOTA與業務相關文本分類的績效，命名實體識別和問題回答基準

抽象的

我們介紹了BusinessBert，這是一種新的行業敏感語言模型，用於業務應用程序。我們模型的主要新穎性在於合併行業信息以增強與業務相關的自然語言處理（NLP）任務中的決策。 BusinessBert通過兩種創新方法在預處理過程中嵌入了行業信息，從而擴展了雙向編碼器的表示，使Businessbert能夠捕獲特定於行業的術語：（1）BusinessBert在商業通信公司接受了22.3億個公司的商業通信公司的培訓。（2）我們將行業分類作為額外的預處理目標。我們的結果表明，BusinessBert通過在與業務相關的NLP任務上提供出色的績效來改善與數據驅動的決策。我們的實驗涵蓋了7個基準數據集，其中包括文本分類，命名實體識別，情感分析和提問任務。此外，本文通過將其作為驗證的語言模型提供給商業界的語言模型，從而降低了將BusinessBert用於其他NLP應用程序的複雜性。

基準

基準由與業務相關的NLP任務組成：

文本分類

風險：基於財務風險分類的公司披露。關聯
新聞：基於新聞頭條的主題分類。關聯

命名實體識別

SEC文件：基於財務協議的NER。關聯

情感分析

FIQA：基於微博消息，新聞報表或頭條新聞預測連續的情感得分。運行data/fiqa/build_fiqa.py以組合數據部分並創建data/fiqa/train.json 。鏈接或直接下載
金融短語庫：基於財務新聞的情感分類。關聯
StockTweets：基於推文的情感分類，使用“＃SPX500”和“ #Stocks”之類的標籤。關聯

問題回答

FinQA：根據標準普爾500年公司的收入報告，生成問題回答。關聯

文件夾結構

運行makfolder.sh以在下面創建文件夾結構。

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

代碼

Business NLP基準測試結果可以使用run_benchmark.sh腳本複制。請注意，FinQA數據集和相應的代碼可在此處提供：https：//github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done