BusinessBERTダウンロード - BusinessBERTソースコードのダウンロード

BusinessBERT

AI ソースコード

1.0.0

ダウンロード

BusinessBert

ビジネスのための業界に敏感な言語モデル。このモデルは、huggingface：https：//huggingface.co/pborchert/businessbertで入手できます

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

まとめ

前処理された変圧器：Bert-Base Architecture
抽出されたビジネスコミュニケーションのトレーニング：
- 管理の議論とアナレーシスステートメントcaltechdata | MD＆A
- 会社のウェブサイトコンテンツこの調査| CompanyWeb
- 科学的ビジネス文学セマンティック学者| S2ORC
追加の事前トレーニング目的：業界分類（IC）標準的な業界分類のテキスト文書の予測
エンティティ認識と質問のベンチマークの名前と呼ばれるビジネス関連のテキスト分類に関するSOTAパフォーマンス

抽象的な

ビジネスアプリケーション向けの新しい業界に敏感な言語モデルであるBusinessBertを紹介します。私たちのモデルの重要な斬新さは、業界情報を組み込んでビジネス関連の自然言語処理（NLP）タスクの意思決定を強化することにあります。 BusinessBertは、BusinessBertが業界固有の用語をキャプチャできるようにする2つの革新的なアプローチを介して、業界情報を埋め込むことにより、トランス（BERT）アーキテクチャからの双方向エンコーダー表現を拡張します。（2）追加の事前トレーニング目標として業界分類を採用しています。私たちの結果は、BusinessBertがビジネス関連のNLPタスクで優れたパフォーマンスを提供することにより、データ駆動型の意思決定を改善することを示唆しています。私たちの実験では、テキスト分類、エンティティ認識、センチメント分析、質問を解決するタスクを含む7つのベンチマークデータセットをカバーしています。さらに、このホワイトペーパーでは、ビジネスコミュニティの前提条件の言語モデルとして自由に利用できるようにすることにより、BusinessBertを他のNLPアプリケーションに使用することの複雑さを削減します。

ベンチマーク

ベンチマークは、次のカテゴリで構成されたビジネス関連NLPタスクで構成されています。

テキスト分類

リスク：金融リスク分類に基づく企業の開示。リンク
ニュース：ニュースの見出しに基づくトピック分類。リンク

名前付きエンティティ認識

SEC提出：金融契約に基づくNER。リンク

感情分析

FIQA：マイクロブログメッセージ、ニュースステートメント、または見出しに基づいて、連続感情スコアを予測します。 data/fiqa/build_fiqa.pyを実行して、データパーツを組み合わせてdata/fiqa/train.jsonを作成します。リンクまたは直接ダウンロード
Financial PhraseBank：Financial Newsに基づく感情分類。リンク
stocktweets：「＃spx500」や「#stocks」などのタグを使用したツイートに基づくセンチメント分類。リンク

質問に答える

FINQA：S＆P 500企業の収益レポートに基づく生成的な質問応答。リンク

フォルダー構造

makfolder.shを実行して、以下にフォルダー構造を作成します。

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

コード

business NLPベンチマークの結果は、 run_benchmark.shスクリプトを使用して複製できます。 FINQAデータセットと対応するコードは、https：//github.com/czyssrs/finqaで入手できることに注意してください。

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done