Branchenempfindliches Sprachmodell für Wirtschaft. Das Modell ist auf Huggingface verfügbar: https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )Wir stellen Businessbert vor, ein neues branchenempfindliches Sprachmodell für Geschäftsanwendungen. Die wichtigste Neuheit unseres Modells liegt in der Einbeziehung von Brancheninformationen zur Verbesserung der Entscheidungsfindung in den Aufgaben der natürlichen Sprachverarbeitung (NLP). Businessbert erweitert die Bidirektional-Encoder-Darstellungen aus der Architektur (Transformers), indem sie die Brancheninformationen während der Vorbereitung durch zwei innovative Ansätze einbettet, die es Businessbert ermöglichen, die branchenspezifische Terminologie zu erfassen: (1) Businessbert wird auf Geschäftskommunikationskassen mit insgesamt 23 Milliarden Token ausgebildet, die aus Unternehmens-Inhalten, MD & a-Statements sowie wissenschaftlichen Papierpapieren in den Unternehmensdokumenten bestehen. (2) Wir verwenden die Branchenklassifizierung als zusätzliches Vorderziel. Unsere Ergebnisse deuten darauf hin, dass Businessbert die datengesteuerte Entscheidungsfindung verbessert, indem es die geschäftsbezogenen NLP-Aufgaben überlegene Leistung liefert. Unsere Experimente decken 7 Benchmark-Datensätze ab, die Textklassifizierung, Bekannung von Entität, Stimmungsanalyse und Fragen-Antworten enthalten. Darüber hinaus verringert dieses Papier die Komplexität der Verwendung von Businessbert für andere NLP -Anwendungen, indem es für die Geschäftswelt frei als vorbereitete Sprachmodell verfügbar ist.
Der Benchmark besteht aus geschäftsbezogenen NLP -Aufgaben, die in den folgenden Kategorien strukturiert sind:
Textklassifizierung
Genannte Entitätserkennung
Stimmungsanalyse
data/fiqa/build_fiqa.py aus, um die Datenteile zu kombinieren, und erstellen Sie data/fiqa/train.json . Link oder direkter DownloadFrage Beantwortung
Führen Sie makfolder.sh aus, um die unten stehende Ordnerstruktur zu erstellen.
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.py Die Ergebnisse der Business NLP Benchmark können mit dem Skript run_benchmark.sh repliziert werden. Beachten Sie, dass der Finqa -Datensatz und der entsprechende Code hier verfügbar sind: https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
doneDie Parameter Größe und Gradientenakkumulation werden ausgewählt, um das Experiment mit einer NVIDIA RTX4000 (8 GB) GPU auszuführen.
Diese Arbeit ist unter einer internationalen Lizenz für Creative Commons zuzuschreiben.