BusinessBERT -Download - BusinessBERT -Quellcode -Download

BusinessBERT

AI-Quellcode

1.0.0

Herunterladen

Businessbert

Branchenempfindliches Sprachmodell für Wirtschaft. Das Modell ist auf Huggingface verfügbar: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

Zusammenfassung

Vorbereiteter Transformator: Bert-Base-Architektur
Ausgebildet für geschäftliche Kommunikation extrahiert:
- Management -Diskussion und Analaysis -Aussagen CaltechData | MD & a
- Unternehmenswebsite Inhalt Diese Studie | Firmaweb
- Wissenschaftliche Wirtschaftsliteratur Semantischer Gelehrter | S2orc
Zusätzliches Vorderziel: Branchenklassifizierung (IC), die die Standard -Dokumente der Standardklassifizierung vorhersagen, stammen aus
SOTA -Leistung in der geschäftsbezogenen Textklassifizierung, Bezeichnung von Entitätserkennung und Fragen zur Beantwortung von Benchmarks

Abstrakt

Wir stellen Businessbert vor, ein neues branchenempfindliches Sprachmodell für Geschäftsanwendungen. Die wichtigste Neuheit unseres Modells liegt in der Einbeziehung von Brancheninformationen zur Verbesserung der Entscheidungsfindung in den Aufgaben der natürlichen Sprachverarbeitung (NLP). Businessbert erweitert die Bidirektional-Encoder-Darstellungen aus der Architektur (Transformers), indem sie die Brancheninformationen während der Vorbereitung durch zwei innovative Ansätze einbettet, die es Businessbert ermöglichen, die branchenspezifische Terminologie zu erfassen: (1) Businessbert wird auf Geschäftskommunikationskassen mit insgesamt 23 Milliarden Token ausgebildet, die aus Unternehmens-Inhalten, MD & a-Statements sowie wissenschaftlichen Papierpapieren in den Unternehmensdokumenten bestehen. (2) Wir verwenden die Branchenklassifizierung als zusätzliches Vorderziel. Unsere Ergebnisse deuten darauf hin, dass Businessbert die datengesteuerte Entscheidungsfindung verbessert, indem es die geschäftsbezogenen NLP-Aufgaben überlegene Leistung liefert. Unsere Experimente decken 7 Benchmark-Datensätze ab, die Textklassifizierung, Bekannung von Entität, Stimmungsanalyse und Fragen-Antworten enthalten. Darüber hinaus verringert dieses Papier die Komplexität der Verwendung von Businessbert für andere NLP -Anwendungen, indem es für die Geschäftswelt frei als vorbereitete Sprachmodell verfügbar ist.

Benchmark

Der Benchmark besteht aus geschäftsbezogenen NLP -Aufgaben, die in den folgenden Kategorien strukturiert sind:

Textklassifizierung

Risiko: Einklassifizierungsbasierte Unternehmensangriffe von Finanzrisiken. Link
Nachrichten: Thema Klassifizierung basierend auf den Schlagzeilen. Link

Genannte Entitätserkennung

SEC -Anmeldungen: NER basierend auf Finanzabkommen. Link

Stimmungsanalyse

FIQA: Vorhersage einer kontinuierlichen Sentimentsbewertung auf der Grundlage von Microblog -Nachrichten, Nachrichtenanweisungen oder Schlagzeilen. Führen Sie data/fiqa/build_fiqa.py aus, um die Datenteile zu kombinieren, und erstellen Sie data/fiqa/train.json . Link oder direkter Download
Finanzphrasebank: Stimmungsklassifizierung basierend auf Finanznachrichten. Link
Stocktweets: Sentiment -Klassifizierung basierend auf Tweets mit Tags wie "#SPX500" und "#Stocks". Link

Frage Beantwortung

Finqa: Generative Frage, die auf Ertragsberichten von S & P 500 -Unternehmen beantwortet wird. Link

Ordnerstruktur

Führen Sie makfolder.sh aus, um die unten stehende Ordnerstruktur zu erstellen.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

Code

Die Ergebnisse der Business NLP Benchmark können mit dem Skript run_benchmark.sh repliziert werden. Beachten Sie, dass der Finqa -Datensatz und der entsprechende Code hier verfügbar sind: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done