Téléchargement BusinessBERT - Téléchargement du code source BusinessBERT

BusinessBERT

Code Source AI

1.0.0

Télécharger

Businessbert

Modèle linguistique sensible à l'industrie pour les affaires. Le modèle est disponible sur HuggingFace: https://huggingface.co/pborchert/businessbert

 from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )

Résumé

Transformateur pré-entraîné: architecture Bert-base
Formé sur la communication d'entreprise extraite:
- Discussion de gestion et déclarations Analaysis Caltechdata | MD & A
- Contenu du site Web de l'entreprise Cette étude | CompanyWeb
- Littérature commerciale scientifique Scholar sémantique | S2orc
Objectif de pré-formation supplémentaire: Classification de l'industrie (IC) Prédire les documents textuels de classification de l'industrie standard proviennent de
Performance SOTA sur la classification du texte lié aux entreprises, la reconnaissance des entités nommée et les questions de réponse aux questions

Abstrait

Nous présentons Businessbert, un nouveau modèle linguistique sensible à l'industrie pour les applications commerciales. La nouveauté clé de notre modèle réside dans l'intégration des informations sur l'industrie pour améliorer la prise de décision dans les tâches de traitement du langage naturel liées aux entreprises (PNL). Businessbert étend les représentations de l'encodeur bidirectionnelles de l'architecture de Transformers (BERT) en intégrant les informations de l'industrie lors de la pré-élaction à travers deux approches innovantes qui permettent à Businessbert de capturer la terminologie spécifique à l'industrie: (1) Businessbert est formé sur les sociétés de communication d'entreprise totalisant 2,23 milliards de jetons composés de contenu du site Web de l'entreprise, des états MD & A et des documents scientifiques dans le domaine commercial; (2) Nous utilisons la classification de l'industrie comme un objectif pré-étiqueté supplémentaire. Nos résultats suggèrent que Businessbert améliore la prise de décision basée sur les données en fournissant des performances supérieures sur les tâches NLP liées aux entreprises. Nos expériences couvrent 7 ensembles de données de référence qui incluent la classification du texte, la reconnaissance des entités nommée, l'analyse des sentiments et les tâches de réponses aux questions. De plus, cet article réduit la complexité de l'utilisation de Businessbert pour d'autres applications PNL en la rendant gratuitement en tant que modèle de langue pré-étendue à la communauté des affaires.

Référence

La référence est constituée de tâches NLP liées aux entreprises structurées dans les catégories suivantes:

Classification de texte

Risque: divulgations des entreprises basées sur la classification des risques financières. Lien
NOUVELLES: Classification des sujets basée sur les titres des nouvelles. Lien

Reconnaissance d'entité nommée

Dossiers SEC: NER basé sur des accords financiers. Lien

Analyse des sentiments

FIQA: Prédire le score de sentiment continu basé sur des messages microblogs, des énoncés d'information ou des titres. Exécutez data/fiqa/build_fiqa.py pour combiner les pièces de données et créer data/fiqa/train.json . Lien ou téléchargement direct
Expression financière Banque: classification des sentiments basée sur les nouvelles financières. Lien
StockTweets: Classification des sentiments basée sur des tweets à l'aide de balises comme "# SPX500" et "#Stocks". Lien

Question Répondre

FINQA: Réponse de questions génératrices en fonction des rapports sur les bénéfices des sociétés S&P 500. Lien

Structure de dossier

Exécutez makfolder.sh pour créer la structure du dossier ci-dessous.

BusinessBERT
├───data
│   ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│   ├───fiqa
│   │       task1_headline_ABSA_train.json
│   │       task1_post_ABSA_train.json
│   │       build_fiqa.py
│   │       train.json
│   │
│   ├───news # obsolete, load data directly from https://huggingface.co/datasets
│   ├───risk
│   │       groundTruth.dat
│   │
│   ├───secfilings
│   │       test.txt
│   │       train.txt
│   │       valid.txt
│   │
│   └───stocktweets
│           tweets_clean.csv
│
└───tasks
        finphrase.py
        fiqa.py
        news.py
        risk.py
        secfilings.py
        stocktweets.py
        __init__.py

Code

Les résultats de référence NLP commerciaux peuvent être reproduits à l'aide du script run_benchmark.sh . Notez que l'ensemble de données FINQA et le code correspondant sont disponibles ici: https://github.com/czyssrs/finqa

 for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
    for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
    do
        for seed in 42
        do 
            python businessbench.py 
            --task_name $task 
            --model_name $model 
            --seed $seed
        done
    done
done