Modèle linguistique sensible à l'industrie pour les affaires. Le modèle est disponible sur HuggingFace: https://huggingface.co/pborchert/businessbert
from transformers import AutoModel
model = AutoModel . from_pretrained ( "pborchert/BusinessBERT" )Nous présentons Businessbert, un nouveau modèle linguistique sensible à l'industrie pour les applications commerciales. La nouveauté clé de notre modèle réside dans l'intégration des informations sur l'industrie pour améliorer la prise de décision dans les tâches de traitement du langage naturel liées aux entreprises (PNL). Businessbert étend les représentations de l'encodeur bidirectionnelles de l'architecture de Transformers (BERT) en intégrant les informations de l'industrie lors de la pré-élaction à travers deux approches innovantes qui permettent à Businessbert de capturer la terminologie spécifique à l'industrie: (1) Businessbert est formé sur les sociétés de communication d'entreprise totalisant 2,23 milliards de jetons composés de contenu du site Web de l'entreprise, des états MD & A et des documents scientifiques dans le domaine commercial; (2) Nous utilisons la classification de l'industrie comme un objectif pré-étiqueté supplémentaire. Nos résultats suggèrent que Businessbert améliore la prise de décision basée sur les données en fournissant des performances supérieures sur les tâches NLP liées aux entreprises. Nos expériences couvrent 7 ensembles de données de référence qui incluent la classification du texte, la reconnaissance des entités nommée, l'analyse des sentiments et les tâches de réponses aux questions. De plus, cet article réduit la complexité de l'utilisation de Businessbert pour d'autres applications PNL en la rendant gratuitement en tant que modèle de langue pré-étendue à la communauté des affaires.
La référence est constituée de tâches NLP liées aux entreprises structurées dans les catégories suivantes:
Classification de texte
Reconnaissance d'entité nommée
Analyse des sentiments
data/fiqa/build_fiqa.py pour combiner les pièces de données et créer data/fiqa/train.json . Lien ou téléchargement directQuestion Répondre
Exécutez makfolder.sh pour créer la structure du dossier ci-dessous.
BusinessBERT
├───data
│ ├───finphrase # obsolete, load data directly from https://huggingface.co/datasets
│ ├───fiqa
│ │ task1_headline_ABSA_train.json
│ │ task1_post_ABSA_train.json
│ │ build_fiqa.py
│ │ train.json
│ │
│ ├───news # obsolete, load data directly from https://huggingface.co/datasets
│ ├───risk
│ │ groundTruth.dat
│ │
│ ├───secfilings
│ │ test.txt
│ │ train.txt
│ │ valid.txt
│ │
│ └───stocktweets
│ tweets_clean.csv
│
└───tasks
finphrase.py
fiqa.py
news.py
risk.py
secfilings.py
stocktweets.py
__init__.py Les résultats de référence NLP commerciaux peuvent être reproduits à l'aide du script run_benchmark.sh . Notez que l'ensemble de données FINQA et le code correspondant sont disponibles ici: https://github.com/czyssrs/finqa
for task in " risk " " news " " secfilings " " fiqa " " finphrase " " stocktweets "
do
for model in " pborchert/BusinessBERT " " bert-base-uncased " " ProsusAI/finbert " " yiyanghkust/finbert-pretrain "
do
for seed in 42
do
python businessbench.py
--task_name $task
--model_name $model
--seed $seed
done
done
doneLa taille du lot et les paramètres d'accumulation de gradient sont sélectionnés pour exécuter l'expérience sur un GPU NVIDIA RTX4000 (8 Go).
Ce travail est concédé sous licence Creative Commons Attribution 4.0 International.