***** 2 juin 2022: Plus de modèles Finbert affinés disponibles *****
Visitez Finbert.ai pour plus de détails sur le développement récent de Finbert.
Nous avons un modèle pré-étiré Finbert ajusté sur plusieurs tâches Financières NLP, tous surperformant des modèles d'apprentissage automatique traditionnels, des modèles d'apprentissage en profondeur et des modèles BERT affinés. Tous les modèles Finbert affinés sont hébergés publiquement à Huggingface ?. Plus précisément, nous avons ce qui suit:
Dans ce repo github,
Arrière-plan :
FinBERT est un modèle Bert pré-formé sur le texte de la communication financière. Le but est d'améliorer la recherche et la pratique de la PNL finaincale. Il est formé sur les trois corpus de communication finanique suivants. La taille totale des corpus est de 4,9 milliards de jetons.
FinBERT entraîne des performances de pointe sur diverses tâches financières de la PNL, notamment l'analyse des sentiments, la classification ESG, la classification des déclarations prospectives (FLS). Avec la publication de FinBERT , nous espérons que les praticiens et les chercheurs pourront utiliser FinBERT pour un plus large éventail de demandes où l'objectif de prédiction va au-delà du sentiment, tels que les résultats liés aux finances, notamment les rendements boursiers, les volatilités des actions, la fraude d'entreprise, etc.
***** 30 juillet 2021: Migré vers HuggingFace? *****
Le modèle FinBERT ajusté pour la classification des sentiments financiers a été téléchargé et intégré à la bibliothèque transformers de HuggingFace. Ce modèle est affiné sur 10 000 phrases annotées manuellement (positives, négatives, neutres) des rapports d'analystes. Ce modèle obtient des performances supérieures sur la tâche financière Anlaysis. Si vous êtes simplement intéressé à utiliser FinBERT pour l'analyse du ton financier, essayez-le.
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 16 juin 2020: modèle de finbert pré-entraîné sorti *****
Nous fournissons quatre versions de poids Finbert pré-formés.
FinVocab est un nouveau vocabulaire de la pièce sur nos corpus finaniques à l'aide de la bibliothèque de phrases. Nous produisons respectivement des versions en boîtier et non cuites de FinVocab , avec des tailles de 28 573 et 30 873 jetons. Ceci est très similaire aux tailles de jetons de 28 996 et 30 522 des tailles d'origine du Bert Bert et BaseVocab non cuites.
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
Veuillez publier un problème GitHub ou contactez [email protected] si vous avez des questions.