*****
Visite Finbert.ai para mais detalhes sobre o recente desenvolvimento de Finbert.
Nós ajustamos o modelo Finbert pré-levado em várias tarefas financeiras de PNL, todas superando modelos tradicionais de aprendizado de máquina, modelos de aprendizado profundo e modelos Bert de ajuste fino. Todos os modelos de Finbert ajustados são hospedados publicamente no HuggingFace? Especificamente, temos o seguinte:
Neste repo Github,
Fundo :
FinBERT é um modelo Bert pré-treinado em texto de comunicação financeira. O objetivo é aprimorar a pesquisa e a prática da PNL finainCal. É treinado no três corpus de comunicação financeira a seguir. O tamanho total dos corpora é de 4,9b tokens.
FinBERT resulta em desempenho de última geração em várias tarefas financeiras de PNL, incluindo análise de sentimentos, classificação de classificação ESG, classificação de declaração prospectiva (FLS). Com o lançamento de FinBERT , esperamos que os profissionais e pesquisadores possam utilizar FinBERT para uma ampla gama de aplicações em que a meta de previsão vai além do sentimento, como resultados relacionados financeiros, incluindo retornos de ações, volatilidades de ações, fraude corporativa, etc.
***** 30 de julho de 2021: migrou para Huggingface? *****
O modelo de FinBERT , ajustado para classificação de sentimentos financeiros, foi enviado e integrado à Biblioteca transformers da Huggingface. Este modelo é ajustado em 10.000 sentenças anotadas manualmente (positivas, negativas, neutras) dos relatórios dos analistas. Este modelo atinge o desempenho superior na tarefa de tom financeiro anlaysis. Se você está simplesmente interessado em usar FinBERT para análise de tom financeiro, tente.
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 16 de junho de 2020: Modelo Finbert pré -traido lançado *****
Fornecemos quatro versões de pesos Finbert pré-treinados.
FinVocab é um novo vocabulário de palavras em nossa corporação financeira usando a biblioteca da peça de sentença. Produzimos versões casadas e não baseadas do FinVocab , com tamanhos de 28.573 e 30.873 tokens, respectivamente. Isso é muito parecido com os tamanhos de 28.996 e 30.522 token do BaseVocab BASED BERT E ORIGINAL E UNNADED.
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
Por favor, poste um problema do github ou entre em contato com [email protected] se tiver alguma dúvida.