***** 2 de junio de 2022: más modelos de Finbert ajustados disponibles *****
Visite Finbert.ai para obtener más detalles sobre el reciente desarrollo de Finbert.
Tenemos un modelo de metro de Finbert en varias tareas financieras de PNL, todos superan los modelos de aprendizaje automático tradicional, modelos de aprendizaje profundo y modelos Bert sintonizados. ¿Todos los modelos de Finbert ajustados están alojados públicamente en Huggingface? Específicamente, tenemos lo siguiente:
En este repositorio de Github,
Fondo :
FinBERT es un modelo Bert previamente entrenado en el texto de comunicación financiera. El propósito es mejorar la investigación y la práctica del PNL finincal. Está entrenado en los siguientes tres corpus de comunicación finánica. El tamaño de los corpus total es de 4.9b tokens.
FinBERT da como resultado un desempeño de vanguardia en varias tareas financieras de la PNL, incluyendo análisis de sentimientos, clasificación de ESG, clasificación de la declaración con visión de futuro (FLS). Con el lanzamiento de FinBERT , esperamos que los profesionales e investigadores puedan utilizar FinBERT para una gama más amplia de aplicaciones donde el objetivo de predicción va más allá del sentimiento, como los resultados relacionados con el financiamiento, incluidos los rendimientos de las acciones, las volatilidades de las acciones, el fraude corporativo, etc.
***** 30 de julio de 2021: Migrated a Huggingface? *****
El modelo FinBERT ajustado para la clasificación de sentimientos financieros se ha cargado e integrado con la Biblioteca transformers de Huggingface. Este modelo está ajustado en 10,000 oraciones anotadas manualmente (positivas, negativas, neutrales) de los informes de analistas. Este modelo logra un rendimiento superior en el tono financiero anlaysis tarea. Si simplemente está interesado en usar FinBERT para el análisis de tono financiero, pruébelo.
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 16 de junio de 2020: Modelo de Finbert previamente practicado lanzado *****
Proporcionamos cuatro versiones de pesos de Finbert previamente capacitados.
FinVocab es un nuevo vocabulario de obra de palabras sobre nuestros corpus finales utilizando la biblioteca de oraciones. Producimos versiones de FinVocab tanto en carcasa como sin base, con tamaños de 28,573 y 30,873 tokens respectivamente. Esto es muy similar a los tamaños tokens 28,996 y 30,522 del BaseVocab original de Bert y no basado.
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
Publique un problema de GitHub o comuníquese con [email protected] si tiene alguna pregunta.