***** 2 июня 2022 года: более тонкие модели Finbert доступны *****
Посетите Finbert.ai для получения более подробной информации о недавнем развитии Finbert.
У нас есть тонкая модель Finbert, предварительно предварительную для нескольких финансовых задач NLP, все опережая традиционные модели машинного обучения, модели глубокого обучения и тонкие модели BERT. Все тонкие модели Finbert публично размещены в Huggingface? В частности, у нас есть следующее:
В этом репозиторе,
Фон :
FinBERT -это модель BERT, предварительно обученная текстом финансовой связи. Цель состоит в том, чтобы улучшить исследование и практику NLP в финал. Он обучен следующим трем финансам. Общий размер корпусов составляет 4,9B токена.
FinBERT приводит к современной эффективности по различной финансовой задаче НЛП, включая анализ настроений, классификацию ESG, классификацию отчетов о перспективном отчете (FLS). С выпуском FinBERT , мы надеемся, что практикующие врачи и исследователи смогут использовать FinBERT для более широкого спектра приложений, где цель прогнозирования выходит за рамки настроений, таких как результаты, связанные с финансовыми людьми, включая доходность акций, волатильность акций, корпоративное мошенничество и т. Д.
***** 30 июля 2021 года: мигрировал на Huggingface? *****
Тонко настроенная модель FinBERT для классификации финансовых настроений была загружена и интегрирована с библиотекой transformers HuggingFace. Эта модель точно настроена на 10 000 вручную аннотированные (положительные, отрицательные, нейтральные) предложения из аналитических отчетов. Эта модель достигает превосходной производительности по финансовой задаче Anlaysis. Если вы просто заинтересованы в использовании FinBERT для анализа финансового тона, попробуйте.
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 16 июня 2020 года: предварительно проведенная модель Финберта, выпущенная *****
Мы предоставляем четыре версии предварительно обученных весов Финберта.
FinVocab - это новый словарь Wordiece на нашей Finanical Corpora с использованием библиотеки предложения. Мы производим как обезжиренные, так и неработающие версии FinVocab , размеры 28 573 и 30 873 токена соответственно. Это очень похоже на размеры 28 996 и 30 522 токенов оригинального Bert Cassed и Uncasted BaseVocab .
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
Пожалуйста, опубликуйте проблему GitHub или свяжитесь с [email protected], если у вас есть какие -либо вопросы.