***** 2022年6月2日:より微調整されたFinbertモデルが利用可能*****
Finbert.aiをご覧ください。最近のFinbertの開発の詳細をご覧ください。
いくつかの金融NLPタスク、すべてを上回る従来の機械学習モデル、ディープラーニングモデル、微調整されたBERTモデルには、Finbertの事前に微調整されたモデルが微調整されています。すべての微調整されたFinbertモデルは、Huggingfaceで公開されています。具体的には、次のことがあります。
このgithubリポジトリでは
背景:
FinBERT 、金融通信テキストで事前に訓練されたBERTモデルです。目的は、Finaincal NLPの研究と実践を強化することです。次の3つのフィナニカルコミュニケーションコーパスで訓練されています。合計コーパスサイズは4.9Bトークンです。
FinBERT 、感情分析、ESG分類、将来の見通し声明(FLS)分類など、さまざまな財務NLPタスクの最先端のパフォーマンスをもたらします。 FinBERTのリリースにより、実務家と研究者がFinBERT利用して、株式リターン、株式のボラティリティ、企業詐欺などを含む財務関連の結果など、予測目標が感情を超えているアプリケーションを幅広く利用できることを願っています。
***** 2021年7月30日:Huggingfaceに移住しましたか?*****
財務センチメント分類のための微調整されたFinBERTモデルは、アップロードされ、Huggingfaceのtransformers Libraryと統合されています。このモデルは、アナリストレポートからの10,000の手動注釈付き(肯定的、否定的、中立的な)文で微調整されています。このモデルは、金融トーンAnlaysisタスクで優れたパフォーマンスを実現します。 FinBERT金融トーン分析に使用することに単に興味がある場合は、試してみてください。
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 2020年6月16日:リリースされた事前に保護されたFinbertモデル*****
事前に訓練されたFinbert Weightsの4つのバージョンを提供しています。
FinVocab 、finanical corporaの新しいワードピースの語彙です。サイズはそれぞれ28,573と30,873のトークンのケース型バージョンとレッスされたバージョンのFinVocab生産しています。これは、元のBert CasedおよびNocased BaseVocabの28,996および30,522のトークンサイズに非常に似ています。
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
質問がある場合は、githubの問題を投稿するか、[email protected]にお問い合わせください。