***** 2 Juni 2022: Lebih banyak model Finbert yang disesuaikan tersedia *****
Kunjungi finbert.ai untuk detail lebih lanjut tentang pengembangan Finbert baru -baru ini.
Kami memiliki model pretrained Finbert yang disempurnakan pada beberapa tugas NLP keuangan, semuanya mengungguli model pembelajaran mesin tradisional, model pembelajaran yang mendalam, dan model Bert yang disempurnakan. Semua model Finbert yang disempurnakan diselenggarakan secara publik di Huggingface ?. Secara khusus, kami memiliki yang berikut:
Dalam repo github ini,
Latar belakang :
FinBERT adalah model Bert yang sudah dilatih sebelumnya tentang teks komunikasi keuangan. Tujuannya adalah untuk meningkatkan penelitian dan praktik NLP finaincal. Ini dilatih pada tiga corpus komunikasi finanikal berikut. Total ukuran korpora adalah 4,9b token.
FinBERT menghasilkan kinerja canggih pada berbagai tugas NLP keuangan, termasuk analisis sentimen, klasifikasi ESG, klasifikasi pernyataan berwawasan ke depan (FLS). Dengan rilis FinBERT , kami berharap para praktisi dan peneliti dapat memanfaatkan FinBERT untuk berbagai aplikasi di mana target prediksi melampaui sentimen, seperti hasil terkait keuangan termasuk pengembalian saham, volatilitas saham, penipuan perusahaan, dll.
***** 30 Juli 2021: Bermigrasi ke Huggingface? *****
Model FinBERT yang disempurnakan untuk klasifikasi sentimen keuangan telah diunggah dan diintegrasikan dengan perpustakaan transformers HuggingFace. Model ini disesuaikan dengan 10.000 kalimat yang dianotasi secara manual (positif, negatif, netral) dari laporan analis. Model ini mencapai kinerja yang unggul pada tugas nada keuangan anlaysis. Jika Anda hanya tertarik menggunakan FinBERT untuk analisis nada keuangan, cobalah.
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 16 Juni 2020: Model Finbert pretrained dirilis *****
Kami menyediakan empat versi bobot Finbert yang sudah terlatih.
FinVocab adalah kosa kata wordpiece baru di perusahaan finanikal kami menggunakan perpustakaan kalimat. Kami memproduksi versi FinVocab yang cased dan uncased, dengan ukuran masing -masing 28.573 dan 30.873 token. Ini sangat mirip dengan ukuran token 28.996 dan 30.522 dari Bert asli Cased dan BaseVocab yang tidak terbagi.
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
Silakan posting masalah github atau hubungi [email protected] jika Anda memiliki pertanyaan.