***** 2022 년 6 월 2 일 : 더 미세 조정 된 핀버트 모델 이용 *****
Finbert의 최근 개발에 대한 자세한 내용은 Finbert.ai를 방문하십시오.
우리는 여러 재무 NLP 작업에 대한 미세 조정 된 Finbert 사전 제기 모델, 전통적인 기계 학습 모델, 딥 러닝 모델 및 미세 조정 된 버트 모델을 능가했습니다. 모든 미세 조정 된 Finbert 모델은 Huggingface에서 공개적으로 호스팅됩니다. 구체적으로, 우리는 다음과 같습니다.
이 Github Repo에서
배경 :
FinBERT 금융 커뮤니케이션 텍스트에 미리 훈련 된 BERT 모델입니다. 목적은 Finaincal NLP 연구 및 실습을 향상시키는 것입니다. 다음 세 가지 Finanical Communication Corpus에 대해 교육을 받았습니다. 총 코퍼라 크기는 4.9b 토큰입니다.
FinBERT 감정 분석, ESG 분류, FLS (Forder-Loking Dation) 분류를 포함하여 다양한 재무 NLP 작업에 대한 최첨단 성과를 초래합니다. FinBERT 출시되면서 실무자와 연구원들은 FinBERT 활용하여 예측 목표가 주식 수익률, 주식 변동성, 기업 사기 등을 포함한 재무 관련 결과와 같은 감정을 넘어서는 더 넓은 범위의 응용 프로그램을 활용할 수 있기를 바랍니다.
***** 2021 년 7 월 30 일 : Huggingface로 이주? *****
금융 감정 분류를위한 미세 조정 된 FinBERT 모델이 업로드되어 Huggingface의 transformers 라이브러리와 통합되었습니다. 이 모델은 분석가 보고서의 수동으로 주석이 달린 (양수, 부정, 중립) 문장에서 미세 조정됩니다. 이 모델은 금융 톤 Anlaysis 작업에서 우수한 성능을 달성합니다. 금융 톤 분석을 위해 FinBERT 사용하는 데 관심이 있다면 시도해보십시오.
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 2020 년 6 월 16 일 : 사전 상사 핀버트 모델 출시 *****
우리는 미리 훈련 된 핀버트 가중치의 네 가지 버전을 제공합니다.
FinVocab SentencePiece Library를 사용하는 Finanical Corpora의 새로운 단어 어휘입니다. 우리는 각각 28,573 및 30,873 개의 토큰의 크기를 가진 FinVocab 버전의 Finvocab 버전을 생산합니다. 이는 원래 버트 케이스 및 미지급 BaseVocab 의 28,996 및 30,522 토큰 크기와 매우 유사합니다.
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
질문이 있으시면 github 문제를 게시하거나 [email protected]에 문의하십시오.