***** 2 มิถุนายน 2022: มีรุ่น Finbert ที่ปรับแต่งได้ดีขึ้น *****
เยี่ยมชม finbert.ai สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการพัฒนาล่าสุดของ Finbert
เรามีรูปแบบ Finbert ที่ได้รับการปรับแต่งอย่างละเอียดเกี่ยวกับงาน NLP ทางการเงินหลายอย่างที่มีประสิทธิภาพสูงกว่ารูปแบบการเรียนรู้ของเครื่องจักรแบบดั้งเดิมแบบจำลองการเรียนรู้เชิงลึกและแบบจำลองเบิร์ตที่ปรับจูน โมเดล Finbert ที่ได้รับการปรับแต่งทั้งหมดเป็นเจ้าภาพในที่สาธารณะที่ Huggingface? โดยเฉพาะเรามีสิ่งต่อไปนี้:
ใน repo github นี้
ความเป็นมา :
FinBERT เป็นรุ่น Bert ที่ผ่านการฝึกอบรมล่วงหน้าเกี่ยวกับข้อความการสื่อสารทางการเงิน วัตถุประสงค์คือเพื่อปรับปรุงการวิจัยและการปฏิบัติ Finaincal NLP ได้รับการฝึกฝนเกี่ยวกับคลังการสื่อสารสามประการต่อไปนี้ ขนาดทั้งหมดของ corpora คือ 4.9b โทเค็น
FinBERT ส่งผลให้ประสิทธิภาพการทำงานที่ล้ำสมัยในงาน NLP ทางการเงินที่หลากหลายรวมถึงการวิเคราะห์ความเชื่อมั่นการจำแนก ESG การจัดหมวดหมู่การคาดการณ์ล่วงหน้า (FLS) ด้วยการเปิดตัว FinBERT เราหวังว่าผู้ปฏิบัติงานและนักวิจัยสามารถใช้ FinBERT สำหรับแอพพลิเคชั่นที่หลากหลายซึ่งเป้าหมายการทำนายเกินกว่าความเชื่อมั่นเช่นผลลัพธ์ที่เกี่ยวข้องกับการเงินรวมถึงผลตอบแทนหุ้นความผันผวนของหุ้นการฉ้อโกงขององค์กร ฯลฯ
***** 30 กรกฎาคม 2021: อพยพไป Huggingface? *****
รูปแบบ FinBERT ที่ปรับแต่งอย่างละเอียดสำหรับการจำแนกความเชื่อมั่นทางการเงินได้รับการอัปโหลดและรวมเข้ากับห้องสมุด transformers ของ HuggingFace โมเดลนี้ได้รับการปรับแต่งอย่างละเอียดในประโยคที่มีคำอธิบายประกอบด้วยตนเอง 10,000 ประโยค (บวกลบเป็นกลาง) จากรายงานนักวิเคราะห์ โมเดลนี้ประสบความสำเร็จในการทำงานที่เหนือกว่าในงาน Tone Anlaysis หากคุณสนใจที่จะใช้ FinBERT สำหรับการวิเคราะห์น้ำเสียงทางการเงินลองดู
from transformers import BertTokenizer , BertForSequenceClassification
import numpy as np
finbert = BertForSequenceClassification . from_pretrained ( 'yiyanghkust/finbert-tone' , num_labels = 3 )
tokenizer = BertTokenizer . from_pretrained ( 'yiyanghkust/finbert-tone' )
sentences = [ "there is a shortage of capital, and we need extra financing" ,
"growth is strong and we have plenty of liquidity" ,
"there are doubts about our finances" ,
"profits are flat" ]
inputs = tokenizer ( sentences , return_tensors = "pt" , padding = True )
outputs = finbert ( ** inputs ) [ 0 ]
labels = { 0 : 'neutral' , 1 : 'positive' , 2 : 'negative' }
for idx , sent in enumerate ( sentences ) :
print ( sent , '----' , labels [ np . argmax ( outputs . detach ( ) . numpy ( ) [ idx ] ) ] )
'' '
there is a shortage of capital , and we need extra financing -- -- negative
growth is strong and we have plenty of liquidity -- -- positive
there are doubts about our finances -- -- negative
profits are flat -- -- neutral
'' '
***** 16 มิ.ย. 2020: รุ่น Finbert ที่ได้รับการปล่อยตัวออกมา *****
เราให้น้ำหนัก Finbert ที่ผ่านการฝึกอบรมล่วงหน้าสี่รุ่น
FinVocab เป็นคำศัพท์ WordPiece ใหม่บน corpora finanical ของเราโดยใช้ห้องสมุดประโยคประโยค เราผลิต FinVocab ทั้งแบบซอกและรุ่นที่ไม่มีขนาดใหญ่ด้วยโทเค็น 28,573 และ 30,873 ตามลำดับ สิ่งนี้คล้ายกับขนาดโทเค็น 28,996 และ 30,522 ของ Bert Cased ดั้งเดิมและ BaseVocab ที่ไม่ได้ใช้งาน
@misc{yang2020finbert,
title={FinBERT: A Pretrained Language Model for Financial Communications},
author={Yi Yang and Mark Christopher Siy UY and Allen Huang},
year={2020},
eprint={2006.08097},
archivePrefix={arXiv},
}
กรุณาโพสต์ปัญหา GitHub หรือติดต่อ [email protected] หากคุณมีคำถามใด ๆ