
Fintwitbert เป็นรูปแบบภาษาที่ได้รับการฝึกฝนโดยเฉพาะเพื่อทำความเข้าใจและวิเคราะห์การสนทนาทางการเงินบน Twitter มันถูกออกแบบมาเพื่อรับวิธีที่ไม่เหมือนใครที่ผู้คนพูดถึงเรื่องการเงินออนไลน์ทำให้เป็นเครื่องมือที่มีค่าสำหรับทุกคนที่สนใจแนวโน้มทางการเงินและความรู้สึกที่แสดงออกผ่านทวีต
การทำความเข้าใจกับตลาดการเงินอาจเป็นเรื่องที่ท้าทายโดยเฉพาะอย่างยิ่งเมื่อวิเคราะห์ความคิดเห็นและการอภิปรายเกี่ยวกับโซเชียลมีเดียจำนวนมาก Fintwitbert อยู่ที่นี่เพื่อให้เข้าใจถึงการสนทนาทางการเงินบน Twitter มันเป็นเครื่องมือพิเศษที่ตีความภาษาและตัวย่อที่ไม่ซ้ำกันที่ใช้ในทวีตทางการเงินช่วยให้ผู้ใช้ได้รับข้อมูลเชิงลึกเกี่ยวกับแนวโน้มของตลาดและความรู้สึก
แบบจำลองนี้ได้รับการพัฒนาขึ้นเพื่อเติมเต็มช่องว่างในเครื่องมือประมวลผลภาษาแบบดั้งเดิมซึ่งมักจะต่อสู้กับชวเลขและศัพท์แสงที่พบในทวีตทางการเงิน ไม่ว่าคุณจะเป็นมืออาชีพด้านการเงินผู้ที่ชื่นชอบการตลาดหรือคนที่อยากรู้อยากเห็นเกี่ยวกับแนวโน้มทางการเงินในโซเชียลมีเดีย Fintwitbert เสนอทางออกที่ง่ายต่อการใช้เพื่อนำทางและทำความเข้าใจการสนทนาเหล่านี้
Fintwitbert ใช้ชุดทวีตทางการเงินที่หลากหลายสำหรับการฝึกอบรมก่อนรวมถึง Taborda et al. หุ้นของตลาดหุ้นที่มีทวีตมากกว่า 940k และชุดข้อมูลของเราทวีตทางการเงินพร้อมสถิติโดยละเอียดด้านล่าง
สำหรับ Finetuning เราใช้ชุดข้อมูลหลายชุดแต่ละข้อเสนอความรู้สึกที่หลากหลายในบริบททางการเงิน คอลเลกชันของชุดข้อมูลจริงที่มีป้ายกำกับสามารถพบได้ใน HuggingFace ยิ่งไปกว่านั้นเรายังสร้างชุดข้อมูลสังเคราะห์ที่มีทวีต 1.43m และฉลากความเชื่อมั่นที่สอดคล้องกัน คุณสามารถค้นหาชุดข้อมูลนั้นได้ที่นี่
Fintwitbert ตั้งอยู่บนพื้นฐานของ Finbert พร้อมหน้ากากเพิ่มเติมสำหรับผู้ใช้ที่กล่าวถึง ( @USER ) และ URL ( [URL] ) โมเดลได้รับการฝึกอบรมล่วงหน้าเป็นเวลา 10 ยุคโดยมุ่งเน้นที่การลดการสูญเสียและการใช้การหยุดเร็วเพื่อป้องกันไม่ให้มีการ overfitting
เข้าถึงโมเดลที่ผ่านการฝึกอบรมมาก่อนและโทเค็นที่ Fintwitbert บน HuggingFace สำหรับเวอร์ชันที่ปรับแต่งได้เยี่ยมชม Fintwitbert-Sentiment บน HuggingFace
# Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txtเรานำเสนอสองรุ่น: Fintwitbert และ Fintwitbert-Sentiment ครั้งแรกคือโมเดลที่ผ่านการฝึกอบรมมาก่อนและโทเค็นสำหรับการสร้างแบบจำลองภาษาที่สวมหน้ากาก (MLM) ซึ่งสามารถ finetuned สำหรับงานอื่น ๆ เช่นการวิเคราะห์ความเชื่อมั่น นี่คือสิ่งที่โมเดลที่สองเกี่ยวกับมันได้รับการปรับแต่งการวิเคราะห์ความเชื่อมั่นและฉลากทวีตเป็นสามประเภท: หมี, เป็นกลางและรั้น
from transformers import pipeline
pipe = pipeline (
"fill-mask" ,
model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." )) from transformers import pipeline
pipe = pipeline (
"sentiment-analysis" ,
model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)
print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" )) หากคุณต้องการฝึกอบรมแบบจำลองนี้ด้วยตัวคุณเองและรายงานการวัดต่อน้ำหนักและอคติ (wandb.ai) คุณสามารถทำได้โดยการเพิ่มไฟล์ wandb.env ด้วยเนื้อหาต่อไปนี้: WANDB_API_KEY=your_wandb_api_key
หากคุณใช้ Fintwitbert หรือ Fintwitbert-sentiment ในการวิจัยของคุณโปรดอ้างอิงเราดังนี้โดยสังเกตว่าผู้เขียนทั้งสองมีส่วนร่วมอย่างเท่าเทียมกันในงานนี้:
@misc { FinTwitBERT ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
} @misc { FinTwitBERT-sentiment ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
year = { 2024 } ,
publisher = { Hugging Face } ,
howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}ยินดีต้อนรับ! หากคุณมีคำขอคุณลักษณะรายงานข้อผิดพลาดหรือข้อเสนอสำหรับการปรับโครงสร้างรหัสโปรดเปิดปัญหาเกี่ยวกับ GitHub ขอขอบคุณสำหรับความช่วยเหลือในการปรับปรุงโครงการนี้
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต GPL-3.0 ดูไฟล์ใบอนุญาตสำหรับรายละเอียด