
Fintwitbert هو نموذج لغوي تم تدريبه خصيصًا على فهم وتحليل المحادثات المالية على Twitter. إنه مصمم لالتقاط الطرق الفريدة التي يتحدث بها الناس عن التمويل عبر الإنترنت ، مما يجعلها أداة قيمة لأي شخص مهتم بالاتجاهات والمشاعر المالية التي يتم التعبير عنها من خلال التغريدات.
يمكن أن يكون فهم الأسواق المالية أمرًا صعبًا ، خاصة عند تحليل القدر الهائل من الآراء والمناقشات على وسائل التواصل الاجتماعي. Fintwitbert موجود هنا لفهم المحادثات المالية على Twitter. إنها أداة متخصصة تفسر اللغة الفريدة والاختصارات المستخدمة في التغريدات المالية ، مما يساعد المستخدمين على اكتساب رؤى في اتجاهات السوق والمشاعر.
تم تطوير هذا النموذج لملء الفجوة في أدوات معالجة اللغة التقليدية ، والتي غالباً ما تكافح مع الاختزال والمصطلحات الموجودة في التغريدات المالية. سواء كنت محترفًا ماليًا ، أو متحمسًا للسوق ، أو أي شخص فضولي بشأن الاتجاهات المالية على وسائل التواصل الاجتماعي ، فإن Fintwitbert يقدم حلاً سهل الاستخدام للتنقل وفهم هذه المناقشات.
تستخدم Fintwitbert مجموعة متنوعة من التغريدات المالية للتدريب المسبق ، بما في ذلك بيانات Taborda et al. في سوق الأوراق المالية مع أكثر من 940 ألف تغريدة ، ومجموعة البيانات الخاصة بنا ، التغريدات المالية ، مع إحصاءات مفصلة أدناه.
من أجل Finetuning ، نستخدم العديد من مجموعات البيانات ، كل منها يقدم مشاعر متنوعة في السياقات المالية. يمكن العثور على مجموعة من مجموعات البيانات في العالم الحقيقي على Luggingface. علاوة على ذلك ، أنشأنا أيضًا مجموعة بيانات اصطناعية تحتوي على 1.43 مليون تغريدة وعلامات المشاعر المقابلة. يمكنك العثور على مجموعة البيانات هذه هنا.
يعتمد Fintwitbert على Finbert مع أقنعة إضافية لإشارات المستخدم ( @USER ) و urls ( [URL] ). يتم تدريب النموذج مسبقًا على 10 عصر مع التركيز على تقليل الخسارة وتطبيق التوقف المبكر لمنع التجاوز.
الوصول إلى النموذج الذي تم تدريبه مسبقًا و Tokenizer في Fintwitbert على Huggingface. للحصول على النسخة المضبوطة ، تفضل بزيارة Fintwitbert-Sentiment على Huggingface.
# Clone this repository
git clone https://github.com/TimKoornstra/FinTwitBERT
# Install required packages
pip install -r requirements.txtنحن نقدم نموذجين: Fintwitbert و Fintwitbert-Sentiment. الأول هو نموذج مدرب مسبقًا ورمزًا للنمذجة اللغوية المقنعة (MLM) والذي يمكن أن يتم تحريكه للمهام الأخرى مثل تحليل المشاعر. هذا هو ما يدور حوله النموذج الثاني ، يتم ضبطه بشكل جيد على تحليل المشاعر وتغريد الملصقات إلى ثلاث فئات: الهبوط ، المحايد ، والثور.
from transformers import pipeline
pipe = pipeline (
"fill-mask" ,
model = "StephanAkkerman/FinTwitBERT" ,
)
print ( pipe ( "Bitcoin is a [MASK] coin." )) from transformers import pipeline
pipe = pipeline (
"sentiment-analysis" ,
model = "StephanAkkerman/FinTwitBERT-sentiment" ,
)
print ( pipe ( "Nice 9% pre market move for $para, pump my calls Uncle Buffett ?" )) إذا كنت ترغب في تدريب هذا النموذج بنفسك والإبلاغ عن المقاييس إلى الأوزان والتحيزات (Wandb.ai). يمكنك القيام بذلك عن طريق إضافة ملف wandb.env مع المحتوى التالي: WANDB_API_KEY=your_wandb_api_key .
إذا كنت تستخدم Fintwitbert أو Fintwitbert-Sentiment في بحثك ، فيرجى الاستشهاد بنا على النحو التالي ، مشيرة إلى أن كلا المؤلفين ساهموا بالتساوي في هذا العمل:
@misc { FinTwitBERT ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT: A Specialized Language Model for Financial Tweets } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/TimKoornstra/FinTwitBERT} }
} @misc { FinTwitBERT-sentiment ,
author = { Stephan Akkerman, Tim Koornstra } ,
title = { FinTwitBERT-sentiment: A Sentiment Classifier for Financial Tweets } ,
year = { 2024 } ,
publisher = { Hugging Face } ,
howpublished = { url{https://huggingface.co/StephanAkkerman/FinTwitBERT-sentiment} }
}المساهمات مرحب بها! إذا كان لديك طلب ميزة ، أو تقرير الأخطاء ، أو اقتراح لإعادة إنشاء الكود ، فلا تتردد في فتح مشكلة على GitHub. نحن نقدر مساعدتكم في تحسين هذا المشروع.
تم ترخيص هذا المشروع بموجب ترخيص GPL-3.0. انظر ملف الترخيص للحصول على التفاصيل.