مكتبة قائمة على المحولات لمهام SocialNLP.
يدعم حاليا:
| مهمة | اللغات |
|---|---|
| تحليل المشاعر | es ، en ، it ، pt |
| الكراهية الكراهية | es ، en ، it ، pt |
| الكشف المفارقة | es ، en ، it ، pt |
| تحليل العاطفة | es ، en ، it ، pt |
| علامات NER & POS | es ، en |
| الكشف عن خطاب الكراهية السياقية | ES |
| تحليل المشاعر المستهدفة | ES |
فقط قم pip install pysentimiento وابدأ في استخدامه:
from pysentimiento import create_analyzer
analyzer = create_analyzer ( task = "sentiment" , lang = "es" )
analyzer . predict ( "Qué gran jugador es Messi" )
# returns AnalyzerOutput(output=POS, probas={POS: 0.998, NEG: 0.002, NEU: 0.000})
analyzer . predict ( "Esto es pésimo" )
# returns AnalyzerOutput(output=NEG, probas={NEG: 0.999, POS: 0.001, NEU: 0.000})
analyzer . predict ( "Qué es esto?" )
# returns AnalyzerOutput(output=NEU, probas={NEU: 0.993, NEG: 0.005, POS: 0.002})
analyzer . predict ( "jejeje no te creo mucho" )
# AnalyzerOutput(output=NEG, probas={NEG: 0.587, NEU: 0.408, POS: 0.005})
"""
Emotion Analysis in English
"""
emotion_analyzer = create_analyzer ( task = "emotion" , lang = "en" )
emotion_analyzer . predict ( "yayyy" )
# returns AnalyzerOutput(output=joy, probas={joy: 0.723, others: 0.198, surprise: 0.038, disgust: 0.011, sadness: 0.011, fear: 0.010, anger: 0.009})
emotion_analyzer . predict ( "fuck off" )
# returns AnalyzerOutput(output=anger, probas={anger: 0.798, surprise: 0.055, fear: 0.040, disgust: 0.036, joy: 0.028, others: 0.023, sadness: 0.019})
"""
Hate Speech (misogyny & racism)
"""
hate_speech_analyzer = create_analyzer ( task = "hate_speech" , lang = "es" )
hate_speech_analyzer . predict ( "Esto es una mierda pero no es odio" )
# returns AnalyzerOutput(output=[], probas={hateful: 0.022, targeted: 0.009, aggressive: 0.018})
hate_speech_analyzer . predict ( "Esto es odio porque los inmigrantes deben ser aniquilados" )
# returns AnalyzerOutput(output=['hateful'], probas={hateful: 0.835, targeted: 0.008, aggressive: 0.476})
hate_speech_analyzer . predict ( "Vaya guarra barata y de poca monta es XXXX!" )
# returns AnalyzerOutput(output=['hateful', 'targeted', 'aggressive'], probas={hateful: 0.987, targeted: 0.978, aggressive: 0.969})انظر المهام لمزيد من التفاصيل حول المهام واللغات المدعومة ، وكذلك للحصول على الأداء المبلغ عنها لكل طراز معياري.
أيضا ، تحقق من هذه الدفاتر مع أمثلة حول كيفية استخدام pysentimiento لكل لغة:
يتميز pysentimiento بمعالج مسبق تغريدة مناسبة بشكل خاص لتصنيف تغريدة مع نماذج قائمة على المحولات.
from pysentimiento . preprocessing import preprocess_tweet
# Replaces user handles and URLs by special tokens
preprocess_tweet ( "@perezjotaeme debería cambiar esto http://bit.ly/sarasa" ) # "@usuario debería cambiar esto url"
# Shortens repeated characters
preprocess_tweet ( "no entiendo naaaaaaaadaaaaaaaa" , shorten = 2 ) # "no entiendo naadaa"
# Normalizes laughters
preprocess_tweet ( "jajajajaajjajaajajaja no lo puedo creer ajajaj" ) # "jaja no lo puedo creer jaja"
# Handles hashtags
preprocess_tweet ( "esto es #UnaGenialidad" )
# "esto es una genialidad"
# Handles emojis
preprocess_tweet ( "??" , lang = "en" )
# 'emoji party popper emoji emoji party popper emoji' git clone https://github.com/pysentimiento/pysentimiento
pip install poetry
poetry shell
poetry install
تحقق من Train.md لمزيد من المعلومات حول كيفية تدريب النماذج الخاصة بك
ملاحظة: تحتاج إلى الوصول إلى مجموعات البيانات ، والتي ليست عامة في الوقت الحالي. أرسل لنا بريدًا إلكترونيًا للوصول إليها.
تحقق من تعليمات "مشاركة النموذج وتحميلها" في مستندات huggingface .
pysentimiento هي مكتبة مفتوحة المصدر. ومع ذلك ، يرجى العلم بأن النماذج يتم تدريبها مع مجموعات بيانات الطرف الثالث وتخضع لتراخيصها الخاصة ، والعديد منها مخصصة للاستخدام غير التجاري
ترخيص مجموعة بيانات Tass (ترخيص لتحليل المشاعر باللغة الإسبانية ، وتحليل العاطفة باللغة الإسبانية والإنجليزية)
ترخيص مجموعة بيانات Semeval 2017 (تحليل المشاعر باللغة الإنجليزية)
مجموعات بيانات Lince (ترخيص لعلامة NER & POS)
يرجى استخدام متتبع مشكلة المستودع للإشارة إلى الأخطاء وتقديم الاقتراحات (نماذج جديدة ، واستخدام مجموعات بيانات أخرى ، وبعض اللغات الأخرى ، إلخ)
إذا كنت تستخدم pysentimiento في عملك ، يرجى الاستشهاد بهذه الورقة
@misc { perez2021pysentimiento ,
title = { pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks } ,
author = { Juan Manuel Pérez and Mariela Rajngewerc and Juan Carlos Giudici and Damián A. Furman and Franco Luque and Laura Alonso Alemany and María Vanina Martínez } ,
year = { 2023 } ,
eprint = { 2106.09462 } ,a
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}أيضًا ، استشهدت الإطراءات بالرسائل المسبقة التي تم تدريبها مسبقًا على النماذج المحددة التي تستخدمها. تحقق من المراجع للحصول على التفاصيل.