Una biblioteca basada en transformadores para tareas de SocialNLP.
Actualmente es compatible:
| Tarea | Lenguas |
|---|---|
| Análisis de sentimientos | es, en, it, pt |
| Detección de discursos de odio | es, en, it, pt |
| Detección de ironía | es, en, it, pt |
| Análisis de emociones | es, en, it, pt |
| Etiquetado ner & pos | es, es |
| Detección de discursos de odio contextualizado | cepalle |
| Análisis de sentimientos dirigidos | cepalle |
Simplemente haga pip install pysentimiento y comience a usarlo:
from pysentimiento import create_analyzer
analyzer = create_analyzer ( task = "sentiment" , lang = "es" )
analyzer . predict ( "Qué gran jugador es Messi" )
# returns AnalyzerOutput(output=POS, probas={POS: 0.998, NEG: 0.002, NEU: 0.000})
analyzer . predict ( "Esto es pésimo" )
# returns AnalyzerOutput(output=NEG, probas={NEG: 0.999, POS: 0.001, NEU: 0.000})
analyzer . predict ( "Qué es esto?" )
# returns AnalyzerOutput(output=NEU, probas={NEU: 0.993, NEG: 0.005, POS: 0.002})
analyzer . predict ( "jejeje no te creo mucho" )
# AnalyzerOutput(output=NEG, probas={NEG: 0.587, NEU: 0.408, POS: 0.005})
"""
Emotion Analysis in English
"""
emotion_analyzer = create_analyzer ( task = "emotion" , lang = "en" )
emotion_analyzer . predict ( "yayyy" )
# returns AnalyzerOutput(output=joy, probas={joy: 0.723, others: 0.198, surprise: 0.038, disgust: 0.011, sadness: 0.011, fear: 0.010, anger: 0.009})
emotion_analyzer . predict ( "fuck off" )
# returns AnalyzerOutput(output=anger, probas={anger: 0.798, surprise: 0.055, fear: 0.040, disgust: 0.036, joy: 0.028, others: 0.023, sadness: 0.019})
"""
Hate Speech (misogyny & racism)
"""
hate_speech_analyzer = create_analyzer ( task = "hate_speech" , lang = "es" )
hate_speech_analyzer . predict ( "Esto es una mierda pero no es odio" )
# returns AnalyzerOutput(output=[], probas={hateful: 0.022, targeted: 0.009, aggressive: 0.018})
hate_speech_analyzer . predict ( "Esto es odio porque los inmigrantes deben ser aniquilados" )
# returns AnalyzerOutput(output=['hateful'], probas={hateful: 0.835, targeted: 0.008, aggressive: 0.476})
hate_speech_analyzer . predict ( "Vaya guarra barata y de poca monta es XXXX!" )
# returns AnalyzerOutput(output=['hateful', 'targeted', 'aggressive'], probas={hateful: 0.987, targeted: 0.978, aggressive: 0.969})Consulte las tareas para obtener más detalles sobre las tareas e idiomas compatibles, y también para el rendimiento informado para cada modelo de referencia.
Además, consulte estos cuadernos con ejemplos de cómo usar pysentimiento para cada idioma:
pysentimiento presenta un preprocesador de tweet especialmente adecuado para la clasificación de tweets con modelos basados en transformadores.
from pysentimiento . preprocessing import preprocess_tweet
# Replaces user handles and URLs by special tokens
preprocess_tweet ( "@perezjotaeme debería cambiar esto http://bit.ly/sarasa" ) # "@usuario debería cambiar esto url"
# Shortens repeated characters
preprocess_tweet ( "no entiendo naaaaaaaadaaaaaaaa" , shorten = 2 ) # "no entiendo naadaa"
# Normalizes laughters
preprocess_tweet ( "jajajajaajjajaajajaja no lo puedo creer ajajaj" ) # "jaja no lo puedo creer jaja"
# Handles hashtags
preprocess_tweet ( "esto es #UnaGenialidad" )
# "esto es una genialidad"
# Handles emojis
preprocess_tweet ( "??" , lang = "en" )
# 'emoji party popper emoji emoji party popper emoji' git clone https://github.com/pysentimiento/pysentimiento
pip install poetry
poetry shell
poetry install
Consulte Train.MD para obtener más información sobre cómo entrenar a sus modelos
Nota: Necesita acceso a los conjuntos de datos, que no son públicos por el momento. Envíenos un correo electrónico para obtener acceso a ellos.
Verifique las instrucciones de "compartir y cargar el modelo" en los documentos huggingface .
pysentimiento es una biblioteca de código abierto. Sin embargo, tenga en cuenta que los modelos están capacitados con conjuntos de datos de terceros y están sujetos a sus respectivas licencias, muchos de los cuales son para uso no comercial.
Licencia de conjunto de datos TASS (Licencia para el análisis de sentimientos en español, análisis de emociones en español e inglés)
Licencia de conjunto de datos Semeval 2017 (análisis de sentimientos en inglés)
Conjuntos de datos de Lince (licencia para etiquetado NER y POS)
Utilice el rastreador de problemas del repositorio para señalar errores y hacer sugerencias (nuevos modelos, usar otros conjuntos de datos, otros idiomas, etc.)
Si usa pysentimiento en su trabajo, cite este documento
@misc { perez2021pysentimiento ,
title = { pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks } ,
author = { Juan Manuel Pérez and Mariela Rajngewerc and Juan Carlos Giudici and Damián A. Furman and Franco Luque and Laura Alonso Alemany and María Vanina Martínez } ,
year = { 2023 } ,
eprint = { 2106.09462 } ,a
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}Además, Pleace cite modelos y conjuntos de datos previamente capacitados relacionados para los modelos específicos que utiliza. Verifique las referencias para más detalles.