Download pysentimiento - Download Kode Sumber pysentimiento

pysentimiento

Kode sumber lainnya

1.0.0

Unduh

PysentiMiento: Toolkit Python untuk Analisis Sentimen dan Tugas NLP Sosial

Perpustakaan berbasis transformator untuk tugas SocialNLP.

Saat ini mendukung:

Tugas	Bahasa
Analisis sentimen	es, en, it, pt
Deteksi Pidato Benci	es, en, it, pt
Deteksi ironi	es, en, it, pt
Analisis emosi	es, en, it, pt
Ner & Pos Tagging	es, en
Deteksi wicara kebencian kontekstual	es
Analisis sentimen yang ditargetkan	es

Lakukan saja pip install pysentimiento dan mulailah menggunakannya:

Memulai

 from pysentimiento import create_analyzer
analyzer = create_analyzer ( task = "sentiment" , lang = "es" )

analyzer . predict ( "Qué gran jugador es Messi" )
# returns AnalyzerOutput(output=POS, probas={POS: 0.998, NEG: 0.002, NEU: 0.000})
analyzer . predict ( "Esto es pésimo" )
# returns AnalyzerOutput(output=NEG, probas={NEG: 0.999, POS: 0.001, NEU: 0.000})
analyzer . predict ( "Qué es esto?" )
# returns AnalyzerOutput(output=NEU, probas={NEU: 0.993, NEG: 0.005, POS: 0.002})

analyzer . predict ( "jejeje no te creo mucho" )
# AnalyzerOutput(output=NEG, probas={NEG: 0.587, NEU: 0.408, POS: 0.005})
"""
Emotion Analysis in English
"""

emotion_analyzer = create_analyzer ( task = "emotion" , lang = "en" )

emotion_analyzer . predict ( "yayyy" )
# returns AnalyzerOutput(output=joy, probas={joy: 0.723, others: 0.198, surprise: 0.038, disgust: 0.011, sadness: 0.011, fear: 0.010, anger: 0.009})
emotion_analyzer . predict ( "fuck off" )
# returns AnalyzerOutput(output=anger, probas={anger: 0.798, surprise: 0.055, fear: 0.040, disgust: 0.036, joy: 0.028, others: 0.023, sadness: 0.019})

"""
Hate Speech (misogyny & racism)
"""
hate_speech_analyzer = create_analyzer ( task = "hate_speech" , lang = "es" )

hate_speech_analyzer . predict ( "Esto es una mierda pero no es odio" )
# returns AnalyzerOutput(output=[], probas={hateful: 0.022, targeted: 0.009, aggressive: 0.018})
hate_speech_analyzer . predict ( "Esto es odio porque los inmigrantes deben ser aniquilados" )
# returns AnalyzerOutput(output=['hateful'], probas={hateful: 0.835, targeted: 0.008, aggressive: 0.476})

hate_speech_analyzer . predict ( "Vaya guarra barata y de poca monta es XXXX!" )
# returns AnalyzerOutput(output=['hateful', 'targeted', 'aggressive'], probas={hateful: 0.987, targeted: 0.978, aggressive: 0.969})

Lihat tugas untuk detail lebih lanjut tentang tugas dan bahasa yang didukung, dan juga untuk kinerja yang dilaporkan untuk setiap model pembandingan.

Juga, periksa buku catatan ini dengan contoh cara menggunakan pysentimiento untuk setiap bahasa:

Spanyol + Bahasa Inggris
Italia
Portugis
Pidato kebencian kontekstual - Spanyol

Preprocessing

pysentimiento menampilkan preprocessor tweet yang sangat cocok untuk klasifikasi tweet dengan model berbasis transformator.

 from pysentimiento . preprocessing import preprocess_tweet

# Replaces user handles and URLs by special tokens
preprocess_tweet ( "@perezjotaeme debería cambiar esto http://bit.ly/sarasa" ) # "@usuario debería cambiar esto url"

# Shortens repeated characters
preprocess_tweet ( "no entiendo naaaaaaaadaaaaaaaa" , shorten = 2 ) # "no entiendo naadaa"

# Normalizes laughters
preprocess_tweet ( "jajajajaajjajaajajaja no lo puedo creer ajajaj" ) # "jaja no lo puedo creer jaja"

# Handles hashtags
preprocess_tweet ( "esto es #UnaGenialidad" )
# "esto es una genialidad"

# Handles emojis
preprocess_tweet ( "??" , lang = "en" )
# 'emoji party popper emoji emoji party popper emoji'

Instruksi untuk pengembang

Klon dan instal

 git clone https://github.com/pysentimiento/pysentimiento
pip install poetry
poetry shell
poetry install

Jalankan skrip untuk melatih model

Periksa train.md untuk informasi lebih lanjut tentang cara melatih model Anda

Catatan: Anda memerlukan akses ke set data, yang bukan publik untuk saat ini. Kirimi kami email untuk mendapatkan akses ke mereka.

Unggah model ke hub model HuggingFace

Periksa instruksi "Berbagi dan Unggah Model" di huggingface Docs.

Lisensi

pysentimiento adalah perpustakaan open-source. Namun, Perlu diketahui bahwa model dilatih dengan set data pihak ketiga dan tunduk pada lisensi masing-masing, banyak di antaranya untuk penggunaan non-komersial

Lisensi Dataset Tass (Lisensi untuk Analisis Sentimen dalam bahasa Spanyol, Analisis Emosi dalam bahasa Spanyol & Inggris)
SEMEVAL 2017 Dataset Lisensi (Analisis Sentimen dalam Bahasa Inggris)
Dataset Lince (Lisensi untuk NER & POS Tagging)

Saran dan perbaikan bug

Harap gunakan pelacak masalah repositori untuk menunjukkan bug dan membuat saran (model baru, gunakan kumpulan data lain, beberapa bahasa lain, dll)

Kutipan

Jika Anda menggunakan pysentimiento dalam pekerjaan Anda, silakan kutip makalah ini

 @misc { perez2021pysentimiento ,
      title = { pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks } , 
      author = { Juan Manuel Pérez and Mariela Rajngewerc and Juan Carlos Giudici and Damián A. Furman and Franco Luque and Laura Alonso Alemany and María Vanina Martínez } ,
      year = { 2023 } ,
      eprint = { 2106.09462 } ,a
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}

Juga, Pleace mengutip model dan set data pra-terlatih terkait untuk model spesifik yang Anda gunakan. Periksa referensi untuk detailnya.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 5.46MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua