Awesome-NLP-Polish
Una lista curada de recursos dedicados al procesamiento del lenguaje natural (PNL) en polaco. Modelos, herramientas, conjuntos de datos.

Tabla de contenido:
- Datos de texto en polaco
- Modelos e incrustaciones
- Bibliotecas y herramientas
- Documentos, artículos, blogs
- Contribución
Conjuntos de datos de texto en polaco
Datsets orientados a tareas
- El Benchmark de Klej (Kompleksowa Lista Ewaluacji Językowych) es un conjunto de nueve tareas de evaluación para la comprensión del lenguaje polaco.
- Conjuntos de datos polevales -
- Clasificación del discurso de odio: Distinga entre tweets normales/no dañinos (clase: 0) y tweets que contienen cualquier tipo de información dañina (clase: 1) [Tarea Poleval 2019 6] [Mirror GDRive]
- CDSCorpus polaco: el conjunto de datos para la semántica de distribución de composición. CDSCorpus polaco consta de 10k pares de oraciones polacos que están anotados por el ser humano para la relación semántica y la implicación.
- Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus of polacos revisiones anotadas con sentimiento a nivel de texto completo ( texto ) y al nivel de oraciones ( oraciones ) para los siguientes dominios: hoteles, medicamentos, productos y universidad (revisiones*)
- Ermlab Opineo DataSet- OpineO Reviews - GDRive
- Hatespeech Corpus contiene más de 2000 publicaciones que se arrastran de la Web.http: //zil.ipipan.waw.pl/hatespeech
- DataSet de analogía polaca - Ejemplo: "Ateny Grecja Bagdad Irak" - útil para la evaluación de incrustaciones de palabras
- NKJP - Corpus nacional de polaco. Contiene literatura clásica, periódicos diarios, publicaciones periódicas y revistas especializadas, transcripciones de conversaciones y una variedad de textos de corta duración e Internet. Solo hay un pequeño sub-Corpus disponible para descargar (GNU GLP V.3). Contacto directo y tal vez necesario para obtener el corpus completo.
- Conjunto de datos de análisis de sentimientos de Polemo 2.0 para Conll
- Conjunto de datos de música polaca: el conjunto de datos de música polaca es el conjunto de datos más grande con información sobre artistas, canciones y letras en Polonia (ahora solo artistas de hip hop).
Textos crudos
Oscar de polaco limpio-Corpus de Oscar polaco preprosado, eliminado: oraciones extrañas (no polisas), comedias polacas no válidas (p. Ej., Enums), corpus preprocesado por @ermlab
Oscar o Abierto de Almanach Corpus de Almanach súper grande: es un enorme corpus multilingüe obtenido por clasificación de idiomas y filtrado del corpus de rastreo común. Contiene 109GB o 49 GB de texto polaco.
Volcado de Wikipedia polaco: copia mensual regular de Wikipedia polaca. Más de 4 GB de texto.
Opus: el corpus paralelo abierto: puede seleccionar idiomas y descargar solo archivo polaco
- Polaco OpenSubtitles V2018 - oraciones 45.9m, tokens polacos 287.1m, colección de subtítulos de películas traducidas de OpenSubtitles Raw Txt Corpus (Desempaquetado 7.2GB) Tokenized Txt Corpus (desaplace 7.6GB).
- Oraciones paracrawl v5 6.4m, tokens polacos 157.1m Raw Txt Corpus (Desempaquetado 1.1GB) Tokenized TXT Corpus
Texto del corpus parlamentario polaco de Actas del Parlamento polaco, SEJM y Senado
Modelos e incrustaciones
Modelos de transformadores polacos
- Modelo de Roberta polaco: el modelo fue entrenado en un corpus que consiste en vertedero de Wikipedia polaco, libros y artículos polacos, corpus parlamentario polaco
- Politbert - Modelo de Roberta polaco entrenado en Wikipedia polaca, literatura polaca y Oscar. La principal suposición es que el texto de calidad dará un buen modelo.
- Polbert - Modelo Bert polaco. El modelo fue capacitado con el código proporcionado en el repositorio GitHub de Google Bert. Fusionarse con la cara de abrazo/transformadores
- Allegro Herbert - Modelo de Bert polaco entrenado en corpus polacos utilizando solo un objetivo MLM con enmascaramiento dinámico de palabras completas.
- Slavicbert-Modelo Bert multilingüe -bert, escaso eslavo: 4 idiomas (búlgaros, checos, polacos, rusos), 12 capas, 768 escondidos, 12 cabezas, 110m parámetros, 600mb. También hay otro modelo Slavicbert http://docs.deppavlov.ai/en/master/features/models/bert.html, pero tengo problemas para convertirlo en pytorch.
Otros modelos
- ELMO INCRETDINGS: un modelo de embedidas de Elmo para el lenguaje polaco entrenado en grandes corpus textuales (KG10).
- Modelos Zalando Flair Polish: incrustaciones de cadenas contextuales que capturan información sintáctica latente -semántica que va más allá de los incrustaciones de palabras estándar. Hay dos modelos "PL-Forward y PL-Backward"
- Modelos de polaco Ipipan Word2Vec
- Universidad de Ciencia y Tecnología de BuCław Word2Vec - Modelos de lenguaje de distribución para polacos capacitados en diferentes corpuses (KGR10, NKJP, Wikipedia).
- FastText Polish Modelo FB - Train On: Common Crawl, Wikipedia
- FastText KGR10 Modelo polaco Binario
- Codador de oraciones universal Multilingüe: incrustaciones de oraciones, cubre 16 idiomas (incluido el polaco)
- BPIMB: Las integridades de la subvención incluyen esmalte: fácil de usar con Flair
- Ulmfit para TensorFlow 2.0: esta colección contiene modelos de lenguaje recurrente Ulmfit entrenados en vertederos de Wikipedia para inglés y polaco. Los modelos mismos fueron entrenados con Fastai y luego exportaron a un formato de uso de tensor. El código está disponible en bitbucket.
Herramientas y bibliotecas de procesamiento del lenguaje
Morfologik (Java) y Pymorfologik (Python Wrapper) - Analizador morfológico basado en el diccionario
Morfeusz - Analizador morfológico. Ver también el complemento Elasticsearch
Stempel (puerto de Python) - Stemmer algorítmico. Ver también el complemento Elasticsearch
Spacy for Polish - Extend Spacy, una popular biblioteca NLP lista para la producción, para apoyar completamente el lenguaje polaco.
Spacy -PL por IPI PAN: integrando las herramientas y recursos de lenguaje polaco existentes en la tubería de Spacy
Krnnt Tagger morfológico polaco - Krnnt es un etiquetador morfológico para el pulido basado en el papel de redes neuronales recurrentes
Estrofa (Python) - Paquete de análisis NLP de la Universidad de Stanford. La estrofa es un paquete de análisis de lenguaje natural de Python. Contiene herramientas, que se pueden usar para: tokenización de oraciones/palabras, para generar formas base de palabras, partes del habla y características morfológicas, análisis de dependencia sintáctica, reconociendo las entidades nombradas. Contiene modelo polaco
Duckling (Haskel) - Biblioteca para analizar el texto en datos estructurados con soporte para polaco
Una lista curada de abreviaturas polacas para el tokenizador de oraciones NLTK basado en el texto de Wikipedia
Documentos, artículos, publicación de blog
- Los puntos de referencia de algunas de las herramientas de PNL polacas: lemmatización de una sola palabra y análisis morfológico, lematización de múltiples palabras, etiquetado con POS desambigado, análisis de dependencia, análisis poco profundo, reconocimiento de entidad nombrado, resumen, etc.
- Repo de GitHub con lista de polaco: incrustaciones de palabras y modelos de lenguaje (Word2Vec, FastText, Glove, Elmo)-https://github.com/sdadas/polish-nlp-resources
- Revisión de incrustaciones de palabras polacas - Evaluación de incrustaciones de palabras polacas: Word2Vec, Fastext, etc. Preparado por varios grupos de investigación. La evaluación se realiza mediante tarea de analogía de palabras.
- Evaluación de oraciones polacas: contiene la evaluación de ocho métodos de representación de oraciones (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Láser, Uso) en cinco tareas lingüísticas polacas
- Entrenamiento de Roberta desde cero - La guía faltante - Guía del usuario completa para el modelo de entrenamiento Roberta con el uso de Huggingface/Transformers para polaco
Contribución
Si tiene o conoce materiales valiosos (conjuntos de datos, modelos, publicaciones, artículos) que faltan aquí, no dude en editar y enviar una solicitud de extracción. También puede enviarme una nota sobre LinkedIn o por correo electrónico: [email protected].