awesome nlp polish Descargar - Descarga de código fuente de awesome nlp polish

awesome nlp polish

Otro código fuente

1.0.0

Descargar

Awesome-NLP-Polish

Una lista curada de recursos dedicados al procesamiento del lenguaje natural (PNL) en polaco. Modelos, herramientas, conjuntos de datos.

Logotipo de polaco NLP impresionante

Tabla de contenido:

Datos de texto en polaco
Modelos e incrustaciones
Bibliotecas y herramientas
Documentos, artículos, blogs
Contribución

Conjuntos de datos de texto en polaco

Datsets orientados a tareas

El Benchmark de Klej (Kompleksowa Lista Ewaluacji Językowych) es un conjunto de nueve tareas de evaluación para la comprensión del lenguaje polaco.
Conjuntos de datos polevales -
- Clasificación del discurso de odio: Distinga entre tweets normales/no dañinos (clase: 0) y tweets que contienen cualquier tipo de información dañina (clase: 1) [Tarea Poleval 2019 6] [Mirror GDRive]
CDSCorpus polaco: el conjunto de datos para la semántica de distribución de composición. CDSCorpus polaco consta de 10k pares de oraciones polacos que están anotados por el ser humano para la relación semántica y la implicación.
Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus of polacos revisiones anotadas con sentimiento a nivel de texto completo ( texto ) y al nivel de oraciones ( oraciones ) para los siguientes dominios: hoteles, medicamentos, productos y universidad (revisiones*)
Ermlab Opineo DataSet- OpineO Reviews - GDRive
Hatespeech Corpus contiene más de 2000 publicaciones que se arrastran de la Web.http: //zil.ipipan.waw.pl/hatespeech
DataSet de analogía polaca - Ejemplo: "Ateny Grecja Bagdad Irak" - útil para la evaluación de incrustaciones de palabras
NKJP - Corpus nacional de polaco. Contiene literatura clásica, periódicos diarios, publicaciones periódicas y revistas especializadas, transcripciones de conversaciones y una variedad de textos de corta duración e Internet. Solo hay un pequeño sub-Corpus disponible para descargar (GNU GLP V.3). Contacto directo y tal vez necesario para obtener el corpus completo.
Conjunto de datos de análisis de sentimientos de Polemo 2.0 para Conll
Conjunto de datos de música polaca: el conjunto de datos de música polaca es el conjunto de datos más grande con información sobre artistas, canciones y letras en Polonia (ahora solo artistas de hip hop).

Textos crudos

Oscar de polaco limpio-Corpus de Oscar polaco preprosado, eliminado: oraciones extrañas (no polisas), comedias polacas no válidas (p. Ej., Enums), corpus preprocesado por @ermlab
Oscar o Abierto de Almanach Corpus de Almanach súper grande: es un enorme corpus multilingüe obtenido por clasificación de idiomas y filtrado del corpus de rastreo común. Contiene 109GB o 49 GB de texto polaco.
Volcado de Wikipedia polaco: copia mensual regular de Wikipedia polaca. Más de 4 GB de texto.
Opus: el corpus paralelo abierto: puede seleccionar idiomas y descargar solo archivo polaco
- Polaco OpenSubtitles V2018 - oraciones 45.9m, tokens polacos 287.1m, colección de subtítulos de películas traducidas de OpenSubtitles Raw Txt Corpus (Desempaquetado 7.2GB) Tokenized Txt Corpus (desaplace 7.6GB).
- Oraciones paracrawl v5 6.4m, tokens polacos 157.1m Raw Txt Corpus (Desempaquetado 1.1GB) Tokenized TXT Corpus
Texto del corpus parlamentario polaco de Actas del Parlamento polaco, SEJM y Senado

Modelos e incrustaciones

Modelos de transformadores polacos

Modelo de Roberta polaco: el modelo fue entrenado en un corpus que consiste en vertedero de Wikipedia polaco, libros y artículos polacos, corpus parlamentario polaco
Politbert - Modelo de Roberta polaco entrenado en Wikipedia polaca, literatura polaca y Oscar. La principal suposición es que el texto de calidad dará un buen modelo.
Polbert - Modelo Bert polaco. El modelo fue capacitado con el código proporcionado en el repositorio GitHub de Google Bert. Fusionarse con la cara de abrazo/transformadores
Allegro Herbert - Modelo de Bert polaco entrenado en corpus polacos utilizando solo un objetivo MLM con enmascaramiento dinámico de palabras completas.
Slavicbert-Modelo Bert multilingüe -bert, escaso eslavo: 4 idiomas (búlgaros, checos, polacos, rusos), 12 capas, 768 escondidos, 12 cabezas, 110m parámetros, 600mb. También hay otro modelo Slavicbert http://docs.deppavlov.ai/en/master/features/models/bert.html, pero tengo problemas para convertirlo en pytorch.

Otros modelos

ELMO INCRETDINGS: un modelo de embedidas de Elmo para el lenguaje polaco entrenado en grandes corpus textuales (KG10).
Modelos Zalando Flair Polish: incrustaciones de cadenas contextuales que capturan información sintáctica latente -semántica que va más allá de los incrustaciones de palabras estándar. Hay dos modelos "PL-Forward y PL-Backward"
Modelos de polaco Ipipan Word2Vec
Universidad de Ciencia y Tecnología de BuCław Word2Vec - Modelos de lenguaje de distribución para polacos capacitados en diferentes corpuses (KGR10, NKJP, Wikipedia).
FastText Polish Modelo FB - Train On: Common Crawl, Wikipedia
FastText KGR10 Modelo polaco Binario
Codador de oraciones universal Multilingüe: incrustaciones de oraciones, cubre 16 idiomas (incluido el polaco)
BPIMB: Las integridades de la subvención incluyen esmalte: fácil de usar con Flair
Ulmfit para TensorFlow 2.0: esta colección contiene modelos de lenguaje recurrente Ulmfit entrenados en vertederos de Wikipedia para inglés y polaco. Los modelos mismos fueron entrenados con Fastai y luego exportaron a un formato de uso de tensor. El código está disponible en bitbucket.

Herramientas y bibliotecas de procesamiento del lenguaje

Morfologik (Java) y Pymorfologik (Python Wrapper) - Analizador morfológico basado en el diccionario
Morfeusz - Analizador morfológico. Ver también el complemento Elasticsearch
Stempel (puerto de Python) - Stemmer algorítmico. Ver también el complemento Elasticsearch
Spacy for Polish - Extend Spacy, una popular biblioteca NLP lista para la producción, para apoyar completamente el lenguaje polaco.
Spacy -PL por IPI PAN: integrando las herramientas y recursos de lenguaje polaco existentes en la tubería de Spacy
Krnnt Tagger morfológico polaco - Krnnt es un etiquetador morfológico para el pulido basado en el papel de redes neuronales recurrentes
Estrofa (Python) - Paquete de análisis NLP de la Universidad de Stanford. La estrofa es un paquete de análisis de lenguaje natural de Python. Contiene herramientas, que se pueden usar para: tokenización de oraciones/palabras, para generar formas base de palabras, partes del habla y características morfológicas, análisis de dependencia sintáctica, reconociendo las entidades nombradas. Contiene modelo polaco
Duckling (Haskel) - Biblioteca para analizar el texto en datos estructurados con soporte para polaco
Una lista curada de abreviaturas polacas para el tokenizador de oraciones NLTK basado en el texto de Wikipedia

Documentos, artículos, publicación de blog

Los puntos de referencia de algunas de las herramientas de PNL polacas: lemmatización de una sola palabra y análisis morfológico, lematización de múltiples palabras, etiquetado con POS desambigado, análisis de dependencia, análisis poco profundo, reconocimiento de entidad nombrado, resumen, etc.
Repo de GitHub con lista de polaco: incrustaciones de palabras y modelos de lenguaje (Word2Vec, FastText, Glove, Elmo)-https://github.com/sdadas/polish-nlp-resources
Revisión de incrustaciones de palabras polacas - Evaluación de incrustaciones de palabras polacas: Word2Vec, Fastext, etc. Preparado por varios grupos de investigación. La evaluación se realiza mediante tarea de analogía de palabras.
Evaluación de oraciones polacas: contiene la evaluación de ocho métodos de representación de oraciones (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Láser, Uso) en cinco tareas lingüísticas polacas
Entrenamiento de Roberta desde cero - La guía faltante - Guía del usuario completa para el modelo de entrenamiento Roberta con el uso de Huggingface/Transformers para polaco

Contribución

Si tiene o conoce materiales valiosos (conjuntos de datos, modelos, publicaciones, artículos) que faltan aquí, no dude en editar y enviar una solicitud de extracción. También puede enviarme una nota sobre LinkedIn o por correo electrónico: [email protected].

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-19
tamaño 28.15KB
Proviene de Github

Aplicaciones relacionadas

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Impresionante juego del diablo

2023-04-16
El anuncio impresionante

2022-08-08

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo