génial-Polish
Une liste organisée de ressources dédiées au traitement du langage naturel (NLP) en polonais. Modèles, outils, ensembles de données.

Table des matières:
- Données de texte polonais
- Modèles et intégres
- Bibliothèques et outils
- Articles, articles, blogs
- Contribution
Ensembles de données de texte polonais
Datsets orientés
- La référence Klej (Kompleksowa Lista Ewaluacji Językowych) est un ensemble de neuf tâches d'évaluation pour la compréhension de la langue polonaise.
- Ensembles de données POLEVAL -
- Classification de la discours de haine - Désistation entre les tweets normaux / non nuisibles (classe: 0) et les tweets qui contiennent tout type d'informations nocives (classe: 1) [Poleval 2019 Task6] [Mirror GDrive]
- CDSCorpus polonais - L'ensemble de données pour la sémantique de distribution de composition. Le CDSCORPUS polonais se compose de paires de phrases polonaises 10K qui sont annotées par l'homme pour la parenté et l'implication sémantique.
- Wroclaw Corpus of Consumer Reviews Sentiment (WCCRS) - Corpus of Polish Reviews annoté avec sentiment au niveau de l'ensemble du texte ( texte ) et au niveau des phrases ( phrase ) pour les domaines suivants: hôtels, médecine, produits et université (revues *)
- ErmLab Opineo Dataset - Opineo Reviews - GDrive
- Hatespeech Corpus contient plus de 2000 postes rampés à partir du web polonais public.
- Ensemble de données de l'analogie polonaise - Exemple: "Ateny Grecja Bagdad Irak" - Utile pour l'évaluation des intégres de mots
- NKJP - National Corpus of Polish. Il contient de la littérature classique, des journaux quotidiens, des périodiques et des revues spécialisés, des transcriptions de conversations et une variété de textes de courte durée et Internet. Seul un petit sous-corpus est disponible en téléchargement (GNU GLP V.3). Contact direct et peut-être nécessaire pour obtenir le corpus complet.
- Ensemble de données d'analyse des sentiments Polemo 2.0 pour conll
- Ensemble de données de musique polonaise - L'ensemble de données sur la musique polonaise est le plus grand ensemble de données avec des informations sur les artistes, les chansons et les paroles en Pologne (maintenant seulement les artistes hip hop).
Textes bruts
Oscar polonais propre - Corpus Oscar polonais pré-programmé, supprimé: phrases étrangères (non polonaises), Sencées polonaises non valides (par exemple en énumér), corpus pré-traitement par @ermLab
Oscar ou le corpus Almanach super grand ouvert - est un énorme corpus multilingue obtenu par la classification et le filtrage du langage du corpus Crawl commun. Contient 109 Go ou 49 Go de texte polonais.
Dumper de Wikipedia polonais - Copie mensuelle régulière de Polish Wikipedia. Plus de 4 Go de texte.
OPUS - The Open Parallel Corpus - Vous pouvez sélectionner les langues et télécharger uniquement le fichier polonais
- OpenSubtitles polonais v2018 - phrases 45,9 m, jetons polonais 287,1m, collection de sous-titres de films traduits à partir du corpus txt txt ouverts (non emballé de 7,2 Go).
- Paracrawl v5 phrases 6,4 m, jetons polonais 157,1 m de corpus Txt brut (1,1 Go non.
Texte de corpus parlementaire polonais provenant des actes du Parlement polonais, de Sejm et du Sénat
Modèles et intégres
Modèles de transformateur polonais
- Modèle polonais Roberta - Le modèle a été formé sur un corpus composé de décharge de wikipedia polonaise, de livres et d'articles polonais, corpus parlementaire polonais
- Politbert - Modèle polonais Roberta formé sur le wikipedia polonais, la littérature polonaise et l'Oscar. L'hypothèse majeure est que le texte de qualité donnera un bon modèle.
- Polbert - Modèle Bert polonais. Le modèle a été formé avec le code fourni dans le référentiel GitHub de Google Bert. Fusionner avec HuggingFace / Transformers
- Allegro Herbert - Modèle de Bert polonais formé sur les corpus polonais en utilisant uniquement l'objectif MLM avec un masquage dynamique de mots entiers.
- Slavicbert - Modèle de Bert multilingue -bert, Slavic Basé: 4 langues (Bulgarian, tchèque, polonais, russe), 12 couches, 768-coiffures, 12 têtes, paramètres de 110m, 600 Mo. Il y a aussi un autre modèle Slavicbert http://docs.deppavlov.ai/en/master/features/models/bert.html mais j'ai des problèmes pour le convertir en pytorch.
Autres modèles
- Elmo Embeddings - Un modèle d'Elmo incorporations pour la langue polonaise formée sur de grands corpus textuels (KGR10).
- Modèles de polonais de Zalando Flair - Incorporation de chaîne contextuelle qui capturent des informations syntaxiques-sémantiques latentes qui vont au-delà des incorporations de mots standard. Il existe deux modèles "PL-Forward et PL-Backward"
- Modèles polonais iPipan word2vec
- Université Wrocław des sciences et technologies Word2Vec - Modèles de langue distributionnels pour polonais formés sur différents corpus (KGR10, NKJP, Wikipedia).
- Modèle de polonais FastText FB - Train sur: Crawl commun, Wikipedia
- FastText KGR10 Modèle polonais binaire
- Encodeur de phrase universel multilingue - intégres de phrases, il couvre 16 langues (y compris le vernis)
- BPEMB: Les intégres de sous-mots comprennent le vernis - facile à utiliser avec Flair
- Ulmfit pour TensorFlow 2.0 - Cette collection contient des modèles de langue récurrents UlmFit formés sur les décharges de Wikipedia pour l'anglais et le polonais. Les modèles eux-mêmes ont été formés à l'aide de Fastai puis exportés vers un format usable de tensorflow. Le code est disponible sur Bitbucket.
Outils et bibliothèques de traitement des langues
Morfologik (Java) et Pymorfologik (Python Wrapper) - Analyseur morphologique basé sur le dictionnaire
MORFEUSZ - Analyseur morphologique. Voir aussi le plugin Elasticsearch
STEMPEL (port Python) - tige algorithmique. Voir aussi le plugin Elasticsearch
Spacy for Polish - Extend Spacy, une bibliothèque PNLP prête pour la production populaire, pour soutenir pleinement la langue polonaise.
SPACY-PL par IPI PAN - Intégration des outils et des ressources de langue polonaise existants dans le pipeline Spacy
Krnnt Polish Morphological Tagger - Krnnt est un étiqueteur morphologique pour le polonais basé sur le document de réseaux de neurones récurrents
Stanza (Python) - Package d'analyse NLP de l'Université de Stanford. La strophe est un package d'analyse du langage naturel Python. Il contient des outils, qui peuvent être utilisés pour: la phrase / tokenisage des mots, pour générer des formes de base de mots, des parties de la parole et des caractéristiques morphologiques, l'analyse de dépendance syntaxique, reconnaissant les entités nommées. Contient le modèle polonais
Duckling (Haskel) - Bibliothèque pour analyser du texte dans des données structurées avec prise en charge du vernis
Une liste organisée des abréviations polonaises pour le tokenizer NLTK phrase basé sur le texte Wikipedia
Articles, articles, article de blog
- Benchmarks de certains des outils PNL polonais - Lemmatisation à un mot et analyse morphologique, lemmatisation multi-mots, le marquage de POS désambiguré, l'analyse de dépendance, l'analyse peu profonde, la reconnaissance de l'entité nommée, le résumé, etc.
- Github Repo with List of Polon
- Revue d'intégration des mots polonais - Évaluation des incorporations de mot polonais: word2vec, rapide etc. Préparé par divers groupes de recherche. L'évaluation est effectuée par des mots tâche d'analogie.
- Évaluation de la phrase polonaise - Contient une évaluation des méthodes de représentation de huit phrases (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Laser, Use) sur cinq tâches linguistiques polonaises
- Formation Roberta à partir de Scratch - The Missing Guide - Guide de l'utilisateur complet pour la formation du modèle Roberta avec l'utilisation de HuggingFace / Transformers pour le vernis
Contribution
Si vous avez ou connaissez des documents précieux (ensembles de données, modèles, publications, articles) qui manquent ici, n'hésitez pas à modifier et à soumettre une demande de traction. Vous pouvez également m'envoyer une note sur LinkedIn ou par e-mail: [email protected].