Awesome-nlp-polish
Uma lista com curadoria de recursos dedicados ao processamento de linguagem natural (PNL) no polonês. Modelos, ferramentas, conjuntos de dados.

Índice:
- Dados de texto polonês
- Modelos e incorporações
- Bibliotecas e ferramentas
- Documentos, artigos, blogs
- Contribuição
Conjuntos de dados de texto polonês
Datesets orientados a tarefas
- O benchmark Klej (Kompleksowa lista ewaluacji językowych) é um conjunto de nove tarefas de avaliação para o entendimento da linguagem polonesa.
- Conjuntos de dados POLEVAL -
- Classificação da fala de ódio -Distinguir entre tweets normais/não prejudiciais (classe: 0) e tweets que contêm qualquer tipo de informação prejudicial (classe: 1) [Poleval 2019 Task6] [Mirror Gdrive]
- CDSCorpus polonês - o conjunto de dados para semântica de distribuição de composição. O cdsCorpus polonês consiste em pares de frases polonesas de 10k, que são anotadas pelo homem para relação semântica e implicação.
- Wroclaw Corpus of Consumer Reviews Sentimento (WCCRS) - Revisões do corpus de polonês anotadas com sentimentos no nível de todo o texto ( texto ) e no nível das sentenças ( sentença ) para os seguintes domínios: hotéis, medicamentos, produtos e universidades (revisões*)
- Ermlab Opineo DataSet- Opineo Reviews - GDRIVE
- Hatespeech Corpus contém mais de 2000 postagens rastreadas da Web Public Polish.http: //zil.ipipan.waw.pl/hatespeech
- Conjunto de dados da analogia polonesa - Exemplo: "Ateny Grecja Bagdad Irak" - Útil para avaliação de incorporação de palavras
- NKJP - Corpus nacional de polonês. Ele contém literatura clássica, jornais diários, periódicos e periódicos especializados, transcrições de conversas e uma variedade de textos de curta duração e na Internet. Apenas um pequeno sub-corpus está disponível para download (GNU GLP V.3). Contato direto e talvez necessário para obter o corpus completo.
- Conjunto de dados de análise de sentimentos Polemo 2.0 para conll
- O conjunto de dados da música polonês- o conjunto de dados de música polonês é o maior conjunto de dados com informações sobre artistas, músicas e letras na Polônia (agora apenas artistas de hip hop).
Textos crus
Oscar polonês limpos-Corpus Oscar Polonês pré-premiados, removidos: sentenças estrangeiras (não políticas), Sentecas polonesas não validas (por exemplo, enum), corpus pré-processado por @ermlab
Oscar ou o Almanach Corpus, super grande e super grande, é um enorme corpus multilíngue obtido pela classificação e filtragem do idioma do corpus de rastreamento comum. Contém 109 GB ou 49 GB de texto polonês.
Polish Wikipedia Dump - cópia mensal regular da Wikipedia polonesa. Mais de 4 GB de texto.
Opus - o corpus paralelo aberto - você pode selecionar idiomas e baixar apenas o arquivo polonês
- Polish OpenSubtitles V2018 - Frases 45,9m, tokens poloneses 287,1m, coleção de legendas de filmes traduzidos da OpenSubtitles Raw TXT Corpus (7,2 GB) corpus txt tokenizado (7,6 GB).
- Paracrawl V5 sentenças 6,4m, tokens poloneses 157,1m Raw TXT Corpus (Unpacked 1,1 GB) TXT Corpus
Texto do Corpo Parlamentar polonês de Proceedings of Polon Ponoly Parliament, Sejm e Senado
Modelos e incorporações
Modelos de transformadores poloneses
- Modelo polonês Roberta - Modelo foi treinado em um corpus composto por depósito de lixo polonês da Wikipedia, livros poloneses e artigos, corpus parlamentar polonês
- POLITBERT - Modelo polonês Roberta treinado na Wikipedia polonesa, literatura polonesa e Oscar. A principal suposição é que o texto da qualidade fornecerá um bom modelo.
- POLBERT - Modelo polonês Bert. O modelo foi treinado com o código fornecido no repositório Github do Google Bert. Mesclar com Huggingface/Transformers
- Allegro Herbert - Modelo polonês Bert treinado em corpora polonesa usando apenas o objetivo do MLM com mascaramento dinâmico de palavras inteiras.
- Slavicbert-Modelo Bert multilíngue -Bert, Slavic Cased: 4 idiomas (búlgaro, tcheco, polonês, russo), 12 camadas, 768 ocultas, 12 cabeças, 110m parâmetros, 600 MB. Há também outro modelo Slavicbert http://docs.deeppavlov.ai/en/master/features/models/bert.html, mas tenho problemas para convertê -lo em pytorch.
Outros modelos
- ELMO EMBALAGENS - Um modelo de incorporação de ELMO para a linguagem polonesa treinada em grandes corpora textual (KGR10).
- Modelos de polimento de Flair Zalando - Incorporações contextuais de string que capturam informações latentes -semânticas sintáticas que vão além das incorporações de palavras padrão. Existem dois modelos "PL-Forward e PL-Backward"
- IPIPAN Word2vec Polish Models
- Universidade de Ciência e Tecnologia de Wrocław - modelos de idiomas distributivos para polimento treinado em diferentes corpora (KGR10, NKJP, Wikipedia).
- Modelo polonês FastText FB - Trem on: Common Crawl, Wikipedia
- Fasttext KGR10 Modelo polonês binário
- O codificador universal de sentenças multilíngue - incorporações de frases, abrange 16 idiomas (incluindo polimento)
- BPEMB: as incorporações de subgletas incluem polimento - fácil de usar com talento
- Ulmfit for Tensorflow 2.0 - Esta coleção contém modelos de linguagem recorrente Ulmfit treinados em dumps da Wikipedia para inglês e polimento. Os próprios modelos foram treinados usando o FastAi e depois exportados para um formato de tensorflow. O código está disponível no Bitbucket.
Ferramentas e bibliotecas de processamento de idiomas
Morfologik (Java) e Pymorfologik (Python Wrapper) - Analisador morfológico baseado em dicionário
Morfeusz - analisador morfológico. Veja também Elasticsearch Plugin
Stempel (porta Python) - Stemmer algorítmico. Veja também Elasticsearch Plugin
Spacy for Polish - Extend Spacy, uma popular biblioteca de NLP pronta para produção, para suportar totalmente a linguagem polonesa.
spacy -pl por ipi pan - integrando ferramentas e recursos de linguagem polonesa existentes no pipeline spacy
Krnnt Polish Morfological Tagger - KRNNT é um tagger morfológico para polimento baseado em papel de redes neurais recorrentes
Stanza (Python) - Pacote de análise PNL da Universidade de Stanford. Stanza é um pacote de análise de linguagem natural do Python. Ele contém ferramentas, que podem ser usadas para: tokenização de frases/palavras, para gerar formas básicas de palavras, partes da fala e características morfológicas, análise de dependência sintática, reconhecendo entidades nomeadas. Contém modelo polonês
Patinho (Haskel) - Biblioteca para analisar o texto em dados estruturados com suporte para polimento
Uma lista com curadoria de abreviações polonesas para o Tokenizer de sentença NLTK com base no texto da Wikipedia
Documentos, artigos, postagem do blog
- Referências de algumas das ferramentas polonesas de PNL-lematização de uma palavra e análise morfológica, lematização com várias palavras, marcação de POS desambigada, análise de dependência, análise rasa, reconhecimento de entidade, resumo etc.
- Repo Github com lista de polimento: incorporação de palavras e modelos de idiomas (Word2Vec, FastText, Glove, Elmo)-https://github.com/sdadas/polish-nlp-resources
- Revisão de incorporação de palavras polonesas - avaliação de incorporação de palavras polonesas: word2vec, fastext etc. preparado por vários grupos de pesquisa. A avaliação é feita por palavras tarefas de analogia.
- Avaliação de sentenças polonesas- contém avaliação de oito métodos de representação de frases (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Laser, Uso) em cinco tarefas lingüísticas polonesas
- Treinando Roberta From Scratch - The Missing Guide - Guia completo do usuário para treinar Roberta Model com o uso de huggingface/transformadores para polimento
Contribuição
Se você tiver ou conhecer materiais valiosos (conjuntos de dados, modelos, postagens, artigos) que estão faltando aqui, sinta -se à vontade para editar e enviar uma solicitação de tração. Você também pode me enviar uma nota no LinkedIn ou por e -mail: [email protected].