Download awesome nlp polish - download awesome nlp polish

awesome nlp polish

Outro código-fonte

1.0.0

Baixar

Awesome-nlp-polish

Uma lista com curadoria de recursos dedicados ao processamento de linguagem natural (PNL) no polonês. Modelos, ferramentas, conjuntos de dados.

Logotipo polonês de NLP incrível

Índice:

Dados de texto polonês
Modelos e incorporações
Bibliotecas e ferramentas
Documentos, artigos, blogs
Contribuição

Conjuntos de dados de texto polonês

Datesets orientados a tarefas

O benchmark Klej (Kompleksowa lista ewaluacji językowych) é um conjunto de nove tarefas de avaliação para o entendimento da linguagem polonesa.
Conjuntos de dados POLEVAL -
- Classificação da fala de ódio -Distinguir entre tweets normais/não prejudiciais (classe: 0) e tweets que contêm qualquer tipo de informação prejudicial (classe: 1) [Poleval 2019 Task6] [Mirror Gdrive]
CDSCorpus polonês - o conjunto de dados para semântica de distribuição de composição. O cdsCorpus polonês consiste em pares de frases polonesas de 10k, que são anotadas pelo homem para relação semântica e implicação.
Wroclaw Corpus of Consumer Reviews Sentimento (WCCRS) - Revisões do corpus de polonês anotadas com sentimentos no nível de todo o texto ( texto ) e no nível das sentenças ( sentença ) para os seguintes domínios: hotéis, medicamentos, produtos e universidades (revisões*)
Ermlab Opineo DataSet- Opineo Reviews - GDRIVE
Hatespeech Corpus contém mais de 2000 postagens rastreadas da Web Public Polish.http: //zil.ipipan.waw.pl/hatespeech
Conjunto de dados da analogia polonesa - Exemplo: "Ateny Grecja Bagdad Irak" - Útil para avaliação de incorporação de palavras
NKJP - Corpus nacional de polonês. Ele contém literatura clássica, jornais diários, periódicos e periódicos especializados, transcrições de conversas e uma variedade de textos de curta duração e na Internet. Apenas um pequeno sub-corpus está disponível para download (GNU GLP V.3). Contato direto e talvez necessário para obter o corpus completo.
Conjunto de dados de análise de sentimentos Polemo 2.0 para conll
O conjunto de dados da música polonês- o conjunto de dados de música polonês é o maior conjunto de dados com informações sobre artistas, músicas e letras na Polônia (agora apenas artistas de hip hop).

Textos crus

Oscar polonês limpos-Corpus Oscar Polonês pré-premiados, removidos: sentenças estrangeiras (não políticas), Sentecas polonesas não validas (por exemplo, enum), corpus pré-processado por @ermlab
Oscar ou o Almanach Corpus, super grande e super grande, é um enorme corpus multilíngue obtido pela classificação e filtragem do idioma do corpus de rastreamento comum. Contém 109 GB ou 49 GB de texto polonês.
Polish Wikipedia Dump - cópia mensal regular da Wikipedia polonesa. Mais de 4 GB de texto.
Opus - o corpus paralelo aberto - você pode selecionar idiomas e baixar apenas o arquivo polonês
- Polish OpenSubtitles V2018 - Frases 45,9m, tokens poloneses 287,1m, coleção de legendas de filmes traduzidos da OpenSubtitles Raw TXT Corpus (7,2 GB) corpus txt tokenizado (7,6 GB).
- Paracrawl V5 sentenças 6,4m, tokens poloneses 157,1m Raw TXT Corpus (Unpacked 1,1 GB) TXT Corpus
Texto do Corpo Parlamentar polonês de Proceedings of Polon Ponoly Parliament, Sejm e Senado

Modelos e incorporações

Modelos de transformadores poloneses

Modelo polonês Roberta - Modelo foi treinado em um corpus composto por depósito de lixo polonês da Wikipedia, livros poloneses e artigos, corpus parlamentar polonês
POLITBERT - Modelo polonês Roberta treinado na Wikipedia polonesa, literatura polonesa e Oscar. A principal suposição é que o texto da qualidade fornecerá um bom modelo.
POLBERT - Modelo polonês Bert. O modelo foi treinado com o código fornecido no repositório Github do Google Bert. Mesclar com Huggingface/Transformers
Allegro Herbert - Modelo polonês Bert treinado em corpora polonesa usando apenas o objetivo do MLM com mascaramento dinâmico de palavras inteiras.
Slavicbert-Modelo Bert multilíngue -Bert, Slavic Cased: 4 idiomas (búlgaro, tcheco, polonês, russo), 12 camadas, 768 ocultas, 12 cabeças, 110m parâmetros, 600 MB. Há também outro modelo Slavicbert http://docs.deeppavlov.ai/en/master/features/models/bert.html, mas tenho problemas para convertê -lo em pytorch.

Outros modelos

ELMO EMBALAGENS - Um modelo de incorporação de ELMO para a linguagem polonesa treinada em grandes corpora textual (KGR10).
Modelos de polimento de Flair Zalando - Incorporações contextuais de string que capturam informações latentes -semânticas sintáticas que vão além das incorporações de palavras padrão. Existem dois modelos "PL-Forward e PL-Backward"
IPIPAN Word2vec Polish Models
Universidade de Ciência e Tecnologia de Wrocław - modelos de idiomas distributivos para polimento treinado em diferentes corpora (KGR10, NKJP, Wikipedia).
Modelo polonês FastText FB - Trem on: Common Crawl, Wikipedia
Fasttext KGR10 Modelo polonês binário
O codificador universal de sentenças multilíngue - incorporações de frases, abrange 16 idiomas (incluindo polimento)
BPEMB: as incorporações de subgletas incluem polimento - fácil de usar com talento
Ulmfit for Tensorflow 2.0 - Esta coleção contém modelos de linguagem recorrente Ulmfit treinados em dumps da Wikipedia para inglês e polimento. Os próprios modelos foram treinados usando o FastAi e depois exportados para um formato de tensorflow. O código está disponível no Bitbucket.

Ferramentas e bibliotecas de processamento de idiomas

Morfologik (Java) e Pymorfologik (Python Wrapper) - Analisador morfológico baseado em dicionário
Morfeusz - analisador morfológico. Veja também Elasticsearch Plugin
Stempel (porta Python) - Stemmer algorítmico. Veja também Elasticsearch Plugin
Spacy for Polish - Extend Spacy, uma popular biblioteca de NLP pronta para produção, para suportar totalmente a linguagem polonesa.
spacy -pl por ipi pan - integrando ferramentas e recursos de linguagem polonesa existentes no pipeline spacy
Krnnt Polish Morfological Tagger - KRNNT é um tagger morfológico para polimento baseado em papel de redes neurais recorrentes
Stanza (Python) - Pacote de análise PNL da Universidade de Stanford. Stanza é um pacote de análise de linguagem natural do Python. Ele contém ferramentas, que podem ser usadas para: tokenização de frases/palavras, para gerar formas básicas de palavras, partes da fala e características morfológicas, análise de dependência sintática, reconhecendo entidades nomeadas. Contém modelo polonês
Patinho (Haskel) - Biblioteca para analisar o texto em dados estruturados com suporte para polimento
Uma lista com curadoria de abreviações polonesas para o Tokenizer de sentença NLTK com base no texto da Wikipedia

Documentos, artigos, postagem do blog

Referências de algumas das ferramentas polonesas de PNL-lematização de uma palavra e análise morfológica, lematização com várias palavras, marcação de POS desambigada, análise de dependência, análise rasa, reconhecimento de entidade, resumo etc.
Repo Github com lista de polimento: incorporação de palavras e modelos de idiomas (Word2Vec, FastText, Glove, Elmo)-https://github.com/sdadas/polish-nlp-resources
Revisão de incorporação de palavras polonesas - avaliação de incorporação de palavras polonesas: word2vec, fastext etc. preparado por vários grupos de pesquisa. A avaliação é feita por palavras tarefas de analogia.
Avaliação de sentenças polonesas- contém avaliação de oito métodos de representação de frases (Word2Vec, Glove, FastText, Elmo, Flair, Bert, Laser, Uso) em cinco tarefas lingüísticas polonesas
Treinando Roberta From Scratch - The Missing Guide - Guia completo do usuário para treinar Roberta Model com o uso de huggingface/transformadores para polimento

Contribuição

Se você tiver ou conhecer materiais valiosos (conjuntos de dados, modelos, postagens, artigos) que estão faltando aqui, sinta -se à vontade para editar e enviar uma solicitação de tração. Você também pode me enviar uma nota no LinkedIn ou por e -mail: [email protected].

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-19
tamanho 28.15KB
Vindo de Github

Aplicativos Relacionados

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Jogo incrível do diabo

2023-04-16
O anúncio incrível

2022-08-08

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos