Português-NLP
Lista de recursos e ferramentas desenvolvidas com foco em português.
Conjuntos de dados
- #Pracegover - conjunto de dados multimodal com legendas portuguesas com base em postagens do Instagram.
- Textos médicos portugueses do século XVIII
- AG_NEWS PT - Tradução automática do corpus de artigos de notícias da AG.
- Dados da ALPACA PT-BR-BR-DATASET STANFORD ALPACA Traduzido para o português brasileiro usando o modelo Helsinque-NLP/OPUS-MT-TC-BIG-EN-PT.
- Apectorbr - conjunto de dados anotado baseado em aspectos de análises de consumidores da web.
- ASSIN - Um conjunto de dados com pontuação semântica de similaridade e anotações de implicações. (Huggingface)
- Assin 2 - Sequência de Assin. (Huggingface)
- DataSet inimigo de pontuação automatizada de ensaio (AES) - referência para a pontuação automática de ensaios em português (huggingface)
- AYA DataSet Pt - Coereforai Aya DataSet Filtrado Para Portugues (PT).
- Blogset -BR - Uma coleção de postagens reunidas na plataforma BlogSpot, escrita por usuários brasileiros.
- Bluex - Um benchmark baseado nos exames de admissão nas principais universidades brasileiras.
- BOOLQ - TRADUÇÃO AUTOMÁTICA DO BOOLQ.
- BR-QAD-2.0-Stanford Perguntas Responder a DataSet (Esquadrão) 2.0 Traduzido para a linguagem portuguesa brasileira (PT-BR-BR).
- Brands.br - Um português analisa o corpus
- Decisões do Tribunal Brasileiro - Coleta de Decisões do Tribunal 4043 EMENTA (Resumo) e seus metadados do Tribunal de Justiça de Alagoas (TJAL), a Suprema Corte do Estado de Alagoas (Brasil).
- Comércio eletrônico brasileiro-conjunto de dados públicos de comércio eletrônico brasileiro da Olist Store.
- Manchetes brasileiros Sentimentos - DataSet contendo análise de sentimentos das manchetes das agências de notícias brasileiras.
- Corpus de literatura portuguesa brasileira - 3,7 milhões de palavras corpus de literatura brasileira publicada entre 1840-1908.
- Conjunto de ensaios narrativos portugueses brasileiros - conjunto de dados - DataSet para pontuação automática de ensaios de ensaios narrativos portugueses brasileiros.
- Conjuntos de dados de análise de sentimentos portugueses brasileiros.
- Julgamentos do TCU brasileiro - julgamentos do Tribunal Federal de Contas - Brasil (TCU).
- BRWAC - Web portuguesa brasileira como corpus.
- BRWAC2WIKI - Um conjunto de dados para resumo de vários documentos em português.
- B2W -REVIEWS01 - Revisões de produtos.
- CANARIM - Um conjunto de dados em larga escala de páginas da web na língua portuguesa (Huggingface)
- Carolina - Corpus Geral do Português Brasileiro Contemporal (Huggingface).
- Capas - Corpus paralelo de teses e dissertações resumos em inglês e português.
- CC100 -Portugues - criado por Conneau e Wenzek et al. em 2020. Este conjunto de dados é um dos 100 corpora de dados monolíngues que foram processados a partir dos instantâneos CommonCrawl de janeiro a dezembro de 2018 do repositório CC-Net.
- CETENFOLHA - Notícias do jornal Folha de S. Paulo.
- CHAVE - Coleção para recuperação de informações e resposta a perguntas.
- Cintil Corpus - Um corpus linguisticamente interpretado de português.
- Clinicalner - Reconhecimento clínico de entidade nomeado em português.
- Complexidade Textual Para Estágios Escolares do Sistema Brasileiro educacional.
- CORAA - conjunto de dados para reconhecimento automático de fala.
- Coraa Ser - Reconhecimento emoção do discurso espontâneo informal de português brasileiro.
- CRAWLPT_DEDUP-O rastreamento (desduplicado) é composto por três corpora: BRWAC, C100-PT, OSCAR-2301.
- CSTNews - Um corpus com 50 grupos de textos de notícias com seus resumos de vários documentos, além de várias anotações discursas e semânticas.
- C-oral-Brasil-Este projeto é dedicado ao estudo do discurso espontâneo português brasileiro e, mais amplamente, à compilação de corpora falada.
- Dantestocks - Tweets do mercado de ações escritos em português brasileiros e anotados com entidades nomeadas de acordo com a taxonomia do harém.
- Deepagé - Respondendo a perguntas em português sobre o ambiente brasileiro.
- DNLT -BP - conjuntos de dados de testes de linguagem neuropsicológica em português brasileiros.
- Desafio inimigo - consiste na redação de um ensaio e uma parte objetiva contendo 180 perguntas de múltipla escolha.
- Enem-2022 e Enem-2023-Esses projetos abrangem todas as questões de múltipla escolha das duas últimas edições do Exame Nacional do Ensino Médio (inimigo), o principal exame de entrada padronizado adotado pelas universidades brasileiras.
- Essay-BR-Essay-BR: Um corpus de ensaios para a língua portuguesa brasileira.
- Ensaio estendido-BR-versão estendida do corpus Essay-Br.
- FACTCK.BR - Um conjunto de dados para estudar notícias falsas em português.
- FACTNEWS - DataSet para prever a factualidade no nível da sentença das reportagens.
- Vozes falsas - DeepFakes em português brasileiros criados com o modelo XTTS.
- Fake.br - Notícias verdadeiras e falsas alinhadas escritas em português brasileiras (Hugginface).
- Central_de_fatos - (huggingface).
- Fakenewsset - (Huggingface).
- Fakepedia -corpus - conjunto de dados de notícias falsas.
- FakeCogna - o conjunto de dados composto por notícias reais e falsas (HuggingFace).
- FakeWhatsApp.br - Um corpus anotado de mensagens do WhatsApp no PT -BR para detecção automática de desinformação textual.
- FKTC - Coleções de texto de notícias falsas.
- Floresta Sintá (C) Tica - Treebank para português.
- Harem First - Concurso de Avaliação para Reconhecedores de Entidade nomeada em português.
- HAREM Segundo - Concurso de Avaliação para Reconhecedores de Entidade nomeada em português.
- HATEBR - Especialista em larga escala Anotar corpus de comentários brasileiros no Instagram para discursos de ódio e detecção de idiomas ofensivos na web e nas mídias sociais.
- Corpora portuguesa histórica - Ferramentas e recursos para manipulação de corpora histórica e gestão de dicionários históricos.
- IMDB PT - Tradução Atomática do IMBD.
- Inferbr - conjunto de dados de inferência de linguagem natural.
- Conjunto de dados do iudicium textum - contém documentos legais criados pelo Supremo Tribunal Federal brasileiro em sua composição integral (artigo).
- Lener -BR -BR - Um conjunto de dados para reconhecimento de entidade nomeado no texto legal brasileiro.
- Legalpt_DedUp - Legalpt (deduplicado) agrega o valor máximo de dados legais disponíveis ao público em português.
- Lex2Kids - Léxico em português mais ouvidos por crianças.
- Mac-Morpho-Textos portugueses brasileiros anotados com tags de parte da fala.
- MilkQA - Um conjunto de dados de perguntas densas para a tarefa de seleção de respostas.
- Atas do Banco Central do Brasil - Atas do Comitê de Política Monetária do Banco Central do Brasil.
- Ner em tweets portugueses brasileiros - Mensagens do Twitter no PT -B -BR anotado para as entidades por, loc e org.
- NERDE - Documentos da jurisprudência de Cade anotados para as entidades Org, por, tempo, loc, perna (legislação), documentos (documentos), valor.
- News-Crawl-PT-Crawl de notícias monolíngues usado para o WMT.
- NOTÍCIAS DA SITE FOLHA DE SOO PAULO - NOTÍCIAS DA FOLHA BRACIAL FOLHA DE SOO PAULO.
- Notícias publicadas no Brasil - Compilação de notícias do Globo Group.
- Exames OAB - Versão brasileira do Exame de Bar (EUA) (Huggingface).
- Corpora paralela de Revista Pesquisa Fapesp-Coleções bilíngues portugues-inglês e portuguesas-espanholas das edições on-line da revista brasileira Revista Pesquisa Fapesp.
- NURC-SP
- PIRÁ-Um conjunto de dados bilíngues português-inglês para respostas à pergunta sobre o oceano.
- PL-CORPUS-Parte do UlysSSSSSER-BR, um corpus de documentos legislativos brasileiros para NER com linhas de base de qualidade.
- PUSH - Tradução portuguesa do conjunto de dados de referência de cola e do Scitail.
- Poetisa - Processamento português - Rumo à análise sintática e análise.
- Politiquices - conjuntos de dados relacionados ao projeto Politiquices.pt.
- Porsimplessent - de pares de sentenças alinhadas para investigar a avaliação de legibilidade das frases.
- Plétilaxico -UD - Um léxico para o português brasileiro, de acordo com as dependências universais.
- DataSet português-ódio-discurso-conjunto de dados português para detecção de fala de ódio composta por 5.668 tweets com anotações binárias (ou seja, 'Hate' vs. 'No-Hate') (Huggingface)
- Sentenças legais portugues - Coleta de sentenças legais da Suprema Corte de Justiça portuguesa.
- Eleições presidenciais portuguesas - Este conjunto de dados contém tweets e usuários principalmente do Twittersphere português.
- Pracegover - conjunto de dados multimodal contendo imagens associadas a legendas portuguesas com base em postagens do Instagram.
- Corpus de opinião de granulação fina do PRIBERAM-Um corpus de mineração de opinião de dependência de granulação fina portuguesa.
- Propbank - contém instâncias anotadas com rótulos de função semântica (SRL).
- Projeto ACDC - Acesso à Internet a Corpora.
- Puntuguese - um corpus de trocadilhos em português com microedições (huggingface)
- QA -PORTUGESE - Adaptação da divisão portuguesa do conjunto de dados MQA (pares de interrupção de controle de qualidade).
- QUATI-Este conjunto de dados visa apoiar o desenvolvimento de sistemas de recuperação de informações portuguesas brasileiras (PT-BR) (IR), fornecendo passagens de documentos originalmente criadas em PT-BR, bem como consultas (tópicos) criados por falantes nativos.
- Rebeld -português - DataSets de Relacações Um Partir da Wikipedia.
- Reli - Resennha de Livros.
- Repro: Um conjunto de dados de referência para mineração de opinião para o português brasileiro - um conjunto de dados de referência para mineração de opinião para o português brasileiro. (Huggingface)
- RHETALHO - Corpus anotado com o rsttool de Daniel Marcu.
- Semclinbr-Corpus multi-institucional e multi-especialidade anotada semanticamente para tarefas clínicas portuguesas de PNL.
- Gergelim - corpus para ner em português.
- Sigarra News Corpus - Sistema de informação Sigarra na Universidade do Porto.
- Simplex -PB - Um banco de dados de simplificação lexical e referência para português.
- Simplex-PB-2.0-Versão aprimorada do simplex-PB.
- Simplex-PB-3.0-Nova versão do simplex-PB.
- Spotify subconjunto - Classificação de variações de linguagem em português brasileiros
- Esquadrão -PT v1.1 - Tradução portuguesa do conjunto de dados do esquadrão.
- Esquadrão-PT V1.1-PT-BR-Tradução portuguesa brasileira do conjunto de dados do esquadrão, traduzido por Deep Learning Brasil.
- Esquadrão -PT v2.0 - Tradução portuguesa do conjunto de dados do esquadrão 2.0.
- SST -2 PT - Tradução automática do Stanford Sentiment Treebank.
- TEMÁRIO - Textos de notícias e os resumos humanos correspondentes para fins de resumo.
- Corpus de complexidade textual - Corpus de complexidade textual para estágios escolares no sistema educacional brasileiro.
- Dissed -BR - Detecção de idiomas tóxicos nas mídias sociais para o português brasileiro (GitHub).
- Corpus portuguesos - texto para a fala portuguesa.
- TweetSentbr - Tweets em português brasileiros.
- Tweets para análise de sentimentos.
- UD_PORTUGUESE -BOSQUE - Dependências universais (UD) Treebank português.
- UD_PORTUGUESE -Cintil - Dependências universais (UD) Treebank português.
- UD_PORTUGUESE -GSD - Dependências universais (UD) Treebank português.
- Ud_portuguese -petrogold - Dependências universais (UD) português Treebank.
- UD_PORTUGUESE -PUD - Dependências universais (UD) português Treebank.
- ULYSSSESNER -BR - Corpus de documentos legislativos brasileiros para reconhecimento de entidade nomeado
- UTLCORPUS - Um corpus de críticas on -line em português brasileiros anotados com classificação de ajuda.
- Desafio de Esquema Winograd - Solver para o Winograd Schema Challenge, com sede em português.
- Wizardvicuna-PTBR-Instruct-Clean-Wizard Vicuna Pt-Br Instrute Limpo DataSet.
Conjuntos de dados multilíngues
- Um conjunto de dados multilíngue para investigar estereótipos e atitudes negativas em relação a grupos migrantes em grandes modelos de linguagem
- Askd - o conjunto de dados ELI5 adaptado em perguntas médicas (ASKDOCS) SubredDit.
- Frases por portugues em inglês-frases em inglês-português do projeto Tatoeba.
- EUR -LEL - Corpus multilíngue em todas as línguas oficiais da União Europeia.
- Europarl - Processos do Parlamento Europeu Parallel Corpus 1996-2011.
- Europarl-St-Corpus multilíngue de tradução de fala, que contém amostras de texto em áudio emparelhadas para tradução de fala, construídas usando os debates realizados no Parlamento Europeu no período entre 2008 e 2012.
- MC4 - Versão multilíngue colossal e limpa do corpus de rastreamento da Web da Common Crawl. Com base no conjunto de dados de rastreamento comum.
- MFAQ - Corpus multilíngue de perguntas frequentes analisadas do rastreamento comum.
- MKQA - Perguntas e respostas de conhecimento multilíngue (GitHub).
- MQA - O corpus multilíngue de perguntas e respostas (MQA) analisou a partir do rastreamento comum.
- MMARCO - Versão multilíngue do conjunto de dados de classificação de passagem MS Marco.
- MROBUST - Versão multilíngue do conjunto de dados de classificação robusta Trec 2004
- Muliconer - um grande conjunto de dados multilíngue para reconhecimento de entidade nomeado.
- MUST -C - Corpus multilíngue de tradução de fala.
- OpenSubtitles - Coleção de legendas de filmes traduzidos.
- Oscar - Open Super Garge rastejou corpus agregado.
- Tatoeba - Um grande banco de dados de frases e traduções.
- TED2020 - contém um rastreamento de quase 4000 transcrições TED e TED -X a partir de julho de 2020.
- Tarefa-2022 do TSAR-2022-Tarefa compartilhada TSAR2022 sobre simplificação lexical.
- Wikiann - conjunto de dados de reconhecimento de entidade nomeado multilíngue que consiste em artigos da Wikipedia anotados com tags LOC (localização), por (pessoa) e org (organização) no formato IOB2.
- Wikilingua - conjunto de dados de resumo abstrato multilíngue extraído do WikiHow.
- Wikimatrix - sentenças paralelas em 1620 pares de idiomas da Wikipedia.
- Wikiner - Aprendendo o reconhecimento multilíngue multilíngue de entidade da Wikipedia.
- Wikineural - Criação de dados de prata neurais e baseados no conhecimento combinados para NER multilíngue (EMNLP 2021).
- Conjunto de dados da Wikipedia - Wikipedia contendo artigos limpos de todos os idiomas.
- XFormal - Uma referência para transferência de estilo de formalidade multilíngue.
- XLSUM - 1,35 milhão de pares de artigo -resumo anotado profissionalmente da BBC.
Léxico
- BATS -PT - Tradução manual da parte lexicográfica do maior conjunto de testes de analogia (BATS) para português
- BR.ISPELL - ISPELL DICIONÁRIO PARA BRACIONIANO PORTUGESE (GITHUB).
- ConceptNet - Um gráfico de conhecimento aberto e multilíngue.
- Dicsin - Dicionário de sinônimos e antônimos.
- Pacote LexicoNpt - R que fornece léxicos para análise de texto português.
- LEXICONS - Dicionários de nomes, sobrenomes, acrônimos e suas extensões, palavras de parada, etc.
- LIWC - Inquérito linguístico e contagem de palavras (dicionário)
- Ontologia lexical para o Português.
- OpenWordNet -PT - Um WordNet de acesso aberto para português (site).
- OPEXICON - Um léxico de sentimento para a língua portuguesa.
- Palavras - Lista de palavras de português brasileiros.
- Papel.
- PT -BR - Lista de palavras, verbos, conjugações, frequências de termo.
- PT-LKB-Base de conhecimento lexical-semântica português
- Pulo - ontologia lexical unificada portuguesa.
- Sentilex -PT - Um léxico de sentimento para português.
- Palavras de parada - coleção portuguesa.
- TEP2.
- Unitex -PB - Recursos Lexicais.
- Valexpb - um léxico dos verbos portugueses brasileiros valências.
- Verbnet.br 1.0 - léxico verbal de português brasileiros.
- Wikidict-DSL-PT-Dicionários DSL bilíngues Wikidata.
- WordNetaffectbr - Vocabulário das emoções palavras.
- WordNet.Br - Portugues WordNet.
Modelos
- Albertina Pt -BR - é um codificador da família Bert para a língua portuguesa - a variante americana do Brasil.
- Albertina PT -PT - É um codificador da família Bert para a língua portuguesa - a variante européia de Portugal.
- ALPACA-LORA-PTBR-Instrução de llama de baixo rank.
- Bart - Bart pré -treinado em Português.
- BERTIMBAU-A base de Bertimbau é um modelo de Bert pré-traido para o português brasileiro que atinge performances de última geração em três tarefas de NLP a jusante: reconhecimento de entidade nomeado, sentença de similaridade textual e reconhecimento de implicações textuais (GitHub).
- BIOBERTPT - Modelos Bert de ajuste fino treinados no domínio clínico para a linguagem portuguesa (GitHub).
- CABRITA - Uma llama portuguesa de instrução FinetUned (Github).
- DEBERTinha - Um Deberta V3 Xsmall adaptado à língua portuguesa brasileira (GitHub).
- Modelo Electra - Electra treinado no BRWAC.
- Gervasio -PT -BR - é um decodificador da família GPT para o idioma português - a variante americana do Brasil.
- Gervasio -PT -PT - é um decodificador da família GPT para o idioma português - a variante européia de Portugal.
- GLÓRIA 1.3B - Um modelo de idioma grande com foco na Europa português (Huggingface)
- GPT2 Small-GPportuguese-2 (português GPT-2 pequeno) é um modelo de idioma de última geração para português com base no modelo pequeno do GPT-2.
- GPT-Neo Small-Uma versão Finetuned do GPT-Neo 125m por Eletheurai ao idioma português.
- GPT2-BIO-PT-Uma versão Biomedical Finetuned de GPportuguese-2 (GitHub).
- NERDE -BASE - Bertimbau FinetuNeed para Ner em documentos judiciais.
- Roberta-pt-BR
- Robertacrawlpt-Base-Robertacrawlpt-Base é um modelo de linguagem mascarada portuguesa genérica pré-criada do zero do rastreamento corporal
- Robertalexpt -Base - Modelo de idioma mascarado português, pré -criado do zero do Legalpt e Crawlpt Corpora
- Sabiá - Sabiá -7b é um modelo de idioma português desenvolvido por Maritaca AI.
- Sabiá 2 - Modelo de idioma treinado no texto português, especialmente no domínio brasileiro.
- Modelo T5 - T5 sobre dados portugueses brasileiros.
- TGF-XLM-ROBERTA-BASE-PT-BR (GitHub)
- WAV2VEC-Facebook e wav2vec2-Large-XLSR-53 em português usando as divisões de trem e validação da Voz Common 6.1.
Modelos multilíngues
- BLOOM-Bigscience grande esciência aberta do modelo de linguagem multilíngue de acesso aberto.
- MBERT - Modelo pré -criado nos 104 idiomas principais com a maior Wikipedia usando um objetivo de modelagem de idiomas mascarado (MLM).
- Mdeberta
- MGPT - Modelo GPT multilíngue. Um modelo autoregressivo do tipo GPT.
- MMINILM-MMINILM-L6-V2 RERANKER FINETUNED no MMARCO
- MT5 - T5 multilíngue. Um transformador de texto em texto pré-treinado multilíngue massivamente multilíngue.
- Modelo XLM-ROBERTA-XLM-ROBERTA pré-treinado em 2,5 TB de dados de CommonCrawl filtrados contendo 100 idiomas.
- Labse-o codificador de sentença Bert-Agnóstico de linguagem (LABSE) é um modelo baseado em Bert treinado para incorporação de sentença para 109 idiomas.
Incorporação de palavras
- FastText - vetores de palavras multilíngues.
- Laser - Representações de frases agnósticas de linguagem.
- NILC -EBBEDDINGS - Word Incoreddings treinados em português pela USP.
- MUSE - INCLIMEIRAS MULINGINGRÁSTICAS ENCONTRADAS E SUPERVISADAS.
- vetores de palavras - vetores de palavras pré -treinados de mais de 30 idiomas.
Métricas
- COH-METRIX-PORT-Uma adaptação da ferramenta de análise de texto CoH-Metrix ao idioma português brasileiro.
- NILC -Metrix - Gatina as métricas desenvolvidas mais de uma década no NILC Lab.
Tabelas de classificação
- Tabela de classificação Open PT LLM - O Open PT LLM LIGLED ROBLEMELIVE PARA OPRESSAR UMA referência para a avaliação de grandes modelos de idiomas (LLMS) no idioma português em uma variedade de tarefas e conjuntos de dados.
Estruturas
- nlpnet
- Nltk
- poliglota
- Spacy
- Stanza NLP
- udpipe
Instituições
- Brasileiras em pln.
- HAILAB -PUCPR - Um grupo de pesquisa pioneiro com o objetivo de desenvolver soluções para cuidados de saúde usando processamento de linguagem natural e aprendizado de máquina.
- Linguateca.
- Nilc.
- NLPORTUGUES - Dedicado à criação de cursos de PNL em português brasileiros.
- NLX-Grupo.
- PLN PUCRS.
Ferramentas
- Apertium -Por - Dados linguísticos de abertura para português.
- Autocorreção - Corretor de ortografia em Python.
- BRGRAM - Fragmento gramatical computacional de português brasileiros no formalismo do LFG implementado no XLE.
- Dicio API - API do dicionário português.
- Dict-PT-BR-Dicionário para o português brasileiro.
- LanguageTool - Verificador de estilo e gramática para mais de 25 idiomas.
- LegalNLP - Métodos de processamento de linguagem natural para o idioma jurídico brasileiro.
- LEXML Parser - analisador para documentos legais.
- LX Parser - analisador estatístico do círculo eleitoral para português.
- metaphone -pTBr - algoritmo de metaphone para a língua portuguesa.
- MLCONJUG3 - Uma biblioteca Python para conjugar verbos em português e outros idiomas.
- Morphobr - Recursos para análise morfológica de português.
- Opcluster - Extração automática e agrupamento de opiniões de granulação fina.
- Phonemizer - Converter de texto para telefones simples para vários idiomas.
- Porgram - Gramática computacional de código aberto para português no formalismo HPSG.
- pacote pymetaphone -BR - algoritmo metaphone para o idioma português.
- PysEntimiento - kit de ferramentas multilíngues para análise de sentimentos e tarefas sociais de PNL.
- PyspellChecker - Verificação multilíngue de ortografia.
- RBAMR - Um analisador AMR baseado em regras para português.
- Verbecc - Conjugação completa de qualquer verbo usando aprendizado de máquina para francês, espanhol, português, italiano e romeno.
Outras listas
- Conjuntos de dados de relacionamentos semânticos anotados
- Conjuntos de dados linguísticos - conjuntos de dados linguísticos para português.
- Datasetos nerds para português
- Nilc
- Nilc 2
- Nilc 3
- Opinando - Mineração de Opinião para Português.
- Lista de dados portugueses
Outros links
- Opus - Opus é uma coleção crescente de textos traduzidos da web.
- Tradução de máquinas estatísticas e neurais.