Portugais-NLP
Liste des ressources et des outils développés en mettant l'accent sur le portugais.
Ensembles de données
- #PraceGover - ensemble de données multimodal avec des légendes portugaises basées sur des publications d'Instagram.
- Textes médicaux portugais du XVIIIe siècle
- AG_NEWS PT - Traduction automatique du corpus d'Ag Articles de presse.
- ALPACA DATA PT-BR - L'ensemble de données Alpaca Stanford traduit en portugais brésilien à l'aide du modèle Helsinki-NLP / Opus-MT-TC-Big-en-PT.
- Aspectbr - ensemble annoté basé sur l'aspect des avis sur les consommateurs Web.
- ASSIN - Un ensemble de données avec un score de similitude sémantique et des annotations d'implication. (Huggingface)
- ASSIN 2 - Séquence d'Assin. (Huggingface)
- Ensemble de données de score d'essai automatisé (AES) - Benchmark pour la notation automatique des essais en portugais (Huggingface)
- AYA Dataset Pt - Cohereforai Aya Dataset Filtrado Para Português (PT).
- BlogSet-BR - Une collection de messages recueillis à partir de la plate-forme BlogSpot écrite par des utilisateurs brésiliens.
- BLUEX - Une référence basée sur les examens d'entrée des universités brésiliennes.
- Boolq - Tradução Automática do boolq.
- BR-Quad-2.0 - Stanford Question répondant à Dataset (Squad) 2.0 traduit en langue portugaise brésilienne (PT-BR).
- Brands.br - Un corpus de revue portugais
- Décisions des tribunaux brésiliens - Collecte de 4043 EMENTA (Résumé) DÉCISIONS DE LA COURS ET LEURS MÉTADATES DU TRIBUNAL DE JUSTIQA DE ALAGOAS (TJAL), la Cour suprême de l'État d'Alagoas (Brésil).
- Brésilien e-commerce - ensemble de données publiques de commerce électronique brésilien par Olist Store.
- Tour de titres brésiliens - Ensemble de données contenant l'analyse des sentiments des agences de presse brésiliennes.
- Corpus de littérature portugaise brésilienne - 3,7 millions de mots de littérature brésilienne publiés entre 1840-1908.
- Essais narratifs portugais brésiliens - ensemble de données pour la notation automatique des essais des essais narratifs portugais brésiliens.
- Ensembles de données d'analyse du sentiment portugais brésilien.
- Jugements de la TCU brésilienne - Jugements de la Cour fédérale de comptes - Brésil (TCU).
- BRWAC - Web portugais brésilien en tant que corpus.
- BRWAC2WIKI - Un ensemble de données pour la résumé multi-documents en portugais.
- B2W-Reviews01 - Revues de produits.
- Canarim - un ensemble de données à grande échelle de pages Web dans la langue portugaise (HuggingFace)
- Carolina - Corpus Geral do Português Brasileiro Contemporâneo (Huggingface).
- Capes - Corpus parallèle des thèses et dissertations résumés en anglais et en portugais.
- CC100-PORTUGAIS - Créé par Conneau & Wenzek et al. à 2020. Cet ensemble de données est l'un des 100 corpus de données monolingues qui ont été traitées à partir des instantanés CommonCrawl de janvier-décembre 2018 du référentiel CC-Net.
- CETENFOLHA - News du journal Folha de S. Paulo.
- Chave - Collection pour la recherche d'informations et la réponse aux questions.
- Cintil Corpus - Un corpus interprété linguistique de portugais.
- Clinicalner - Clinical Named Entity Reconnaissance en portugais.
- Complexidade textuelle para estágios esclaolares do sistema educacional brasileiro.
- CORAA - ensemble de données pour la reconnaissance automatique de la parole.
- Coraa Ser - Reconnaissance des émotions du discours spontané informel portugais brésilien.
- Crawlpt_dedup - Le rampe (dédupliquée) est composé par trois corpus: BRWAC, C100-PT, OSCAR-2301.
- CSTNEWS - Un corpus avec 50 grappes de textes d'actualités avec leurs résumés multi-documents, ainsi que plusieurs discours et annotations sémantiques.
- C-oral-Brasil - Ce projet est dédié à l'étude du discours spontané brésilien portugais et, plus largement, à la compilation des corpus parlées.
- Dantestocks - Corpus de tweets boursiers écrits en portugais brésilien et annoté avec des entités nommées selon la taxonomie de Harem.
- Deepaggé - Répondre aux questions en portugais sur l'environnement brésilien.
- DNLT-BP - ensembles de données des tests de langue neuropsychologique en portugais brésilien.
- ENTER Challenge - consiste en la rédaction d'un essai et une partie objective contenant 180 questions à choix multiples.
- ENTER-2022 et ENNECT-2023 - Ces projets englobent toutes les questions à choix multiples des deux dernières éditions de l'exame nacional do Ensino Médio (ennemis), le principal examen d'entrée standardisé adopté par les universités brésiliennes.
- Essay-Br - Essay-Br: un corpus d'essais pour la langue portugaise brésilienne.
- Essay-Br étendu - version étendue du corpus d'essai-BR.
- FACTCK.BR - Un ensemble de données pour étudier les fausses nouvelles en portugais.
- FACTNEWS - ensemble de données pour prédire la factualité au niveau des phrases des reportages.
- Fake Voices - Deepfakes en brésilien portugais créé avec le modèle XTTS.
- FAUX.BR - Alignement des nouvelles vraies et fausses écrites en portugais brésilien (Hugginface).
- Central_de_fatos - (HuggingFace).
- FAKEWSETSET - (HUGGINGFACE).
- Fakepedia-Corpus - Fake News Dataset.
- Fakerecogna - ensemble de données composé de réelles et de fausses nouvelles (Huggingface).
- FAUX WHATSAPP.BR - Un corpus annoté de messages WhatsApp dans PT-BR pour la détection automatique de la désinformation textuelle.
- FKTC - Fake News Text Collections.
- Floresta sintá (c) Tica - Treebank pour portugais.
- Harem First - Concours d'évaluation pour les reconnaissances d'entités nommées en portugais.
- Harem Second - Concours d'évaluation pour les reconnaissances d'entités nommées en portugais.
- HAITBR - Expert à grande échelle Annoted Corpus of Brésilien Instagram Commentaires pour le discours de haine et la détection des langues offensives sur le Web et les médias sociaux.
- Corpares portugais historiques - Outils et ressources pour la manipulation des corpus historiques et la gestion des dictionnaires historiques.
- IMDB PT - Tradução Atomática do IMBD.
- Ensemble de données d'inférence du langage naturel.
- L'ensemble de données Iudium Textum - contient des documents juridiques créés par la Cour suprême fédérale brésilienne dans sa composition intégrale (document).
- Lener-BR - un ensemble de données pour la reconnaissance des entités nommée dans le texte juridique brésilien.
- Legtpt_dedup - Legtpt (dédupliqué) regroupe le montant maximal des données juridiques accessibles au public en portugais.
- Lex2Kids - Lexicon en portugais le plus entendu par les enfants.
- MAC-MORPHO - Textes portugais brésiliens annotés avec des étiquettes de disposition.
- Milkqa - un ensemble de données de questions denses pour la tâche de sélection des réponses.
- Procès-verbal de la Banque centrale du Brésil - Procès-verbal du comité de politique monétaire de la Banque centrale du Brésil.
- Ner en tweets portugais brésiliens - Messages Twitter dans PT-BR Annoté pour les entités Per, LOC et Org.
- NERDE - Documents de la jurisprudence de Cade annotés pour les entités Org, Per, Tempo, Loc, LEG (Législation), Docs (documents), Valor.
- News-Crawl-PT - Crawl de nouvelles monolingues utilisé pour WMT.
- Nouvelles du site Folha de São Paulo - Nouvelles du journal brésilien Folha de São Paulo.
- Nouvelles publiées au Brésil - Compilation d'actualités du groupe Globo.
- Examens OAB - Version brésilienne de l'examen BAR (USA) (HuggingFace).
- Corporations parallèles de Revista Pesquisa Fapesp - Portugais-anglais et portugais-collections bilingues-espanales des numéros en ligne du magazine brésilien scientifique Revista Pesquisa Fapesp.
- Nurc-sp
- Pirá - Un ensemble de données bilingues portugais-anglais pour les questions sur l'océan.
- PL-Corpus - Une partie de l'Ulyssesner-Br, un corpus de documents législatifs brésiliens pour NER avec des lignes de base de qualité.
- PLUE - Traduction portugaise de l'ensemble de données de colle de colle et de Scitail.
- Poetisa - Traitement portugais - vers l'analyse syntaxique et l'analyse.
- Polititiments - ensembles de données liés au projet Politiquise.pt.
- PorsImplessente - des paires de phrases alignées pour enquêter sur l'évaluation de la lisibilité aux phrases.
- Portilexicon-ud - un lexique pour les portugais brésiliens selon les dépendances universelles.
- Portugais-Hate-Speech-Dataset - Dataset portugais pour détection de discours de haine composé de 5 668 tweets avec annotations binaires (c'est-à-dire 'haine' contre 'non haine') (HuggingFace)
- Consentements juridiques portugais - Collection de peines juridiques de la Cour suprême portugaise de justice.
- Élections présidentielles portugaises - Cet ensemble de données contient des tweets et des utilisateurs principalement de la Twittersphere portugaise.
- Pracegover - ensemble de données multimodal contenant des images associées aux légendes portugaises basées sur des publications d'Instagram.
- Corpus d'opinion à grains fins PRIBERAM - Un corpus d'exploitation d'opinion à grains fins portugais.
- Propbank - contient des instances annotées avec des étiquettes de rôle sémantique (SRL).
- Projeto ACDC - Accès Internet aux corpus.
- Puntugais - Un corpus de jeux de mots en portugais avec des micro-éditions (Huggingface)
- QA-PORTIGAIS - Adaptation de la division portugaise de l'ensemble de données MQA (AQ Faire des paires).
- Quati - Cet ensemble de données vise à prendre en charge le développement de systèmes brésiliens portugais (PT-BR) de la récupération des informations (IR), fournissant des passagens de documents créés à l'origine dans PT-BR, ainsi que des requêtes (sujets) créées par des locuteurs natifs.
- Rebel-Portugais - Datasets de Relações a Partir da Wikipedia.
- Reli - resenha de livros.
- Repro: un ensemble de données de référence pour l'exploitation d'opinion pour le portugais brésilien - un ensemble de données de référence pour l'exploitation d'opinion pour le portugais brésilien. (Huggingface)
- RHETALHO - CORPUS a annoté avec RSTTool de Daniel Marcu.
- SEMCLINBR - Corpus sémantiquement annoté multi-institutionnel et multi-spécialté pour les tâches NLP cliniques portugais.
- Sesame - Corpus pour NER en portugais.
- Sigarra News Corpus - Système d'information Sigarra à l'Université de Porto.
- Simplex-PB - une base de données de simplification lexicale et une référence pour Portugais.
- Simplex-PB-2.0 - Version améliorée de Simplex-PB.
- Simplex-PB-3.0 - Nouvelle version de Simplex-PB.
- Sous-ensemble de Spotify - Classification des variations linguistiques en brésilien portugais
- Squad-PT V1.1 - Traduction portugaise de l'ensemble de données d'escouade.
- Squad-PT V1.1-PT-BR - Traduction portugaise brésilienne de l'ensemble de données d'escouade, traduite par Deep Learning Brasil.
- Squad-PT v2.0 - Traduction portugaise de l'ensemble de données Squad 2.0.
- SST-2 PT - Traduction automatique de la banque Treebank de Stanford Sentiment.
- Temário - Les textes d'actualités et les résumés humains correspondants à des fins de résumé.
- Corpus de complexité textuelle - Corpus de complexité textuelle pour les stages scolaires dans le système éducatif brésilien.
- Tell-BR - Détection de la langue toxique dans les médias sociaux pour le portugais brésilien (Github).
- TTS-PORPUSE CORPUS - Texte à la parole portugaise.
- TweesentBr - Tweets en portugais brésilien.
- Tweets pour l'analyse des sentiments.
- UD_PORTIGAIS-BOSQUE - Dépendances universelles (UD) Portugais TreeBank.
- UD_PORTIGAIS-CINTIL - Dépendances universelles (UD) Portugais TreeBank.
- UD_PORTIGAIS-GSD - Dépendances universelles (UD) Portugais TreeBank.
- UD_PORTIGAIS-PETROGOLD - Dépendances universelles (UD) Portugais TreeBank.
- UD_PORTIGAIS-pud - Dépendances universelles (UD) Portugais TreeBank.
- Ulyssesner-Br - Corpus des documents législatifs brésiliens pour la reconnaissance des entités nommées
- UTLCORPUS - Un corpus de critiques en ligne en portugais brésilien annoté avec une classification de l'utilité.
- Challenge de schéma Winograd - Solver pour le défi du schéma Winograd basé portugais.
- Wizardvicuna-ptbr-instruct-Clean - Wizard Vicuna PT-BR Instruct Clean DataSet.
Ensembles de données multilingues
- Un ensemble de données multilingues pour étudier les stéréotypes et les attitudes négatives envers les groupes de migrants dans les modèles de grande langue
- Ensemble de données ASKD - ELI5 Adapté sur les questions médicales (ASKDOCS) Subdredit.
- Phrases anglaise-portugais - phrases anglaise-portugais du projet Tatoeba.
- EUR-flux - Corpus multilingue dans toutes les langues officielles de l'Union européenne.
- EUROPARL - Procédure du Parlement européen Corpus parallèle 1996-2011.
- Europarl-St - Corpus de traduction de la parole multilingue, qui contient des échantillons de texte audio-paires pour la traduction de la parole, construits en utilisant les débats effectués au Parlement européen entre 2008 et 2012.
- MC4 - version colossale multilingue et nettoyée de Common Craw's Web Crawl Corpus. Basé sur l'ensemble de données Crawl commun.
- MFAQ - Corpus multilingue de questions fréquemment posées analysées de la rampe commune.
- MKQA - Questions et réponses de connaissances multilingues (GitHub).
- MQA - Corpus multilingue de questions et réponses (MQA) analysées de la frawal commune.
- MMARCO - Version multilingue de l'ensemble de données de classement de passage MS Marco.
- MROBUST - Version multilingue du TREC 2004 Robust Passage Ranking DataSet
- Multiconer - un grand ensemble de données multilingues pour la reconnaissance des entités nommée.
- MUST-C - Corpus de traduction de la parole multilingue.
- OpenSubtitles - Collection de sous-titres de films traduits.
- Oscar - Corpus agrégé super grand ouvert a rampé.
- Tatoeba - Une grande base de données de phrases et de traductions.
- TED2020 - contient une balade de près de 4000 transcriptions TED et TED-X à partir de juillet 2020.
- TSAR-2022-tâches-tâches - tâche partagée TSAR2022 sur la simplification lexicale.
- Wikiann - Ensemble de données de reconnaissance entités multilingues composé d'articles Wikipedia annotés avec LOC (emplacement), PER (personne) et Org (Organisation) Tags au format IOB2.
- WikilingUa - ensemble de données de résumé abstractif multilingue extrait de Wikihow.
- Wikimatrix - phrases parallèles en 1620 paires de langues de Wikipedia.
- Wikiner - Apprendre la reconnaissance des entités nommées multilingues de Wikipedia.
- Wikineural - Création combinée de données en argent neuronal et de connaissances pour le NER multilingue (EMNLP 2021).
- Wikipedia - ensemble de données Wikipedia contenant des articles nettoyés de toutes les langues.
- Xformal - une référence pour le transfert de style de formalité multilingue.
- XLSUM - 1,35 million de paires d'articles-en été annotées professionnelles de la BBC.
Lexique
- Bats-PT - Traduction manuelle de la partie lexicographique du plus grand ensemble de tests analogiques (chauves-souris) aux portugais
- Br.ispell - Dictionnaire Ispell pour le portugais brésilien (Github).
- ConceptNet - Un graphique de connaissances multilingues ouverts.
- Dicsin - Dictionnaire des synonymes et des antonymes.
- Package lexique - R qui fournit des lexiques pour l'analyse du texte portugais.
- Lexique - Dictionnaires des noms, noms de famille, acronymes et ses extensions, mots d'arrêt, etc.
- LIWC - Enquête linguistique et nombre de mots (dictionnaire)
- Sur.pt - Ontologia lexical para o Português.
- OpenWordNet-PT - Un WordNet à accès ouvert pour portugais (site).
- Oplexicon - Un lexique de sentiment pour la langue portugaise.
- Palavras - Liste des mots du portugais brésilien.
- Papel.
- PT-BR - liste de mots, verbes, conjugaisons, fréquences de termes.
- PT-LKB - Grande base de connaissances lexicales de la lexicale portugaise
- Pulo - Ontologie lexicale unifiée portugaise.
- Sentilex-PT - Un lexique de sentiment pour portugais.
- MOTS STOCK MOTS - Collection de mots arrêtés portugais.
- TEP2.
- Unitex-PB - Ressources lexicales.
- VALEXPB - Un lexique des valences verbales portugaises brésiliennes.
- Verbnet.BR 1.0 - lexique verbal du portugais brésilien.
- Wikict-DSL-PT - Wikidata Bilingual DSL Dictionnaires.
- WordNetAffectBr - Vocabulaire des mots d'émotions.
- Wordnet.br - WordNet portugais.
Modèles
- Albertina Pt-Br - C'est un encodeur de la famille Bert pour la langue portugaise - la variante américaine du Brésil.
- Albertina PT-PT - C'est un encodeur de la famille Bert pour la langue portugaise - la variante européenne du Portugal.
- Alpaca-Lora-PTBR - Instruct de LLAMA à faible rang.
- Bart - Bart Pre-Treinado em Português.
- Bertimbau - Bertimbau Base est un modèle Bert pré-entraîné pour le portugais brésilien qui atteint des performances de pointe sur trois tâches NLP en aval: reconnaissance de l'entité nommée, similitude textuelle de la phrase et reconnaissance textuelle (github).
- Biobertpt - Modèles de Bert ajustés formés sur le domaine clinique pour la langue portugaise (Github).
- CABRITA - Un Llama d'instructions portugais finetuned (github).
- Debertinha - A deberta v3 xsmall adapté à la langue portugaise brésilienne (github).
- Modèle Electra - Electra formé sur BRWAC.
- Gervasio-PT-Br - C'est un décodeur de la famille GPT pour la langue portugaise - la variante américaine du Brésil.
- Gervasio-PT-PT - C'est un décodeur de la famille GPT pour la langue portugaise - la variante européenne du Portugal.
- Glória 1.3b - un modèle de grand langage axé sur l'Europe portugais (Huggingface)
- GPT2 Small - Gptortugais-2 (Portugais GPT-2 Small) est un modèle de langue de pointe pour Portugais basé sur le modèle GPT-2 Small.
- GPT-Neo Small - Une version finetuned de GPT-Neo 125m par Eletheurai à la langue portugaise.
- GPT2-BIO-PT - Une version biomédicale finetuned de Gptortugais-2 (Github).
- Nerde-Base - Bertimbau Finetuned à NER sur des documents judiciaires.
- Roberta-Pt-Br
- RobertAcrawlpt-base - RobertAcrawlpt-base est un modèle de langue masquée portugais générique pré-entraîné à partir de zéro depuis les corpus rampants
- Robertalexpt-base - modèle de langue masquée portugaise pré-entraînée à partir de zéro des corpus légaux et rampants
- Sabiá - Sabiá-7b est un modèle de langue portugaise développé par Maritaca AI.
- Sabiá 2 - Modèle de langue formé sur le texte portugais, en particulier dans le domaine brésilien.
- T5 - Modèle T5 sur les données portugaises brésiliennes.
- TGF-XLM-Roberta-Base-PT-BR (GitHub)
- WAV2VEC - Facebook fini fin / WAV2VEC2-LARGE-XLSR-53 sur Portugais en utilisant le train et les divisions de validation de la voix commune 6.1.
Modèles multilingues
- Bloom - BigScience Large-Science Open-Access Multantial Language Modèle.
- MBERT - Modèle pré-entraîné sur les 104 premières langues avec le plus grand Wikipedia en utilisant un objectif de modélisation de la langue masquée (MLM).
- mdeberta
- MGPT - Modèle GPT multilingue. Un modèle autorégressif de type GPT.
- Mminilm - Mminilm-L6-V2 RERANKER FINETUNED SUR MMARCO
- MT5 - T5 multilingue. Un transformateur de texte à texte pré-formé massivement multilingue.
- XLM-Roberta - Modèle XLM-Roberta pré-formé sur 2,5 To de données filtrées CommonCrawl contenant 100 langues.
- LABSE - Encodeur de phrase Bert Langse-Angnostique (LabSE) est un modèle basé à Bert formé pour l'intégration de la phrase pour 109 langues.
Incorporation de mots
- FastText - Vectors de mots multilingues.
- Laser - Représentations de phrases en langage-agnostique.
- NILC-EMBEDDINGS - Les intérêts des mots formés en portugais par USP.
- Muse - multilingues non surveillées et supervisées.
- Vecteurs de mots - Vectors de mot pré-formés de plus de 30 langues.
Métrique
- CoH-Metrix-Port - Une adaptation de l'outil d'analyse de texte CoH-Metrix à la langue portugaise brésilienne.
- NILC-Metrix - Il rassemble les mesures développées sur plus d'une décennie dans le laboratoire NILC.
Classement
- Open PT LLM Leadboard - Open PT LLM Leadboard vise à fournir une référence pour l'évaluation des modèles de grands langues (LLM) dans la langue portugaise sur une variété de tâches et de jeux de données.
Frameworks
- nlpnet
- NLTK
- polyglotte
- spality
- NLP de strophe
- udpipe
Institutions
- Brasileiras em pln.
- HAILAB-PUCPR - Un groupe de recherche pionnier visant à développer des solutions pour les soins de santé en utilisant le traitement du langage naturel et l'apprentissage automatique.
- Linguateca.
- Nilc.
- NLPPORUGUES - Consulté à la création de cours de PNL en Portugais brésilien.
- Groupe NLX.
- PLN PUCRS.
Outils
- Apertium-Por - Données linguistiques d'ouverture pour Portugais.
- Correction automatique - Correcteur d'orthographe en python.
- BRGRAM - Fragment de grammaire informatique du Portugais brésilien dans le formalisme LFG mis en œuvre dans XLE.
- API DICIO - API du dictionnaire portugais.
- Dict-Pt-Br - Dictionnaire pour le portugais brésilien.
- Languagetool - Style et vérificateur de grammaire pour plus de 25 langues.
- MÉDEAU MADIOLNLP - Méthodes de traitement du langage naturel pour la langue juridique brésilienne.
- Parser LEXML - Parser pour les documents juridiques.
- Parser LX - analyseur de circonscription statistique pour le portugais.
- Metaphone-PTBR - Algorithme de métaphone pour la langue portugaise.
- MlConjug3 - Une bibliothèque Python pour conjuguer les verbes en portugais et autres langues.
- Morphobr - Ressources pour l'analyse morphologique du portugais.
- OPCLUSER - Extraction automatique et regroupement d'opinions grasses.
- PHONIMIZER - CONVERTISSEMENT DE TEXT-TO TÉLÉPHONES SIMPLE pour plusieurs langues.
- Porgram - Grammaire de calcul open source pour le portugais dans le formalisme HPSG.
- Pymétaphone-BR - Algorithme de métaphone pour la langue portugaise.
- Pysentimiento - boîte à outils multilingues pour l'analyse des sentiments et les tâches sociales NLP.
- Pyspellchecker - Vérification des orthographes multilingues.
- RBAMR - Un analyseur AMR basé sur des règles pour le portugais.
- Verbecc - Conjugaison complète de tout verbe utilisant l'apprentissage automatique pour le français, l'espagnol, le portugais, l'italien et le roumain.
Autres listes
- Ensembles de données de relations sémantiques annotées
- Ensembles de données linguistiques - ensembles de données linguistiques pour portugais.
- NER-Datasets pour portugais
- Nilc
- Nilc 2
- Nilc 3
- Opinando - Exploration d'opinion pour portugais.
- Liste des ensembles de données portugais
Autres liens
- Opus - Opus est une collection croissante de textes traduits du Web.
- Traduction de machine statistique et neuronale.