Portugués-PLA
Lista de recursos y herramientas desarrolladas con enfoque en portugués.
Conjuntos de datos
- #PraceGover: conjunto de datos multimodal con subtítulos portugueses basados en publicaciones de Instagram.
- Textos médicos portugueses del siglo XVIII
- AG_NEWS PT - Traducción automática del corpus de artículos de noticias AG.
- Datos de Alpaca PT-Br-Estanford Alpaca DataSet traducido al portugués brasileño utilizando el modelo Helsinki-NLP/OPUS-MT-TC-BIG-EN-PT.
- AspectBR - conjunto de datos anotado basado en aspectos de revisiones de consumo web.
- Assin: un conjunto de datos con puntaje de similitud semántica y anotaciones de implicación. (Huggingface)
- Assin 2 - secuencia de Assin. (Huggingface)
- Puntaje de ensayo automatizado (AES) Enemet de datos de enemigos: punto de referencia para la puntuación de ensayos automáticos en portugués (Facefac de Hugging)
- AYA DATASET PT - CohereForai Aya DataSet Filtrado Para Português (PT).
- BlogSet -Br: una colección de publicaciones recopiladas de la plataforma BlogSpot escrita por usuarios brasileños.
- Bluex: un punto de referencia basado en los exámenes de ingreso de las universidades líderes brasileños.
- Boolq - Tradução Automática do Boolq.
- BR-Quad-2.0-Stanford Pregunta Responder el conjunto de datos (Escuadrón) 2.0 Traducido al idioma portugués brasileño (PT-BR).
- Brands.Br - Un corpus de reseñas portuguesas
- Decisiones de la Corte Brasileña - Recaudación de 4043 ementa (resumen) Decisiones judiciales y sus metadatos del Tribunal de Justiça de Alagoas (Tjal), la Corte Suprema del Estado de Alagoas (Brasil).
- Comercio electrónico brasileño-conjunto de datos públicos de comercio electrónico brasileño de Olist Store.
- Titulares brasileños Sentimientos: conjunto de datos que contiene análisis de sentimientos de los titulares de las agencias de noticias brasileñas.
- Corpus de literatura portuguesa brasileña - 3.7 millones de Word Corpus de literatura brasileña publicada entre 1840-1908.
- Ensayos narrativos portugueses brasileños del conjunto de datos de datos - conjunto de datos para la puntuación automática de ensayos de ensayos narrativos portugueses brasileños.
- Conjuntos de datos de análisis de sentimientos portugueses brasileños.
- Los juicios de TCU brasileño - Juicios de la Corte Federal de Cuentas - Brasil (TCU).
- BRWAC - Brasileña Web Portuguese como corpus.
- BRWAC2WIKI - Un conjunto de datos para resumen de documentos múltiples en portugués.
- B2W -reviews01 - Revisiones de productos.
- Canarim: un conjunto de datos a gran escala de páginas web en el lenguaje portugués (Facefactor de Hugging)
- Carolina - Corpus Geral do Português Brasileiro Contemporâneo (Facefactor de Hugging).
- Capas - Corpus paralelo de tesis y disertaciones Resúmenes en inglés y portugués.
- CC100 -Portute - Creado por Conneau & Wenzek et al. en 2020. Este conjunto de datos es uno de los 100 corpus de datos monolingües que se procesaron a partir de las instantáneas CommonCrawl CommonCraw de enero a diciembre de 2018 del repositorio de la red CC.
- Cetenfolha - Noticias del periódico Folha de S. Paulo.
- Chave - Recopilación para recuperación de información y respuesta de preguntas.
- Corpus Cintil: un corpus de portugués interpretado lingüísticamente.
- Clínica - Reconocimiento clínico con nombre de entidad en portugués.
- ComplexiDade textual para estácios escolares do sistema educacional brasileiro.
- Coraa - conjunto de datos para reconocimiento automático de voz.
- Coraa Ser - Reconocimiento de emociones del discurso espontáneo informal portugués brasileño.
- Crawlpt_dedup-Crawlpt (deduplicado) está compuesto por tres corpus: BRWAC, C100-PT, Oscar-2301.
- CSTNEWS: un corpus con 50 grupos de textos de noticias con sus resúmenes de documentos múltiples, así como varias anotaciones de discurso y semántica.
- C-ORAL-Brasil: este proyecto está dedicado al estudio del habla espontánea portuguesa brasileña y, en general, a la compilación de corporativos hablados.
- Dantestocks - Corpus of Stock Market Tweets escritos en portugués brasileño y anotado con entidades nombradas según la taxonomía de Harem.
- Deepagé - Respondiendo preguntas en portugués sobre el entorno brasileño.
- DNLT -BP - conjuntos de datos de pruebas de lenguaje neuropsicológico en portugués brasileño.
- Enem Desafío: consiste en la escritura de un ensayo y una parte objetiva que contiene 180 preguntas de opción múltiple.
- Enem-2022 y Enem-2023: estos proyectos abarcan todas las preguntas de opción múltiple de las dos últimas ediciones de Exame Nacional Do Ensino Médio (enem), el principal examen de ingreso estandarizado adoptado por las universidades brasileñas.
- Ensayo-Br-Ensayo-Br: un corpus de ensayos para el idioma portugués brasileño.
- Ensayo extendido-Br-Versión extendida del Corpus de Ensayo-B.
- FACTCK.BR - Un conjunto de datos para estudiar noticias falsas en portugués.
- FactNews - conjunto de datos para predecir la facturidad de los informes de noticias a nivel de oración.
- Voces falsas: los profundos en los portugueses brasileños creados con el modelo XTTS.
- Falso.br: noticias verdaderas y falsas alineadas escritas en portugués brasileño (Hugginface).
- Central_de_fatos - (Facefactor de Hugging).
- FAKINEWSSET - (Huggingface).
- Falsepedia -Corpus - conjunto de datos de noticias falsas.
- Fakerecogna - conjunto de datos compuesto por noticias reales y falsas (Huggingface).
- Falsewhatsapp.br: un corpus anotado de mensajes de WhatsApp en PT -BR para la detección automática de información errónea textual.
- FKTC - Colecciones de mensajes de texto de noticias falsas.
- Floresta Sintá (C) Tica - Trebank para portugués.
- Harem Primero - Concurso de evaluación para reconocedores de entidades nombrados en portugués.
- Harem Segundo - Concurso de evaluación para reconocedores de entidades nombrados en portugués.
- HateBr - Experto a gran escala Anotado Corpus of Brasilian Instagram Comentarios para el discurso de odio y la detección de idiomas ofensivos en la web y las redes sociales.
- Corporación portuguesa histórica: herramientas y recursos para la manipulación de corpus históricos y la gestión de diccionarios históricos.
- IMDB PT - Tradução Atomática do Imbd.
- InferBr - conjunto de datos de inferencia del lenguaje natural.
- Iudicium Textum DataSet: contiene documentos legales creados por la Corte Suprema Federal Brasileña en su composición integral (documento).
- Lener -Br: un conjunto de datos para el reconocimiento de entidades nombrado en texto legal brasileño.
- LegalPT_DEDUP - LegalPT (deduplicado) Agrega la cantidad máxima de datos legales disponibles públicamente en portugués.
- LEX2KIDS - Léxico en portugués más escuchado por los niños.
- Mac-Morpho-Textos portugueses brasileños anotados con etiquetas de parte del voz.
- Milkqa: un conjunto de datos de preguntas densas para la tarea de selección de respuestas.
- Actas del Banco Central de Brasil: actas del Comité de Política Monetaria del Banco Central de Brasil.
- Ner en tweets portugueses brasileños: mensajes de Twitter en PT -BR anotados para las entidades por, loc y org.
- Nerde - Documentos de la jurisprudencia de Cade anotadas para las entidades org, per, tempo, loc, pierna (legislación), documentos (documentos), valor.
- News-Rrawl-Pt-Crawl monolingüe de noticias utilizados para WMT.
- Noticias del sitio Folha de São Paulo - Noticias del periódico brasileño Folha de São Paulo.
- Noticias publicadas en Brasil - Compilación de noticias del grupo Globo.
- Exámenes OAB - Versión brasileña del examen de bar (EE. UU.) (Huggingface).
- Corporativos paralelos de Revista Pesquisa Fapesp-Colecciones bilingües de inglés portugués y españolas de los temas en línea de la revista brasileña de las noticias científicas Revista Pesquisa Fapesp.
- Nurc-sp
- Pirá: un conjunto de datos bilingüe de inglés, inglés para respirar sobre el océano.
- PL-Corpus-Parte de Ulyssesner-Br, un corpus de documentos legislativos brasileños para NER con líneas de base de calidad.
- Plue - Traducción portuguesa del punto de referencia de pegamento y el conjunto de datos Scitail.
- Poetisa - Procesamiento portugués - Hacia el análisis sintáctico y el análisis.
- Políticas: conjuntos de datos relacionados con el proyecto Politiquices.PT.
- Porsimpressent: de pares de oraciones alineadas para investigar la evaluación de la legibilidad de las oraciones.
- Portiléxico -UD: un léxico para portugués brasileño según las dependencias universales.
- Portugués-odiente-expresión-dataSet-Detección de datos portugueses para el discurso de odio compuesto por 5,668 tweets con anotaciones binarias (es decir, 'odio' verss. 'sin odio') (cara de abrazo)
- Sentencias legales portuguesas - Colección de sentencias legales de la Corte Suprema de Justicia portuguesa.
- Elecciones presidenciales portuguesas: este conjunto de datos contiene tweets y usuarios principalmente de la Portuña Twittersphere.
- PraceGover: un conjunto de datos multimodal que contiene imágenes asociadas a los subtítulos portugueses basados en publicaciones de Instagram.
- PRiberam Corpus de opinión de grano fino: un corpus minero de Opinición de dependencia de grano fino portugués.
- PropBank: contiene instancias anotadas con etiquetas semánticas de roles (SRL).
- ProJeto ACDC - Acceso a Internet a los corpus.
- Puntuguese: un corpus de juegos de palabras en portugués con micro ediciones (cara de abrazo)
- Qa -Portugar - Adaptación del conjunto de datos MQA Portuguese Split (QA Pares de implicación).
- Quati: este conjunto de datos tiene como objetivo admitir desarrollo de sistemas de recuperación de información (IR) brasileño (PT-BR), proporcionando documentos Passagens originalmente creados en PT-BR, así como consultas (temas) creados por hablantes nativos.
- Rebel -portugués - DataSets de Relações A Partir da Wikipedia.
- Reli - Resenha de Livros.
- Repro: un conjunto de datos de referencia para la minería de opinión para portugués brasileño: un conjunto de datos de referencia para la minería de opinión para portugués brasileño. (Huggingface)
- Rhetalho - Corpus anotado con RSTTool de Daniel Marcu.
- SEMCLINBR-Corpus multiinstitucional y de especialidades múltiples anotadas semánticamente para tareas clínicas de PNL clínicas portuguesas.
- Sesame - Corpus para NER en portugués.
- Sigarra News Corpus - Sistema de información de Sigarra en la Universidad de Porto.
- Simplex -PB: una base de datos de simplificación léxica y un punto de referencia para portugués.
- Simplex-PB-2.0-Versión mejorada de Simplex-PB.
- Simplex-PB-3.0-nueva versión de Simplex-PB.
- Subconjunto de Spotify: clasificación de variaciones de lenguaje en portugués brasileño
- Squad -Pt V1.1 - Traducción portuguesa del conjunto de datos del escuadrón.
- Squad-Pt V1.1-PT-Br-Traducción portuguesa brasileña del conjunto de datos de escuadrón, traducido por Deep Learning Brasil.
- Squad -Pt v2.0 - Traducción portuguesa del conjunto de datos Squad 2.0.
- SST -2 PT - Traducción automática del Stanford Sentiment Treebank.
- Temário - Textos de noticias y los resúmenes humanos correspondientes para fines de resumen.
- Corpus de complejidad textual - Corpus de complejidad textual para pasantías escolares en el sistema educativo brasileño.
- Tell -Br - Detección de idiomas tóxicos en las redes sociales para portugués brasileño (GitHub).
- TTS -Portuguese Corpus - Texto al discurso portugués.
- TweetsentBR - Tweets en portugués brasileño.
- Tweets para análisis de sentimientos.
- UD_PORTUGUESE -BOSQUE - Dependencias universales (UD) Portuguese TreeBank.
- UD_PORTUGUESE -CINTIL - Dependencias universales (UD) Portuguese TreeBank.
- UD_PORTUGUESE -GSD - Dependencias universales (UD) Portuguese TreeBank.
- UD_PORTUGUESE -PETROGOLD - Dependencias universales (UD) Portuguese TreeBank.
- UD_PORTUGUESE -PUD - Dependencias universales (UD) Portuguese TreeBank.
- Ulyssesner -Br - Corpus de documentos legislativos brasileños para el reconocimiento de entidades nombradas
- UTLCorpus: un corpus de revisiones en línea en portugués brasileño anotado con clasificación de ayuda.
- Winograd Schema Challenge - Solucionador para el desafío de esquema de Winograd con sede en portugués.
- WizardVicuna-PtBr-Instructo-Clean-Wizard Vicuna PT-BR Instruir el conjunto de datos limpios.
Conjuntos de datos multilingües
- Un conjunto de datos multilingüe para investigar los estereotipos y actitudes negativas hacia los grupos de migrantes en modelos de idiomas grandes
- Askd - ELI5 DataSet Adaptado en preguntas médicas (askdocs) subreddit.
- Oraciones inglesas-portuguas: oraciones inglesas-portuguas del Proyecto Tatoeba.
- EUR -LEX - Corpus multilingüe en todos los idiomas oficiales de la Unión Europea.
- Europarl - Actas del Parlamento Europeo Paralelo Corpus 1996-2011.
- Europarl-St-Corpus multilingüe de traducción del habla, que contiene muestras de texto de audio emparejadas para la traducción del habla, construidas utilizando los debates llevados a cabo en el Parlamento Europeo en el período entre 2008 y 2012.
- MC4 - Versión multilingüe colosal y limpia del Corpus Web Crawl de Common Crawl. Basado en el conjunto de datos de rastreo común.
- MFAQ - Corpus multilingüe de preguntas frecuentes analizadas por el rastreo común.
- MKQA - Preguntas y respuestas de conocimiento multilingüe (GitHub).
- MQA - Corpus multilingüe de preguntas y respuestas (MQA) analizadas por el rastreo común.
- MMARCO - Versión multilingüe del conjunto de datos de clasificación MS Marco Passage.
- MROBUST - Versión multilingüe del conjunto de datos de clasificación de pasaje robusto TREC 2004
- Multiconer: un gran conjunto de datos multilingüe para el reconocimiento de entidades con nombre.
- Must -C - Corpus multilingüe de traducción del habla.
- OpenSubtitles - Colección de subtítulos de películas traducidas.
- Oscar: un corpus agregado de rastreo súper grande abierto.
- Tatoeba: una gran base de datos de oraciones y traducciones.
- TED2020: contiene un rastreo de casi 4000 transcripciones TED y TED -X de julio de 2020.
- TSAR-2022-SHARED-TASK-TARSE COMARDADA TARECTA DE TSAR2022 SOBRE SIMPLIFICACIÓN LEXICA.
- Wikiann - conjunto de datos de reconocimiento de entidad multilingüe que consiste en artículos de Wikipedia anotados con LOC (ubicación), per (persona) y organizaciones (organización) en formato IOB2.
- Wikilingua - conjunto de datos de resumen abstracto multilingüe extraído de Wikihow.
- Wikimatrix: oraciones paralelas en 1620 pares de idiomas de Wikipedia.
- Wikiner - Aprendizaje de reconocimiento de entidad multilingüe de Wikipedia.
- Wikineural: la creación de datos de plata neuronal y del conocimiento combinado para NER multilingüe (EMNLP 2021).
- Wikipedia - conjunto de datos de Wikipedia que contiene artículos limpios de todos los idiomas.
- XFORMAL: un punto de referencia para la transferencia de estilo de formalidad multilingüe.
- XLSUM - 1.35 millones de parejas de sumar de artículos anotados profesionalmente de la BBC.
Léxico
- BATS -PT - Traducción manual de la parte lexicográfica del conjunto de pruebas de analogía más grande (BATS) a portugués
- Br.ispell - Diccionario de Ispell para portugués brasileño (Github).
- ConceptNet: un gráfico de conocimiento multilingüe abierto.
- Dicsin - Diccionario de sinónimos y antónimos.
- LEXICONPT - PACABLE R que proporciona léxicos para el análisis de texto portugués.
- Léxicos: diccionarios de nombres, apellidos, acrónimos y sus extensiones, palabras de parada, etc.
- LIWC - Investigación lingüística y recuento de palabras (diccionario)
- Sobre.pt - Ontologia léxico para o português.
- OpenWordNet -Pt: un WordNet de acceso abierto para portugués (sitio).
- Oplexicon: un léxico de sentimiento para el idioma portugués.
- Palavras - Lista de palabras de portugués brasileño.
- Papel.
- PT -BR - Lista de palabras, verbos, conjugaciones, frecuencias de término.
- PT-LKB-Base de conocimiento léxico-semántico portugués grande
- PULO - Ontología léxica unificada portuguesa.
- Sentilex -Pt - Un léxico de sentimiento para portugués.
- Palabras de parada - Colección de palabras de parada portuguesas.
- TEP2.
- UNITEX -PB - Recursos léxicos.
- Valexpb - Un léxico de valencias verbales portuguesas brasileñas.
- Verbnet.Br 1.0 - Léxico verbal de portugués brasileño.
- Wikidict-DSL-PT-Diccionarios DSL bilingües de Wikidata.
- WordNetAffectbr - Vocabulario de palabras de emociones.
- WordNet.BR - Portugués WordNet.
Modelos
- Albertina PT -Br - Es un codificador de la familia Bert para el idioma portugués: la variante estadounidense de Brasil.
- Albertina PT -PT - Es un codificador de la familia Bert para el idioma portugués: la variante europea de Portugal.
- Alpaca-Lora-PTBR-Instructo de Llama de bajo rango.
- Bart - Bart Pre -Treinado em Português.
- Bertimbau-La base de Bertimbau es un modelo BERT previado por el petróleo para portugués brasileño que logra actuaciones de vanguardia en tres tareas de PNL posteriores: reconocimiento de entidad nombrado, similitud textual de oraciones y reconocimiento de la implicación textual (GitHub).
- BIOBERTPT - Modelos Bert sintonizados capacitados en el dominio clínico para el lenguaje portugués (GitHub).
- CABRITA - Un portugués Finetuned Instruction Llama (GitHub).
- Debertinha: una xsmall de Deberta V3 adaptada al idioma portugués brasileño (GitHub).
- Electra - Modelo Electra capacitado en BRWAC.
- Gervasio -Pt -Br - Es un decodificador de la familia GPT para el idioma portugués: la variante estadounidense de Brasil.
- Gervasio -Pt -Pt - Es un decodificador de la familia GPT para el idioma portugués: la variante europea de Portugal.
- Glória 1.3b - Un modelo de lenguaje grande centrado en europeo portugués (cara de abrazo)
- GPT2 Small-Gportuguese-2 (portugués GPT-2 Small) es un modelo de idioma de última generación para portugués basado en el modelo pequeño GPT-2.
- GPT-NEO Small-Una versión Finetened de GPT-Neo 125m por Eletheurai a Lengua Portuguesa.
- GPT2-BIO-PT-Una versión biomédica delfinicada de Gportuguese-2 (GitHub).
- Nerde -Base - Bertimbau Finetuned to Ner en documentos judiciales.
- ROBERTA-PT-BR
- ROBERTACRAWLPT-BASE-Robertacrawlpt-Base es un modelo de lenguaje enmascarado portugués genérico previado desde cero desde Crawlpt Corporath
- Robertalexpt -Base - Modelo de lenguaje enmascarado portugués que se prohíbe desde cero desde Legalpt y Crawlpt Corpors
- Sabiá - Sabiá -7b es el modelo de lenguaje portugués desarrollado por Maritaca AI.
- Sabiá 2 - Modelo de idioma capacitado en texto portugués, especialmente en el dominio brasileño.
- T5 - Modelo T5 en datos portugueses brasileños.
- TGF-XLM-ROBERTA-BASE-PT-Br (GitHub)
- WAV2VEC-Facebook/WAV2VEC2-LARGE-XLSR-53 de Facebook/WAV2VEC2-LARGE-53 en portugués utilizando las divisiones de tren y validación de la voz común 6.1.
Modelos multilingües
- Bloom-Bigscience grande modelo de lenguaje multilingüe de acceso abierto de ciencia abierta.
- Modelo de MBERT - Pretrados en los 104 idiomas principales con la wikipedia más grande utilizando un objetivo de modelado de lenguaje enmascarado (MLM).
- mdeberta
- MGPT - Modelo GPT multilingüe. Un modelo autorregresivo similar a GPT.
- Mminilm-Mminilm-L6-V2 Reranker Fineting en Mmarco
- MT5 - T5 multilingüe. Un transformador de texto a texto previamente multilingüe multilingüe.
- XLM-Roberta-Modelo XLM-Roberta previamente capacitado en 2.5TB de datos Filtrados CommonCrawl que contienen 100 idiomas.
- Labse-El codificador de oraciones Bert (LabSse) de Agnóstico del Idioma es un modelo basado en Bert capacitado para la incrustación de oraciones para 109 idiomas.
Incrustaciones de palabras
- FastText - Vectores de palabras multilingües.
- Láser - Representaciones de oraciones agnósticas del lenguaje.
- NILC -Embeddings - incrustaciones de palabras entrenadas en portugués por USP.
- Muse - Incrustos multilingües no supervisados y supervisados.
- Vectores de palabras: vectores de palabras previamente capacitados de más de 30 idiomas.
Métrica
- COH-METRIX-PORT-Una adaptación de la herramienta de análisis de texto CoH-Metrix al idioma portugués brasileño.
- NILC -Metrix: reúne las métricas desarrolladas durante más de una década en el laboratorio de NILC.
Tablas de clasificación
- Open PT LLM Raeperboard - Open PT LLM Raeperboard tiene como objetivo proporcionar un punto de referencia para la evaluación de modelos de idiomas grandes (LLM) en el idioma portugués en una variedad de tareas y conjuntos de datos.
Marcos
- nlpnet
- Nltk
- polígloto
- extirpado
- Estrofa NLP
- udpipe
Instituciones
- Brasileiras em pln.
- Hailab -PUCPR: un grupo de investigación pionero con el objetivo de desarrollar soluciones para la atención médica utilizando el procesamiento del lenguaje natural y el aprendizaje automático.
- Linguateca.
- Nilc.
- Nlportuguês: dedicado a crear cursos de PNL en portugués brasileño.
- Grupo NLX.
- Pln Pucrs.
Herramientas
- Aperio -POR - Datos lingüísticos de apertio para portugués.
- Autocorrección - Corrector de ortografía en Python.
- BRGRAM - Fragmento de gramática computacional de portugués brasileño en el formalismo LFG implementado en XLE.
- API DICIO - API del diccionario portugués.
- Dict-Pt-Br-Diccionario para portugués brasileño.
- LanguageTool - Estilo y verificador de gramática para más de 25 idiomas.
- LegalNLP - Métodos de procesamiento del lenguaje natural para el lenguaje legal brasileño.
- LEXML PARSER - analizador para documentos legales.
- LX PARSER - PARSER ESTADÍSTICO PARSER PARA PORTUGUESO.
- Metaphone -PTBR - Algoritmo de metafona para el idioma portugués.
- MlConjug3 - Una biblioteca de Python para conjugarse verbos en portugués y otros idiomas.
- Morphobr - Recursos para el análisis morfológico de portugués.
- OpCluster: extracción automática y agrupación de opiniones de grano fino.
- Fonemizador: convertidor de texto simple para teléfonos para varios idiomas.
- Porgram - Gramática computacional de código abierto para portugués en el formalismo HPSG.
- Pymetafone -Br - Paquete de algoritmo de metáfono para el idioma portugués.
- PySentimiento - Toma de herramientas multilingüe para análisis de sentimientos y tareas sociales de PNL.
- Pyspellchecker - Verificación de hechizos multilingües.
- RBAMR - Un analizador AMR basado en reglas para portugués.
- Verbecc: conjugación completa de cualquier verbo usando el aprendizaje automático para francés, español, portugués, italiano y rumano.
Otras listas
- Conjuntos de datos de relaciones semánticas anotadas
- Conjuntos de datos lingüísticos - conjuntos de datos lingüísticos para portugués.
- Ner-datasets para portugués
- Nilc
- NILC 2
- NILC 3
- Opinando - Minería de opinión para portugués.
- Lista de conjuntos de datos portugueses
Otros enlaces
- Opus - Opus es una creciente colección de textos traducidos de la web.
- Traducción de la máquina estadística y neural.