Portugiesisch-NLP
Liste der Ressourcen und Tools, die mit Fokus auf Portugiesisch entwickelt wurden.
Datensätze
- #PraceGover - Multi -Modal -Datensatz mit portugiesischen Bildunterschriften basierend auf Posts von Instagram.
- Portugiesische medizinische Texte des 18. Jahrhunderts aus dem 18. Jahrhundert
- AG_NEWS PT - Automatische Übersetzung des Korpus der AG -Nachrichten.
- ALPACA-Daten PT-BR-Stanford Alpaca-Datensatz mit dem Helsinki-NLP/Opus-Mt-TC-Big-En-PT-Modell in brasilianisches Portugiesisch übersetzt.
- Aspekt - Aspektbasierter annotierter Datensatz von Web Consumer Reviews.
- ASSIN - Ein Datensatz mit semantischer Ähnlichkeitsbewertung und Anmerkungen mit Entsorgung. (Umarmung)
- Assin 2 - Abfolge von Assin. (Umarmung)
- Automatisierter Aufsatz Score (AES) Enem -Datensatz - Benchmark für die automatische Bewertung des Aufsatzes in Portugiesisch (Huggingface)
- AYA -Datensatz PT - Coherforai Aya Dataset Filtrado Para Português (PT).
- Blogset -BR - Eine Sammlung von Beiträgen, die von der Blogspot -Plattform gesammelt wurden, die von brasilianischen Nutzern geschrieben wurde.
- Bluex - Ein Benchmark, das auf den Aufnahmeprüfungen der brasilianischen Universitäten basiert.
- Boolq - Tradução Automática do boolq.
- BR-Quad-2.0-Stanford Frage zur Beantwortung des Datensatzes (Squad) 2.0 Übersetzt in die brasilianische Portugiesische (PT-BR)-Sprache.
- Brands.br - Ein portugiesischer Korpus überprüft
- Brasilianische Gerichtsentscheidungen - Sammlung von 4043 ERementa (Summary) Court -Entscheidungen und ihre Metadaten aus dem Tribunal de Justiça de Alagoas (Tjal), dem Obersten Gerichtshof von Alagoas (Brasilien).
- Brasilianer E-Commerce-Brasilianer E-Commerce Public Dataset von Olist Store.
- Brasilianische Schlagzeilen - Datensatz mit Stimmungsanalyse der Schlagzeilen der brasilianischen Nachrichtenagenturen.
- Brasilianische portugiesische Literaturkorpus - 3,7 Millionen Word Corpus der brasilianischen Literatur, veröffentlicht zwischen 1840-1908.
- Brasilianische portugiesische narrative Aufsätze Datensatz - Datensatz für automatische Aufsätze der brasilianischen portugiesischen Erzählaufsätze.
- Brasilianische portugiesische Stimmungsanalyse -Datensätze.
- Urteile der brasilianischen TCU - Urteile des Bundesgerichts - Brasilien (TCU).
- BRWAC - Brasilianisches portugiesisches Web als Korpus.
- BRWAC2WIKI - Ein Datensatz für die Zusammenfassung der Multi -Dokumenten in Portugiesisch.
- B2W -Reviews01 - Produktbewertungen.
- Canarim - Ein groß angelegter Datensatz von Webseiten in der portugiesischen Sprache (Huggingface)
- Carolina - Corpus Geral do português brasileiro zeitgenössische (Umarmung).
- CAPES - Parallele Korpus von Thesen und Dissertationen Abstracts in Englisch und Portugiesisch.
- CC100 -PORTUGUESSION - Erstellt von Conneau & Wenzek et al. In 2020. Dieser Datensatz ist eine der 100 Korpora einsprachiger Daten, die aus den Commoncrawl-Schnappschüssen im Januar bis Dezember 2018 aus dem CC-Net-Repository verarbeitet wurden.
- Cetenfolha - Nachrichten aus der Zeitung Folha de S. Paulo.
- CHAVE - Sammlung zum Abrufen von Informationen und Beantwortung von Fragen.
- Cintil Corpus - Ein sprachlich interpretierter Korpus von Portugiesisch.
- Clinicalner - Klinische Erkennung von Entität in Portugiesisch.
- Komplexidade textuelle para estágios Escolares doistema Educacional Brasileio.
- Coraa - Datensatz zur automatischen Spracherkennung.
- Coraa Ser - Emotionserkennung von brasilianischen portugiesischen informellen spontanen Sprache.
- Crawlpt_dedup-crawlpt (dedupliziert) besteht aus drei Korpora: Brwac, C100-PT, Oscar-2301.
- CSTNEWS - Ein Korpus mit 50 Cluster von Nachrichtentexten mit ihren Multi -Dokument -Zusammenfassungen sowie mehreren Diskurs- und semantischen Anmerkungen.
- C-Oral-Brasil-Dieses Projekt widmet sich der Untersuchung der brasilianischen portugiesischen spontanen Rede und im weiteren Sinne der Zusammenstellung gesprochener Korpora.
- Dantestocks - Korpus von Börsentweets, die in brasilianischer Portugiesisch geschrieben und gemäß Harems Taxonomie mit den genannten Unternehmen kommentiert wurden.
- Deepagé - Beantwortung von Fragen auf Portugiesisch über die brasilianische Umgebung.
- DNLT -BP - Datensätze von neuropsychologischen Sprachtests in brasilianischer Portugiesisch.
- Enem Challenge - besteht aus dem Schreiben eines Aufsatzes und einem objektiven Teil mit 180 Multiple -Choice -Fragen.
- ENEM-2022 und ENEM-2023-Diese Projekte umfassen alle Multiple-Choice-Fragen aus den letzten beiden Ausgaben des Exame Nacional Do ANSINO Médio (Enem), der wichtigsten standardisierten Aufnahmeprüfung der brasilianischen Universitäten.
- Essay-BR-Essay-BR: Ein Korpus von Aufsätzen für die brasilianische portugiesische Sprache.
- Erweiterte Essay-BR-Erweiterte Version des Essay-Br-Korpus.
- FACTCK.BR - Ein Datensatz zum Studium gefälschter Nachrichten in Portugiesisch.
- FACTNEWS - Datensatz zur Vorhersage der Tatsache auf Satzebene der Nachrichtenberichterstattung.
- gefälschte Stimmen - Deepfakes in brasilianischen Portugiesen, die mit XTTS -Modell erstellt wurden.
- Fake.br - ausgerichtete wahre und gefälschte Nachrichten, die in brasilianischer Portugiesisch geschrieben wurden (Hugginface).
- Central_de_fatos - (Huggingface).
- Fakenewsset - (Umarmung).
- Fakepedia -corpus - gefälschter Nachrichten -Datensatz.
- Fakerecogna - Datensatz aus echten und gefälschten Nachrichten (Huggingface).
- FakeWhatsapp.br - ein kommentierter Korpus von WhatsApp -Nachrichten in PT -BR zur automatischen Erkennung von textuellen Fehlinformationen.
- FKTC - gefälschte Nachrichten -Textsammlungen.
- Floresta Sintá (C) Tica - Baumbank für Portugiesisch.
- Harem First - Evaluierungswettbewerb für genannte Entitätserkenner in Portugiesisch.
- Harem Second - Evaluierungswettbewerb für genannte Entitätserkenner in Portugiesisch.
- HateBr - groß angelegter Experten kommentierter Korpus brasilianischer Instagram -Kommentare für Hassreden und offensive Spracherkennung im Web und in den sozialen Medien.
- Historische portugiesische Korpora - Werkzeuge und Ressourcen für die Manipulation historischer Korpora und das Management historischer Wörterbücher.
- IMDB PT - Tradução Atomática do IMBD.
- Inferbr - Datensatz für natürliche Sprache.
- Iudicium textum Dataset - enthält rechtliche Dokumente, die vom brasilianischen Bundesstaat den Obersten Gerichtshof in seiner Integral Composition (Papier) erstellt wurden.
- Lener -BR - Ein Datensatz für die genannte Entitätserkennung im brasilianischen Rechtstext.
- Legalpt_dedup - legalpt (dedupliziert) aggregiert die maximale Menge an öffentlich verfügbaren Rechtsdaten in Portugiesisch.
- Lex2kids - Lexikon in Portugiesisch am meisten von Kindern gehört.
- Mac-Morpho-Brasilianische portugiesische Texte, die mit Teil der Speech-Tags kommentiert werden.
- Milkqa - Ein Datensatz mit dichten Fragen zur Auswahl der Antwort.
- Protokoll der Zentralbank von Brasilien - Protokoll des geldpolitischen Ausschusses der Zentralbank von Brasilien.
- Ner in brasilianischen portugiesischen Tweets - Twitter -Nachrichten in PT -B -BR für die Entitäten pro, loc und org.
- NERDE - Dokumente aus der Jurisprudence -Jurisprudenz für die Entitäten org, pro, tempo, loc, bein (Gesetzgebung), Dokumente (Dokumente), Tapferkeit.
- News-Crawl-PT-Monolingual News Crawl verwendet für WMT.
- Nachricht von der Seite Folha de São Paulo - Nachrichten über die brasilianische Zeitung Folha de São Paulo.
- Nachrichten, die in Brasilien veröffentlicht wurden - News Compilation der Globo -Gruppe.
- OAB -Prüfungen - Brasilianische Version der Bar Prüfung (USA) (Huggingface).
- Parallele Korpora von Revista Pesquisa Fapesp-portugiesisch-englische und portugiesisch-spanische zweisprachige Sammlungen der Online-Ausgaben des brasilianischen Magazins Revista Pesquisa Fapesp des wissenschaftlichen Nachrichtens.
- Nurc-sp
- PIRá-Ein zweisprachiger portugiesisch-englischer Datensatz zum Beantworten des Ozeans.
- PL-CORPUS-Teil der Ulyssner-BR, ein Korpus brasilianischer Gesetzgebungsdokumente für NER mit Qualitätsbasislinien.
- PLUE - Portugiesische Übersetzung des Klebstoff -Benchmark- und Scitail -Datensatzes.
- Poetisa - Portugiesische Verarbeitung - zur syntaktischen Analyse und Parsen.
- Politiken - Datensätze im Zusammenhang mit dem Projekt Politiquices.pt.
- Porsimplesent - von ausgerichteten Sätzen Paaren zur Untersuchung der Satzlesbarkeitsbewertung.
- Portilexicon -ud - Ein Lexikon für brasilianische Portugiesisch nach universellen Abhängigkeiten.
- Portugiesisch-Hass-Rede-Datensatz-Portugiesischer Datensatz für Hassredenerkennung, die aus 5.668 Tweets mit binären Anmerkungen (dh 'Hass' gegen 'No-Hat') (Hutgingface) zusammengestellt wurde
- PORTUGUASISCHE SCHREIBUNG - SELTUNG VON ARSETEN AUF DER PORTUGIESISCHEN UNTERSCHAFTSFAHREN.
- Portugiesische Präsidentschaftswahlen - Dieser Datensatz enthält Tweets und Benutzer hauptsächlich aus portugiesischen Twittersphere.
- PRACEGOVER - Multi -Modal -Datensatz mit Bildern, die portugiesischen Bildunterschriften zugeordnet sind, basierend auf Posts von Instagram.
- PRIBRIBERAM FEIN GRAUSE MINISSE CORPUS-Ein portugiesischer feinkörniger Abhängigkeits-Meinungskorpus.
- PropBank - Enthält Instanzen mit semantischen Rollenetiketten (SRL).
- Projeto ACDC - Internetzugang zu Corpora.
- Puntugiesisch - Ein Korpus von Wortspielen in Portugiesisch mit Mikroausgaben (Umarmung)
- Qa -portugiese - Anpassung aus der portugiesischen MQA -Datensätze (QA -Entailment -Paare).
- Quati-Dieser Datensatz zielt darauf ab, die brasilianische portugiesische (PT-BR) -Informations-Abrufsysteme (IR) -Systeme (IR) -Systementwicklung zu unterstützen und Dokumentenpassagens bereitzustellen, die ursprünglich in PT-BR erstellt wurden, sowie von von Muttersprachlern erstellten Abfragen (Themen).
- Rebel -portugiese - Datensätze de relações a Partir da Wikipedia.
- Reli - Resenha de Livros.
- REPO: Ein Benchmark -Datensatz für Meinungsabbau für brasilianische Portugiesisch - ein Benchmark -Datensatz für Meinungsabbau für brasilianische Portugiesisch. (Umarmung)
- Rhetalho - Korpus mit Daniel Marcus RSTOol mit Annotiert.
- SEMCLINBR-Multi-Institutionales und multispezifisches semantisch kommentiertes Korpus für portugiesische klinische NLP-Aufgaben.
- Sesam - Korpus für Ner in Portugiesisch.
- Sigarra News Corpus - Sigarra Informationssystem an der Universität von Porto.
- Simplex -PB - Eine lexikalische Vereinfachungsdatenbank und ein Benchmark für Portugiesisch.
- Simplex-pb-2.0-Verbesserte Version von simplex-pb.
- Simplex-PB-3.0-Neue Version von Simplex-PB.
- Spotify Subset - Klassifizierung von Sprachschwankungen in brasilianischer Portugiesisch Klassifizierung
- Squad -PT V1.1 - Portugiesische Übersetzung des Squad -Datensatzes.
- Squad-PT V1.1-PT-BR-Brasilianische portugiesische Übersetzung des Squad-Datensatzes, übersetzt von Deep Learning Brasil.
- Squad -PT V2.0 - Portugiesische Übersetzung des Squad 2.0 -Datensatzes.
- SST -2 PT - Automatische Übersetzung der Stanford Sentiment Treebank.
- TEMário - Nachrichtentexte und die entsprechenden menschlichen Zusammenfassungen zu Zusammenfassungszwecken.
- Textkomplexität Corpus - Textkomplexität Corpus für Schulpraktika im brasilianischen Bildungssystem.
- Erkennung von - BR - Toxic Language In sozialen Medien für brasilianische Portugiesisch (GitHub).
- TTS -PORTUGUESION CORPUS - Text an Speech Portugiesisch.
- TweetSentbr - Tweets in brasilianischer Portugiesisch.
- Tweets für die Stimmungsanalyse.
- UD_PORTUGUESISCHE -BOSQUE - UNIVERSALE DEPANDS (UD) PORTUGUESISCHE TREEBEL.
- UD_PORTUGUESISCHE -CINTIL - UNIVERSALE DEPANDENDEN (UD) PORTUGUESISCHE TREEBEL.
- UD_PORTUGUESSISCHE -GSD - UNIVERSALE DEPANDS (UD) PORTUGUESISCHE TREEBEL.
- UD_PORTUGUESION -PETROGOLD - UNIVERSALE DEMPERTEN (UD) PORTUGUESISCHE TREEBEL.
- UD_PORTUGUESISCHE -PUD - UNIVERSALE DEPANDS (UD) PORTUGUESISCHE TREEBEL.
- Ulyssesner -BR - Korpus brasilianischer Legislativdokumente für die genannte Entitätserkennung
- UTLCORPUS - Ein Korpus von Online -Bewertungen in brasilianischen portugiesischen mit der Klassifizierung der Hilfsbereitschaft kommentierten.
- Winograd Schema Challenge - Solver für die portugiesisch ansässige Winograd Schema Challenge.
- Wizardvicuna-Ptbr-Instruct-Clean-Assistent Vicuna PT-BR unterrichten sauberer Datensatz.
Mehrsprachige Datensätze
- Ein mehrsprachiger Datensatz zur Untersuchung von Stereotypen und negativen Einstellungen gegenüber Migrantengruppen in Großsprachenmodellen
- Assed - ELI5 -Datensatz an medizinischen Fragen (sargdocs) subreddit angepasst.
- Englisch-portugiesische Sätze-Englisch-portugiesische Sätze aus dem Tatoeba-Projekt.
- EUR -GEX - Mehrsprachiger Korpus in allen Amtssprachen der Europäischen Union.
- Europarl - Europäische Parlamentsverfahren Parallel Corpus 1996-2011.
- Europarl-ST-Mehrsprachiger Sprachübersetzungskorpus, das gepaarte Audio-Text-Stichproben für die Sprachübersetzung enthält, die unter Verwendung der Debatten im Zeitraum 2008 und 2012 konstruiert wurden.
- MC4 - Mehrsprachige kolossale, gereinigte Version des Common Crawls Web Crawl Corpus. Basierend auf dem gemeinsamen Crawl -Datensatz.
- MFAQ - Mehrsprachiger Korpus von häufig gestellten Fragen, die aus dem gemeinsamen Kriechen analysiert wurden.
- MKQA - Mehrsprachige Wissensfragen und Antworten (GitHub).
- MQA - Mehrsprachiger Korpus von Fragen und Antworten (MQA) aus dem gemeinsamen Kriechen.
- MMARCO - Mehrsprachige Version des MS Marco Passage -Ranking -Datensatzes.
- MROBUST - Mehrsprachige Version des TREC 2004 Ranking -Datensatzes Ranking Ranking
- Multiconer - Ein großer mehrsprachiger Datensatz für die genannte Entitätserkennung.
- MUSS -C - Mehrsprachiger Sprachübersetzungskorpus.
- OpenSubtitles - Sammlung übersetzter Filmuntertitel.
- Oscar - Open Super -Large Crawled Aggregated Corpus.
- Tatoeba - Eine große Datenbank mit Sätzen und Übersetzungen.
- TED2020 - Enthält ab Juli 2020 einen Kriechen von fast 4000 TED- und TED -X -Transkripten.
- TSAR-2022-Shared-Task-TSAR2022 Shared Aufgabe zur lexikalischen Vereinfachung.
- Wikiann - Mehrsprachiger Dataset für namens genannte Entitätserkennung, bestehend aus Wikipedia -Artikeln, die mit LOC (Standort), per (Person) und org (Organisation) Tags im IOB2 -Format kommuniziert wurden.
- Wikilingua - Mehrsprachiger abtraktiver Zusammenfassungsdatensatz aus WikiHow extrahiert.
- Wikimatrix - Parallele Sätze in 1620 Sprachpaaren aus Wikipedia.
- Wikiner - Erlernen mehrsprachiger namentlicher Entitätserkennung von Wikipedia.
- Wikineural - Kombinierte neuronale und wissensbasierte Silberdatenerstellung für mehrsprachige NER (EMNLP 2021).
- Wikipedia - Wikipedia -Datensatz mit gereinigten Artikeln aller Sprachen.
- XFORMAL - Ein Maßstab für den mehrsprachigen Formalitätsstil -Transfer.
- XLSUM - 1,35 Millionen professionell kommentierte Artikel -Summen -Paare von BBC.
Lexikon
- Fledermaus -PT - Manuelle Übersetzung des lexikografischen Teils des größeren Analogie -Testsatzes (Fledermäuse) auf Portugiesisch
- Br.ispell - Ispell Dictionary für brasilianische Portugiesisch (Github).
- CONCECTNET - Ein offenes, mehrsprachiges Wissensgraphen.
- Dicsin - Wörterbuch von Synonymen und Antonymen.
- Lexikonpt -R -Paket, das Lexikonen für die portugiesische Textanalyse liefert.
- Lexikone - Wörterbücher von Namen, Nachnamen, Akronymen und Erweiterungen, Stoppwörtern usw.
- Liwc - Sprachanfrage und Wortanzahl (Wörterbuch)
- To.pt - Ontologia Lexikaler Para o Português.
- OpenWordNet -PT - Ein Open Access WordNet für Portugiesisch (Site).
- OPLEXICON - Ein Sentiment -Lexikon für die portugiesische Sprache.
- Palavras - Wortliste der brasilianischen Portugiesisch.
- Papel.
- Pt -BR - WordList, Verben, Konjugationen, Term Frequenzen.
- PT-LKB-Große portugiesisch lexikalisch-semantische Wissensbasis
- PULO - PORTUGIESION ENIFIED LEXIKALISCHER ANTOLOGIE.
- Sentilex -PT - Ein Gefühl für Portugiesisch.
- STOPWORDS - PORTUGUESISCHE STOPWORDS COLLECTION.
- TEP2.
- UNITEX -PB - Lexikalische Ressourcen.
- Valexpb - Ein Lexikon der brasilianischen portugiesischen Verb Valences.
- VERBNET.BR 1.0 - Verbales Lexikon der brasilianischen Portugiesisch.
- Wikidict-dsl-PT-Wikidata Zweisprachige DSL-Wörterbücher.
- WordNetAffectbr - Vokabular der Emotionen Wörter.
- Wordnet.br - Portugiesisches WordNet.
Modelle
- Albertina PT -BR - Es ist ein Encoder der Bert -Familie für die portugiesische Sprache - die amerikanische Variante aus Brasilien.
- Albertina PT -PT - Es ist ein Encoder der Bert -Familie für die portugiesische Sprache - die europäische Variante von Portugal.
- Alpaca-Lora-Ptbr-Low-Rank-Lama-Unterrichtsstimmung.
- Bart - Bart Pre -Treinado Em Português.
- Bertimbau-Bertimbau Base ist ein vorgezogenes Bert-Modell für brasilianische Portugiesen, das hochmoderne Darbietungen bei drei nachgeschalteten NLP-Aufgaben erzielt: benannte Entitätserkennung, Satz textuelle Ähnlichkeit und Anerkennung von Textverkleidungen (GitHub).
- Biobertpt - Feinabstimmige Bert -Modelle, die auf der klinischen Domäne für die portugiesische Sprache (GitHub) ausgebildet sind.
- CABRITA - Eine portugiesische, fettunierte Anweisung Lama (Github).
- Debertinha - Ein Deberta V3 XSmall, angepasst an die brasilianische portugiesische Sprache (Github).
- Electra - Electra -Modell, das auf Brwac ausgebildet ist.
- GERVASIO -PT -BR - Es ist ein Decoder der GPT -Familie für die portugiesische Sprache - die amerikanische Variante aus Brasilien.
- GERVASIO -PT -PT - Es ist ein Decoder der GPT -Familie für die portugiesische Sprache - die europäische Variante von Portugal.
- Glória 1.3b - Ein portugiesisches europäisch ausgerichtetes Großsprachmodell (Huggingface)
- GPT2 Small-Gportuguese-2 (Portugiesisch GPT-2 Small) ist ein hochmodernes Sprachmodell für Portugiesisch, das auf dem GPT-2 Small-Modell basiert.
- GPT-NEO Small-Eine finationsprüfte Version von GPT-NEO 125M von Eletheurai zur portugiesischen Sprache.
- GPT2-BIO-PT-Eine biomedizinische Fülle aus Gportuguese-2 (Github).
- Nerde -Base - Bertimbau, das über Justizdokumente bestraft wurde.
- Roberta-Pt-Br
- Robertacrawlpt-Base-Robertacrawlpt-Base ist ein generisches portugiesisches maskiertes Sprachmodell, das von der Crawlpt-Korpora von Grund auf vorgebracht wurde
- Robertalexpt -Base - portugiesisches maskiertes Sprachmodell, das von Grund auf neu von der Legse- und Crawlpt -Korpora vorgebracht wurde
- Sabiá - Sabiá -7b ist portugiesischsprachiges Modell, das von Maritaca AI entwickelt wurde.
- Sabiá 2 - Sprachmodell, das auf portugiesischen Text ausgebildet ist, insbesondere im brasilianischen Bereich.
- T5 - T5 -Modell über brasilianische portugiesische Daten.
- TGF-XLM-Roberta-Base-PT-BR (GitHub)
- WAV2VEC-Feine abgestimmte Facebook/WAV2VEC2-Large-XLSR-53 auf Portugiesisch unter Verwendung des Zug- und Validierungsaufteils der gemeinsamen Stimme 6.1.
Mehrsprachige Modelle
- Bloom-BigScience Large Open-Science Open-Access Mehrsprachige Sprachmodell.
- MBERT - Vorbereitete Modell in den Top 104 Sprachen mit der größten Wikipedia unter Verwendung eines maskierten Sprachmodellierungsziels (MLM).
- Mdeberta
- MGPT - Mehrsprachiges GPT -Modell. Ein autoregressives GPT-ähnliches Modell.
- Mminilm-Mminilm-L6-V2-Reranker
- MT5 - Mehrsprachiger T5. Ein massiv mehrsprachiger Text-zu-Text-Transformator.
- XLM-Roberta-XLM-Roberta-Modell, das auf 2,5 TB gefilterte Commoncrawl-Daten mit 100 Sprachen vorgeschrieben ist.
- LABSE-LABER-ANTNOSTISCHER BERT-SUPPLY CODER (LABSE) ist ein Bert-basiertes Modell, das für 109 Sprachen für Satzeinbettung geschult ist.
Worteinbettungen
- FastText - Mehrsprachige Wortvektoren.
- Laser - Sprach -agnostische Satzdarstellungen.
- NILC -EMBEDINGS - Worteinbettungen, die von USP auf Portugiesisch ausgebildet wurden.
- Muse - Mehrsprachige unbeaufsichtigte und überwachte Einbettung.
- Wortvektoren - Vorausgebildete Wortvektoren von über 30 Sprachen.
Metriken
- COH-Metrix-Port-Eine Anpassung des COH-Metrix-Textanalyse-Tools an die brasilianische portugiesische Sprache.
- NILC -METRIX - Es versammelt die Metriken, die im NILC Lab mehr als ein Jahrzehnt entwickelt wurden.
Ranglisten
- Open Pt LLM Langoupboard - Open Pt LLM Ranglastboard zielt darauf ab, einen Benchmark für die Bewertung von großsprachigen Modellen (LLMs) in der portugiesischen Sprache über eine Vielzahl von Aufgaben und Datensätzen bereitzustellen.
Frameworks
- NLPNET
- NLTK
- Polyglot
- Spacy
- Strophe NLP
- Udpipe
Institutionen
- BRasiereiras em pln.
- Hailab -PUCPR - Eine wegweisende Forschungsgruppe, die darauf abzielt, Lösungen für die Gesundheitsversorgung mithilfe von natürlicher Sprachverarbeitung und maschinellem Lernen zu entwickeln.
- Linguateca.
- Nilc.
- NLPORTUGUês - widmet sich der Erstellung von NLP -Kursen in brasilianischen Portugiesen.
- NLX-Gruppe.
- PLN PUCRS.
Werkzeuge
- Apertium -Por - Apertium Sprachdaten für Portugiesisch.
- Autokorrektur - Rechtschreibkorrektur in Python.
- Brgram - Computer -Grammatikfragment brasilianischer Portugiesisch im in XLE implementierten LFG -Formalismus.
- DICIO API - PORTUGIESISCHE Wörterbuch -API.
- dict-pt-br-Wörterbuch für brasilianische Portugiesisch.
- Languagetool - Stil und Grammatikprüfer für mehr als 25 Sprachen.
- LegalNLP - Methoden für natürliche Sprachverarbeitungsmethoden für die brasilianische Rechtssprache.
- Lexml Parser - Parser für rechtliche Dokumente.
- LX Parser - statistischer Wahlkreis Parser für Portugiesisch.
- Metaphone -PTBR - Metaphonalgorithmus für die portugiesische Sprache.
- MLCONJUG3 - Eine Python -Bibliothek, um Verben in Portugiesisch und anderen Sprachen zu konjugieren.
- MorphoBR - Ressourcen für die morphologische Analyse von Portugiesisch.
- OPCLUSTER - Automatische Extraktion und Clusterbildung feinkörniger Meinungen.
- Phonemizer - Einfacher Text zu Telefonkonverter für mehrere Sprachen.
- Porgram - Open -Source -Berechnungsgrammatik für Portugiesisch im HPSG -Formalismus.
- Pymetaphon -BR - Metaphonalgorithmuspaket für die portugiesische Sprache.
- PySentimiento - Mehrsprachiges Toolkit für die Stimmungsanalyse und soziale NLP -Aufgaben.
- PyspellChecker - Mehrsprachige Zauberprüfung.
- RBAMR - Ein regelbasiertes AMR -Parser für Portugiesisch.
- Verbecc - Komplette Konjugation eines jeden Verbs mit maschinellem Lernen für Französisch, Spanisch, Portugiesisch, Italienisch und Rumänisch.
Andere Listen
- Annotierte semantische Beziehungsdatensätze
- Sprachdatensätze - Sprachdatensätze für Portugiesisch.
- Nerdatensätze für Portugiesisch
- Nilc
- NILC 2
- NILC 3
- Opinando - Meinungsabbau für Portugiesisch.
- Portugiesische Datensatzliste
Andere Links
- OPUS - OPUS ist eine wachsende Sammlung übersetzter Texte aus dem Web.
- Statistische und neuronale Maschinenübersetzung.