Portugis-NLP
Daftar sumber daya dan alat yang dikembangkan dengan fokus pada bahasa Portugis.
Kumpulan data
- #Pracegover - Dataset multi -modal dengan keterangan Portugis berdasarkan posting dari Instagram.
- Teks medis Portugis abad ke-18
- AG_NEWS PT - Terjemahan otomatis dari korpus artikel berita AG.
- Data Alpaca PT-BR-Dataset Stanford Alpaca diterjemahkan ke dalam bahasa Portugis Brasil menggunakan model Helsinki-NLP/Opus-MT-TC-BIG-EN-PT.
- Dataset beranotasi berbasis AspectBR dari Ulasan Konsumen Web.
- Assin - Dataset dengan skor kesamaan semantik dan anotasi yang diperlukan. (Huggingface)
- Assin 2 - Urutan Assin. (Huggingface)
- Dataset Musuh Skor Esai Otomatis (AES) - Benchmark untuk Penilaian Esai Otomatis dalam Portugis (HuggingFace)
- Aya Dataset PT - coherforaiai aya dataset filtrado para Português (PT).
- Blogset -BR - Kumpulan posting yang dikumpulkan dari platform BlogSpot yang ditulis oleh pengguna Brazillian.
- Bluex - Benchmark yang didasarkan pada ujian masuk universitas terkemuka Brasil.
- Boolq - Tradução Automática do Boolq.
- BR-Quad-2.0-Stanford Pertanyaan menjawab Dataset (Skuad) 2.0 Diterjemahkan ke bahasa Portugis Brasil (PT-BR).
- Brands.br - A Portugis Ulasan Corpus
- Keputusan Pengadilan Brasil - Koleksi 4043 Keputusan Pengadilan (Ringkasan) Emsa (Ringkasan) dan metadata mereka dari Pengadilan de Justiça de Alagoas (TJAL), Mahkamah Agung Negara Bagian Alagoas (Brasil).
- E-Commerce Brasil-Dataset Publik E-Commerce Brasil oleh Olist Store.
- Headlines Brasil Sentimen - Dataset yang berisi analisis sentimen dari berita utama kantor berita Brasil.
- Corpus Sastra Portugis Brazil - 3,7 juta Corpus dari Sastra Brasil diterbitkan antara 1840-1908.
- Dataset esai narasi Portugis Brasil - Dataset untuk skor esai otomatis esai narasi Portugis Brasil.
- Dataset analisis sentimen Portugis Brasil.
- Penilaian TCU Brasil - Putusan Pengadilan Federal - Brasil (TCU).
- BRWAC - Web Portugis Brasil sebagai corpus.
- BRWAC2WIKI - Dataset untuk ringkasan multi -dokumen dalam bahasa Portugis.
- B2W -Reviews01 - Ulasan Produk.
- Canarim - Dataset berskala besar halaman web dalam bahasa Portugis (Huggingface)
- Carolina - Corpus Geral Do Português Brasileiro Contemporâneo (Huggingface).
- Capes - Korpus paralel dari tesis dan disertasi abstrak dalam bahasa Inggris dan Portugis.
- CC100 -Portugis - Dibuat oleh Conneau & Wenzek et al. Pada tahun 2020. Dataset ini adalah salah satu dari 100 korpora data monolingual yang diproses dari snapshot CommonCrawl 2018 Januari-Desember dari repositori CC-NET.
- Cetenfolha - Berita dari surat kabar Folha de S. Paulo.
- Chave - Koleksi untuk pengambilan informasi dan menjawab pertanyaan.
- Cintil Corpus - Sebuah korpus Portugis yang ditafsirkan secara bahasa.
- Clinicalner - Pengenalan entitas yang dinamai klinis dalam bahasa Portugis.
- Kompleksidade Tekstual Para Estágios Escolares Do Sistema Educacional Brasileiro.
- CORAA - Dataset untuk pengenalan ucapan otomatis.
- Coraa Ser - Pengenalan emosi dari pidato spontan informal Portugis Brasil.
- Crawlpt_dedup-Crawlpt (Deduplikasi) disusun oleh tiga korpora: BRWAC, C100-PT, Oscar-2301.
- CSTNews - Sebuah korpus dengan 50 kelompok teks berita dengan ringkasan multi -dokumen mereka, serta beberapa wacana dan anotasi semantik.
- C-oral-Brasil-Proyek ini didedikasikan untuk studi pidato spontan Portugis Brasil dan, secara lebih luas, untuk kompilasi korpora lisan.
- Dantestocks - Korpus tweet pasar saham yang ditulis dalam bahasa Portugis Brasil dan dianotasi dengan entitas yang disebutkan menurut taksonomi Harem.
- Deepagé - Menjawab pertanyaan dalam bahasa Portugis tentang lingkungan Brasil.
- DNLT -BP - Dataset tes bahasa neuropsikologis dalam bahasa Portugis Brasil.
- Tantangan Musuh - terdiri dari penulisan esai dan bagian objektif yang berisi 180 pertanyaan pilihan ganda.
- Musuh-2022 dan Musuh-2023-Proyek-proyek ini mencakup semua pertanyaan pilihan ganda dari dua edisi terakhir dari Exame Nacional Do Ensino Médio (musuh), pemeriksaan masuk standar utama yang diadopsi oleh universitas-universitas Brasil.
- Essay-BR-Essay-BR: Corpus esai untuk bahasa Portugis Brasil.
- Extended Essay-BR-Versi Extended Essay-BR Corpus.
- Factck.br - Dataset untuk mempelajari berita palsu dalam bahasa Portugis.
- FactNews - Dataset untuk memprediksi faktualitas tingkat kalimat dari pelaporan berita.
- Suara Palsu - Deepfake dalam bahasa Portugis Brasil yang dibuat dengan model XTTS.
- Fake.br - Berita benar dan palsu yang ditulis dalam bahasa Portugis Brasil (Hugginface).
- Central_de_fatos - (HuggingFace).
- Fakenewsset - (Huggingface).
- Falpedia -Corpus - Dataset Berita Palsu.
- Fakerecogna - Dataset terdiri dari berita nyata dan palsu (Huggingface).
- Fakharthatsapp.br - Sebuah korpus beranotasi dari pesan WhatsApp di PT -BR untuk deteksi otomatis informasi yang salah tekstual.
- FKTC - Koleksi teks berita palsu.
- Floresta Sintá (C) Tica - Treebank untuk Portugis.
- Harem First - Kontes evaluasi untuk pengenal entitas bernama dalam bahasa Portugis.
- Harem Second - Kontes evaluasi untuk pengenal entitas yang disebutkan dalam bahasa Portugis.
- HATEBR - Corpus Instagram Instagram berskala besar berskala besar berkomentar dari Brazilian untuk deteksi kebencian dan deteksi bahasa ofensif di web dan media sosial.
- Korpora Portugis Historis - Alat dan Sumber Daya untuk Manipulasi Korpora Sejarah dan Manajemen Kamus Sejarah.
- IMDB PT - Tradução Atomática do Imbd.
- Inferbr - Dataset Inferensi Bahasa Alami.
- Iudicium Textum Dataset - Berisi dokumen hukum yang dibuat oleh Mahkamah Agung Federal Brasil dalam komposisi integral (kertas).
- Lener -BR - Dataset untuk pengakuan entitas yang disebutkan dalam teks hukum Brasil.
- Legalpt_dedup - legalpt (deduplikasi) mengumpulkan jumlah maksimum data hukum yang tersedia untuk umum dalam bahasa Portugis.
- Lex2Kids - Leksikon dalam bahasa Portugis yang paling didengar oleh anak -anak.
- Mac-Morpho-Teks Portugis Brasil yang dianotasi dengan tag bagian-of-speech.
- Milkqa - Dataset pertanyaan padat untuk tugas pilihan jawaban.
- Risalah Bank Sentral Brasil - Risalah Komite Kebijakan Moneter Bank Sentral Brasil.
- Ner dalam tweet Portugis Brasil - Pesan Twitter di PT -BR anotasi untuk entitas per, LOC dan org.
- Nerde - Dokumen dari yurisprudensi Cade dijelaskan untuk entitas org, per, tempo, loc, kaki (undang -undang), dokumen (dokumen), keberanian.
- Berita-Crawl-Pt-Perayapan Berita Monolingual Digunakan untuk WMT.
- Berita situs Folha de São Paulo - Berita surat kabar Brasil Folha de São Paulo.
- Berita yang diterbitkan di Brazil - Kompilasi Berita dari Grup Globo.
- Ujian OAB - Ujian Bar Versi Brasil (USA) (Huggingface).
- Parallel Corpora dari Revista Pesquisa Fapesp-Koleksi Bilingual Portugis-Inggris dan Portugis-Spanyol dari isu-isu online majalah berita ilmiah Revista Pesquisa Fapesp.
- Nurc-Sp
- Pirá-Dataset Portugis-Inggris dwibahasa untuk pertanyaan tentang lautan.
- PL-CORPUS-Bagian dari Ulyssesner-BR, sebuah kumpulan dokumen legislatif Brasil untuk NER dengan garis dasar berkualitas.
- PLUE - Terjemahan Portugis dari tolok ukur lem dan dataset scitail.
- Poetisa - Pemrosesan Portugis - Menuju analisis sintaksis dan penguraian.
- POLITIQUICES - Dataset yang terkait dengan Proyek Politerquices.PT.
- Porsimplessent - dari pasangan kalimat yang selaras untuk menyelidiki penilaian keterbacaan kalimat.
- Portilicon -Ud - Leksikon untuk Portugis Brasil menurut dependensi universal.
- Portugis-benci-speech-dataset-Dataset Portugis untuk deteksi wicara kebencian yang terdiri dari 5.668 tweet dengan anotasi biner (yaitu 'kebencian' vs 'no-hate') (huggingface)
- Hukuman Hukum Portugis - Kumpulan hukuman hukum dari Mahkamah Agung Portugis.
- Pemilihan Presiden Portugis - Dataset ini berisi tweet dan pengguna sebagian besar dari Twittersphere Portugis.
- Pracegover - Dataset multi -modal yang berisi gambar yang terkait dengan keterangan Portugis berdasarkan posting dari Instagram.
- Priberam Corpus Opini Butir Lezat-Corpus Penambangan Opini Ketergantungan Butir Portugis.
- Propbank - Berisi contoh yang dianotasi dengan label peran semantik (SRL).
- Projeto ACDC - Akses Internet ke Korpora.
- Puntugis - Sebuah kumpulan permainan kata -kata dalam bahasa Portugis dengan edisi mikro (Huggingface)
- QA -Portugis - Adaptasi dari Dataset MQA Portugis Split (Pasangan Bersyaratan QA).
- QUATI-Dataset ini bertujuan untuk mendukung pengembangan sistem Portugis Brasil (PT-BR) pengembangan sistem pengambilan (IR), memberikan dokumen yang awalnya dibuat di PT-BR, serta kueri (topik) yang dibuat oleh penutur asli.
- Rebel -Portugis - Datasets de RelAções A Partir da Wikipedia.
- Reli - Resenha de Livros.
- Repro: Dataset tolok ukur untuk penambangan opini untuk Portugis Brasil - dataset patokan untuk penambangan opini untuk Portugis Brasil. (Huggingface)
- Rhetalho - Corpus dianotasi dengan RSTTOOL DANIEL MARCU.
- SEMCLINBR-Corpus multi-institusional dan multi-spesialisasi semantik beranotasi untuk tugas-tugas NLP klinis Portugis.
- Wijen - Corpus untuk NER dalam bahasa Portugis.
- Sigarra News Corpus - Sigarra Sistem Informasi di University of Porto.
- Simplex -PB - Database penyederhanaan leksikal dan tolok ukur untuk Portugis.
- Simplex-PB-2.0-Versi Simplex-PB yang ditingkatkan.
- Simplex-PB-3.0-Versi baru Simplex-PB.
- Subset Spotify - Klasifikasi Variasi Bahasa dalam bahasa Portugis Brasil
- Skuad -PT V1.1 - Terjemahan Portugis dari dataset pasukan.
- Skuad-PT V1.1-Pt-BR-Terjemahan Portugis Brasil dari Skuad Dataset, diterjemahkan oleh Deep Learning Brasil.
- Skuad -PT V2.0 - Terjemahan Portugis dari Skuad 2.0 Dataset.
- SST -2 PT - Terjemahan Otomatis dari Stanford Sentiment Treebank.
- Temário - Teks berita dan ringkasan manusia yang sesuai untuk tujuan peringkasan.
- Corpus Kompleksitas Tekstual - Kompleksitas Tekstual Korpus untuk Magang Sekolah di Sistem Pendidikan Brasil.
- Memberi tahu BR - Deteksi Bahasa Beracun di Media Sosial untuk Portugis Brasil (GitHub).
- TTS -Portugis Corpus - SMS ke pidato Portugis.
- TweetSentBr - Tweet dalam bahasa Portugis Brasil.
- Tweet untuk analisis sentimen.
- Ud_portuguese -Bosque - Universal Dependencies (UD) Portugis Treebank.
- Ud_portuguese -Cintil - Universal Dependencies (UD) Portugis Treebank.
- UD_PORTUGUESE -GSD - Universal Dependencies (UD) Portugis Treebank.
- Ud_portuguese -Petrogold - Universal Dependencies (UD) Portugis Treebank.
- UD_PORTUGUESE -PUD - Universal Dependencies (UD) Portugis Treebank.
- Ulyssesner -BR - Corpus dari dokumen legislatif Brasil untuk pengakuan entitas bernama
- UTLCORPUS - Korpus ulasan online di Portugis Brasil dianotasi dengan klasifikasi bantuan.
- Winograd Schema Challenge - Solver untuk Winograd Schema Challenge yang berbasis di Portugis.
- Wizardvicuna-ptbr-instruct-clean-wizard vicuna pt-br instruce dataset bersih.
Dataset multibahasa
- Dataset multibahasa untuk menyelidiki stereotip dan sikap negatif terhadap kelompok migran dalam model bahasa besar
- AskD - Dataset ELI5 diadaptasi pada pertanyaan medis (askDocs) subreddit.
- Kalimat Bahasa Inggris-Portugis-Kalimat Bahasa Inggris-Portugis dari Proyek Tatoeba.
- EUR -LEX - Corpus multibahasa dalam semua bahasa resmi Uni Eropa.
- Europarl - Proses Parlemen Eropa Paralel Corpus 1996-2011.
- Europarl-St-Corpus terjemahan pidato multibahasa, yang berisi sampel teks audio-teks untuk terjemahan pidato, dibangun menggunakan debat yang dilakukan di parlemen Eropa pada periode antara 2008 dan 2012.
- MC4 - Kolosal multibahasa, versi corpus Web Crawl Common Crawl. Berdasarkan dataset perayapan umum.
- MFAQ - Korpus multibahasa dari pertanyaan yang sering diajukan diuraikan dari perayapan umum.
- MKQA - Pertanyaan & Jawaban Pengetahuan Multilingual (GitHub).
- MQA - Korpus multibahasa pertanyaan dan jawaban (MQA) diuraikan dari perayapan umum.
- MMARCO - Versi multibahasa dari dataset peringkat MS Marco Passage.
- MROBUST - Versi multibahasa dari Dataset Peringkat Passage TREC 2004
- Multiconer - Dataset multibahasa besar untuk pengenalan entitas bernama.
- Must -C - Corpus terjemahan pidato multibahasa.
- OpenSubtitles - Koleksi subtitle film yang diterjemahkan.
- Oscar - Corpus agregat yang sangat besar merangkak.
- Tatoeba - Database besar kalimat dan terjemahan.
- TED2020 - Berisi merangkak hampir 4000 transkrip TED dan TED -X mulai Juli 2020.
- TSAR-2022-Shared-Task-TSAR2022 Tugas Bersama untuk Penyederhanaan Leksikal.
- Wikiann - Dataset pengenalan entitas multibahasa yang terdiri dari artikel Wikipedia yang dianotasi dengan loc (lokasi), per (orang), dan tag org (organisasi) dalam format IOB2.
- Wikilingua - Dataset ringkasan abstraktif multibahasa yang diekstraksi dari wikihow.
- Wikimatrix - kalimat paralel dalam 1620 pasangan bahasa dari Wikipedia.
- Wikiner - Belajar multibahasa yang disebutkan pengenalan entitas dari Wikipedia.
- Wikineural - Gabungan saraf dan pembuatan data perak berbasis pengetahuan untuk NER multibahasa (EMNLP 2021).
- Wikipedia - Dataset Wikipedia yang berisi artikel yang dibersihkan dari semua bahasa.
- Xformal - tolok ukur untuk transfer gaya formalitas multibahasa.
- XLSUM - 1,35 juta pasangan artikel yang beranotasi secara profesional dari BBC.
Kamus
- Bats -Pt - Terjemahan manual dari bagian leksikografi dari set tes analogi yang lebih besar (kelelawar) ke Portugis
- Br.ispell - Kamus Ispell untuk Portugis Brasil (GitHub).
- ConceptNet - Grafik pengetahuan multibahasa yang terbuka.
- Dicsin - Kamus Sinonim dan Antonim.
- Paket Lexiconpt - R yang menyediakan leksikon untuk analisis teks Portugis.
- Lexicons - Kamus Nama, Nama Keluarga, Akronim dan Ekstensi, Stop -Word, dll.
- LIWC - Penyelidikan Linguistik dan Hitungan Kata (Kamus)
- Ke.pt - Ontologia Lexical Para o Português.
- OpenWordNet -Pt - Open Access WordNet untuk Portugis (Situs).
- Oplexicon - Leksikon sentimen untuk bahasa Portugis.
- Palavras - Daftar Kata Brazillian Portugis.
- Papel.
- PT -BR - WordList, kata kerja, konjugasi, frekuensi istilah.
- PT-LKB-Basis Pengetahuan Leksikal Leksikal Portugis Besar
- PULO - Ontologi Leksikal Terpadu Portugis.
- Sentilex -Pt - Leksikon sentimen untuk Portugis.
- Stopwords - Koleksi Stopwords Portugis.
- TEP2.
- UNITEX -PB - Sumber Daya Leksikal.
- Valexpb - Leksikon valensi kata kerja Portugis Brasil.
- Verbnet.br 1.0 - Leksikon verbal dari Portugis Brasil.
- Wikidict-dsl-pt-Kamus DSL Bilingual Wikidata.
- WordNetaffectBr - Kosakata kata -kata emosi.
- WordNet.br - Portugis WordNet.
Model
- Albertina PT -BR - Ini adalah encoder dari keluarga Bert untuk bahasa Portugis - varian Amerika dari Brasil.
- Albertina PT -Pt - Ini adalah encoder dari keluarga Bert untuk bahasa Portugis - varian Eropa dari Portugal.
- Alpaca-lora-ptBR-Instruksi llama peringkat rendah.
- BART - BART PRE -TREINADO EM Português.
- BASTIMBAU-BASE BERTIMBAU adalah model Bert pretrained untuk Portugis Brasil yang mencapai penampilan canggih pada tiga tugas NLP hilir: pengakuan entitas yang disebutkan, kesamaan tekstual kalimat dan pengakuan tekstual (Github).
- BIOBERTPT - Model Bert yang disempurnakan dilatih pada domain klinis untuk bahasa Portugis (GitHub).
- Cabrita - Instruksi Finetuned Portugis Llama (GitHub).
- Debertinha - Deberta v3 xsmall yang diadaptasi dengan bahasa Portugis Brasil (GitHub).
- Model Electra - Electra dilatih di BRWAC.
- Gervasio -Pt -BR - Ini adalah dekoder keluarga GPT untuk bahasa Portugis - varian Amerika dari Brasil.
- Gervasio -pt -pt - Ini adalah dekoder keluarga GPT untuk bahasa Portugis - varian Eropa dari Portugal.
- Glória 1.3B - Model bahasa besar yang berfokus pada Eropa Portugis (Huggingface)
- GPT2 Small-Gportugis-2 (Portugis GPT-2 Small) adalah model bahasa yang canggih untuk Portugis berdasarkan model kecil GPT-2.
- GPT-NEO Small-Versi finetuned dari GPT-NEO 125m oleh EleTheurai ke bahasa Portugis.
- GPT2-BIO-PT-Versi Finetuned Biomedis dari Gportuguese-2 (GitHub).
- Nerde -base - Bertimbau Finetuned untuk Ner pada dokumen peradilan.
- Roberta-Pt-BR
- Robertacrawlpt-Base-Robertacrawlpt-Base adalah model bahasa bertopeng Portugis generik yang diprediksi dari awal dari korpora crawlpt
- RobertalExpt -Base - Model Bahasa Bertopeng Portugis pretrained dari awal dari legalpt dan crawlpt corpora
- Sabiá - Sabiá -7b adalah model bahasa Portugis yang dikembangkan oleh Maritaca AI.
- Sabiá 2 - Model bahasa yang dilatih pada teks Portugis, terutama di domain Brasil.
- Model T5 - T5 pada data Portugis Brasil.
- TGF-XLM-Roberta-Base-Pt-BR (GitHub)
- WAV2VEC-Facebook/WAV2VEC2-LARGE-XLSR-53 yang disesuaikan dengan Portugis menggunakan kereta api dan pemisahan validasi suara umum 6.1.
Model multibahasa
- Bloom-BigScience Model Bahasa Multilingual Akses Terbuka Terbuka Besar.
- MBERT - Model pretrained pada 104 bahasa teratas dengan wikipedia terbesar menggunakan tujuan pemodelan bahasa bertopeng (MLM).
- Mdeberta
- MGPT - Model GPT multibahasa. Model seperti GPT autoregresif.
- mminilm-mminilm-l6-v2 reranker finetuned di mmarco
- MT5 - T5 multibahasa. Transformator teks-ke-teks multibahasa yang sangat banyak.
- XLM-ROBERTA-Model XLM-ROBERTA Pra-terlatih pada 2.5TB dari data CommonCrawl yang difilter yang berisi 100 bahasa.
- LABSE-Bahasa-agnostik Bert kalimat encoder (LABSE) adalah model berbasis Bert yang dilatih untuk penyematan kalimat untuk 109 bahasa.
Kata embeddings
- FastText - Vektor kata multi -bahasa.
- Laser - Representasi Kalimat Bahasa -Agnostik.
- Nilc -Embeddings - kata embeddings yang dilatih dalam bahasa Portugis oleh USP.
- Muse - Embeddings multibahasa yang tidak diawasi dan diawasi.
- Vektor Kata - Vektor kata pra -terlatih dari 30+ bahasa.
Metrik
- COH-METRIX-PORT-Adaptasi dari alat analisis teks COH-Metrix ke bahasa Portugis Brasil.
- NILC -Metrix - Ini mengumpulkan metrik yang dikembangkan lebih dari satu dekade di NILC Lab.
Papan peringkat
- Open Pt LLM Leaderboard - Open PT LLM Leaderboard bertujuan untuk memberikan tolok ukur untuk evaluasi model bahasa besar (LLM) dalam bahasa Portugis di berbagai tugas dan set data.
Kerangka kerja
- nlpnet
- Nltk
- poliglot
- Spacy
- Bait nlp
- Udpipe
Lembaga
- Brasileiras em pln.
- HAILAB -PUCPR - Kelompok penelitian perintis yang bertujuan untuk mengembangkan solusi untuk perawatan kesehatan menggunakan pemrosesan bahasa alami dan pembelajaran mesin.
- Linguateca.
- Nilc.
- Nlportuguês - Dikhususkan untuk membuat kursus NLP dalam bahasa Portugis Brasil.
- NLX-GROUP.
- PUCRS PLN.
Peralatan
- Apertium -Por - data linguistik apertium untuk Portugis.
- AutoCorrect - Korektor ejaan di Python.
- Brgram - Fragmen tata bahasa komputasi dari Portugis Brasil dalam formalisme LFG yang diimplementasikan di XLE.
- Dicio API - API Kamus Portugis.
- Dict-Pt-BR-Kamus untuk Portugis Brasil.
- Languagetool - Pemeriksa Gaya dan Tata Bahasa untuk 25+ bahasa.
- LegalNLP - Metode pemrosesan bahasa alami untuk bahasa hukum Brasil.
- Lexml Parser - Parser untuk dokumen hukum.
- LX Parser - Parser konstituensi statistik untuk Portugis.
- Metaphone -PTBR - Algoritma metafon untuk bahasa Portugis.
- MLCONJUG3 - Perpustakaan Python untuk kata kerja konjugasi dalam bahasa Portugis dan bahasa lainnya.
- Morphobr - Sumber Daya untuk Analisis Morfologis Portugis.
- OpCluster - Ekstraksi otomatis dan pengelompokan pendapat berbutir halus.
- Fonemizer - Konverter Teks Sederhana ke Telepon untuk Berbagai Bahasa.
- PORGRAM - Tata Bahasa Komputasi Open Source untuk Portugis dalam formalisme HPSG.
- Pymetaphone -BR - Paket algoritma metafon untuk bahasa Portugis.
- PySentiMiento - Toolkit multibahasa untuk analisis sentimen dan tugas NLP sosial.
- Pyspellchecker - Pemeriksaan ejaan multibahasa.
- RBAMR - Parser AMR berbasis aturan untuk Portugis.
- VerbECC - Konjugasi lengkap dari kata kerja apa pun menggunakan pembelajaran mesin untuk bahasa Prancis, Spanyol, Portugis, Italia dan Rumania.
Daftar lainnya
- Dataset Hubungan Semantik Beranotasi
- Dataset Linguistik - Dataset Linguistik untuk Portugis.
- Dataet ner untuk Portugis
- Nilc
- NILC 2
- NILC 3
- Opinando - Penambangan Opini untuk Portugis.
- Daftar Dataset Portugis
Tautan lain
- Opus - Opus adalah kumpulan teks yang diterjemahkan dari web.
- Terjemahan mesin statistik dan saraf.