โปรตุเกส-NLP
รายการทรัพยากรและเครื่องมือที่พัฒนาขึ้นโดยมุ่งเน้นไปที่ภาษาโปรตุเกส
ชุดข้อมูล
- #pracegover - ชุดข้อมูลหลายรูปแบบพร้อมคำอธิบายภาพภาษาโปรตุเกสตามโพสต์จาก Instagram
- ตำราทางการแพทย์โปรตุเกสในศตวรรษที่ 18
- AG_NEWS PT - การแปลอัตโนมัติของคลังข้อมูลข่าวของ AG
- ข้อมูล Alpaca PT-BR-ชุดข้อมูล Stanford Alpaca ที่แปลเป็นภาษาโปรตุเกสของบราซิลโดยใช้ Helsinki-NLP/OPUS-MT-TC-BIG-EN-PT
- AspectBR - ชุดข้อมูลคำอธิบายประกอบที่อิงตามมุมมองของบทวิจารณ์ผู้บริโภคเว็บ
- Assin - ชุดข้อมูลที่มีคะแนนความคล้ายคลึงกันของความหมายและคำอธิบายประกอบการเข้าร่วม (HuggingFace)
- Assin 2 - ลำดับของ Assin (HuggingFace)
- ชุดข้อมูลเรียงความอัตโนมัติ (AES) ชุดข้อมูล - มาตรฐานสำหรับการให้คะแนนเรียงความอัตโนมัติในภาษาโปรตุเกส (HuggingFace)
- ชุดข้อมูล AYA PT - Cohereforai Aya ชุดข้อมูล Filtrado Para Português (PT)
- Blogset -BR - คอลเลกชันของโพสต์ที่รวบรวมจากแพลตฟอร์ม BlogSpot ที่เขียนโดยผู้ใช้ Brazillian
- Bluex - มาตรฐานตามการสอบเข้ามหาวิทยาลัยชั้นนำของบราซิล
- BOOLQ - TraduçãoAutomática Do Boolq
- BR-QUAD-2.0-ชุดข้อมูลตอบคำถาม Stanford (Squad) 2.0 แปลเป็นภาษาโปรตุเกสบราซิล (PT-BR)
- Brands.br - บทวิจารณ์ภาษาโปรตุเกสคลังข้อมูล
- การตัดสินใจของศาลในบราซิล - คอลเลกชันของ 4043 ementa (สรุป) การตัดสินใจของศาลและข้อมูลเมตาของพวกเขาจากศาล de ustiça de alagoas (TJAL), ศาลฎีกาของรัฐ Alagoas (บราซิล)
- บราซิลอีคอมเมิร์ซ-ชุดข้อมูลสาธารณะอีคอมเมิร์ซของบราซิลโดย Olist Store
- พาดหัวข่าวของบราซิล - ชุดข้อมูลที่มีการวิเคราะห์ความเชื่อมั่นของหัวข้อข่าวของสำนักข่าวบราซิล
- คลังวรรณกรรมโปรตุเกสของบราซิล - 3.7 ล้านคำศัพท์ของวรรณกรรมบราซิลที่ตีพิมพ์ระหว่างปี 1840-1908
- ชุดข้อมูลการเล่าเรื่องภาษาโปรตุเกสของบราซิล - ชุดข้อมูลสำหรับการให้คะแนนเรียงความอัตโนมัติของบทความเล่าเรื่องภาษาโปรตุเกสของบราซิล
- ชุดข้อมูลการวิเคราะห์ความเชื่อมั่นของโปรตุเกสของบราซิล
- การตัดสินของบราซิล TCU - การตัดสินของศาลรัฐบาลกลาง - บราซิล (TCU)
- Brwac - เว็บโปรตุเกสของบราซิลเป็นคลังข้อมูล
- Brwac2wiki - ชุดข้อมูลสำหรับการสรุปหลายเอกสารในภาษาโปรตุเกส
- B2W -REVIEWS01 - บทวิจารณ์ผลิตภัณฑ์
- Canarim - ชุดข้อมูลขนาดใหญ่ของหน้าเว็บในภาษาโปรตุเกส (HuggingFace)
- Carolina - Corpus Geral Do Português Brasileiro Contemporâneo (Huggingface)
- Capes - คลังข้อมูลคู่ขนานของวิทยานิพนธ์และวิทยานิพนธ์บทคัดย่อในภาษาอังกฤษและโปรตุเกส
- CC100 -Portuguese - สร้างโดย Conneau & Wenzek และคณะ ในปี 2020 ชุดข้อมูลนี้เป็นหนึ่งใน 100 บริษัท ของข้อมูล monolingual ที่ประมวลผลตั้งแต่เดือนมกราคม-ธันวาคม 2018 Commoncrawl Snapshots จากที่เก็บ CC-Net
- Cetenfolha - ข่าวจากหนังสือพิมพ์ Folha de S. Paulo
- Chave - คอลเลกชันสำหรับการดึงข้อมูลและตอบคำถาม
- Cintil Corpus - คลังข้อมูลที่ตีความทางภาษาศาสตร์ของโปรตุเกส
- Clinicalner - การรับรู้เอนทิตีชื่อทางคลินิกในโปรตุเกส
- Complexidade Textual Para Estágios Escolares Do Sistema Educacional Brasileiro
- CORAA - ชุดข้อมูลสำหรับการรู้จำเสียงพูดอัตโนมัติ
- CORAA SER - การรับรู้อารมณ์จากการพูดอย่างไม่เป็นทางการของโปรตุเกสบราซิล
- crawlpt_dedup-Crawlpt (deduplicated) ประกอบด้วยสาม corpora: brwac, c100-pt, oscar-2301
- CSTNEWS - คลังข้อมูลที่มีข้อความข่าว 50 กลุ่มพร้อมบทสรุปหลายเอกสารรวมถึงวาทกรรมและคำอธิบายประกอบความหมายหลายอย่าง
- C-Oror-Brasil-โครงการนี้อุทิศให้กับการศึกษาการพูดที่เกิดขึ้นเองของโปรตุเกสของบราซิลและในวงกว้างเพื่อรวบรวม Corpoan
- Dantestocks - คลังข้อมูลของตลาดหุ้นทวีตที่เขียนในภาษาโปรตุเกสของบราซิลและมีคำอธิบายประกอบกับหน่วยงานที่มีชื่อตามอนุกรมวิธานของฮาเร็ม
- Deepagé - ตอบคำถามในภาษาโปรตุเกสเกี่ยวกับสภาพแวดล้อมของบราซิล
- DNLT -BP - ชุดข้อมูลของการทดสอบภาษาทางประสาทวิทยาในภาษาโปรตุเกสของบราซิล
- Enem Challenge - ประกอบด้วยการเขียนเรียงความและส่วนวัตถุประสงค์ที่มีคำถามแบบปรนัย 180 ข้อ
- ENEM-20122 และ ENEM-20123-โครงการเหล่านี้ครอบคลุมคำถามแบบปรนัยทั้งหมดจากสองรุ่นสุดท้ายของ Exame Nacional Do Ensino Médio (ENEM) ซึ่งเป็นการสอบเข้ามาตรฐานหลักที่มหาวิทยาลัยบราซิลนำมาใช้
- Essay-BR-Essay-BR: คลังบทความสำหรับภาษาโปรตุเกสของบราซิล
- Extended Essay-BR-Essay-BR Corpus เวอร์ชันขยาย
- Factck.br - ชุดข้อมูลเพื่อศึกษาข่าวปลอมในภาษาโปรตุเกส
- FACTNENWS - ชุดข้อมูลเพื่อทำนายข้อเท็จจริงระดับประโยคของการรายงานข่าว
- เสียงปลอม - Deepfakes ในภาษาโปรตุเกสของบราซิลที่สร้างขึ้นด้วยรุ่น XTTS
- fake.br - จัดเรียงข่าวจริงและปลอมที่เขียนในบราซิลโปรตุเกส (Hugginface)
- central_de_fatos - (huggingface)
- Fakenewsset - (HuggingFace)
- FakePedia -Corpus - ชุดข้อมูลข่าวปลอม
- Fakerecogna - ชุดข้อมูลประกอบด้วยข่าวจริงและปลอม (HuggingFace)
- FakeWhatsapp.br - คลังข้อมูลคำอธิบายประกอบของข้อความ WhatsApp ใน PT -BR สำหรับการตรวจจับข้อมูลที่ผิดพลาดโดยอัตโนมัติ
- FKTC - คอลเลกชันข้อความข่าวปลอม
- Floresta Sintá (C) TICA - Treebank สำหรับโปรตุเกส
- Harem First - การประกวดการประเมินผลสำหรับผู้จดจำนิติบุคคลที่มีชื่อในโปรตุเกส
- HAREM Second - การประกวดการประเมินผลสำหรับผู้จดจำนิติบุคคลที่มีชื่อในโปรตุเกส
- HATEBR - ผู้เชี่ยวชาญขนาดใหญ่ที่มีคำอธิบายประกอบคลังข้อมูล Instagram ของบราซิลสำหรับคำพูดแสดงความเกลียดชังและการตรวจจับภาษาที่น่ารังเกียจบนเว็บและโซเชียลมีเดีย
- Historical Portuguese Corpora - เครื่องมือและทรัพยากรสำหรับการจัดการของ Corpora ประวัติศาสตร์และการจัดการพจนานุกรมประวัติศาสตร์
- IMDB PT - TraduçãoAtomática Do Imbd
- Inferbr - ชุดข้อมูลการอนุมานภาษาธรรมชาติ
- ชุดข้อมูล Iudicium textum - มีเอกสารทางกฎหมายที่สร้างขึ้นโดยศาลฎีกาของรัฐบาลกลางบราซิลในองค์ประกอบที่สำคัญ (กระดาษ)
- Lener -BR - ชุดข้อมูลสำหรับการรับรู้เอนทิตีที่มีชื่อในข้อความทางกฎหมายของบราซิล
- LegalPT_DedUp - LegalPT (deduplicated) รวมจำนวนสูงสุดของข้อมูลทางกฎหมายที่เปิดเผยต่อสาธารณะในภาษาโปรตุเกส
- Lex2Kids - พจนานุกรมในภาษาโปรตุเกสที่ได้ยินมากที่สุดโดยเด็ก ๆ
- Mac-Morpho-ข้อความโปรตุเกสของบราซิลมีคำอธิบายประกอบด้วยแท็กส่วนหนึ่งของคำพูด
- MilkQa - ชุดข้อมูลของคำถามหนาแน่นสำหรับงานเลือกคำตอบ
- รายงานการประชุมธนาคารกลางของบราซิล - รายงานการประชุมนโยบายการเงินของธนาคารกลางของบราซิล
- Ner ในทวีตโปรตุเกสของบราซิล - ข้อความ Twitter ใน PT -BR Annotated สำหรับเอนทิตีต่อ, LOC และ org
- Nerde - เอกสารจากนิติศาสตร์ของ Cade มีคำอธิบายประกอบสำหรับหน่วยงาน org, per, tempo, loc, leg (กฎหมาย), เอกสาร (เอกสาร), ความกล้าหาญ
- News-Crawl-PT-การรวบรวมข้อมูลข่าวภาษาเดียวที่ใช้สำหรับ WMT
- ข่าวของเว็บไซต์ Folha de São Paulo - ข่าวของหนังสือพิมพ์บราซิล Folha de São Paulo
- ข่าวที่ตีพิมพ์ในบราซิล - การรวบรวมข่าวของกลุ่ม Globo
- การสอบ OAB - การสอบบาร์เวอร์ชันบราซิล (USA) (HuggingFace)
- Corpora คู่ขนานจาก Revista Pesquisa Fapesp-โปรตุเกส-ภาษาอังกฤษและโปรตุเกส-สเปนคอลเล็กชันสองภาษาของประเด็นออนไลน์ของนิตยสารนิวส์วิทยาศาสตร์นิตยสารบราซิล Revista Pesquisa Fapesp
- Nurc-SP
- Pirá-ชุดข้อมูลภาษาโปรตุเกส-ภาษาอังกฤษสองภาษาสำหรับการตอบคำถามเกี่ยวกับมหาสมุทร
- PL-CORPUS-ส่วนหนึ่งของ Ulyssesner-BR ซึ่งเป็นคลังข้อมูลของเอกสารกฎหมายของบราซิลสำหรับ NER ที่มีเส้นเขตแดนที่มีคุณภาพ
- PLUE - การแปลภาษาโปรตุเกสของชุดข้อมูลกาวและชุดข้อมูล Scitail
- POETISA - การประมวลผลภาษาโปรตุเกส - ไปสู่การวิเคราะห์วากยสัมพันธ์และการแยกวิเคราะห์
- Politiquices - ชุดข้อมูลที่เกี่ยวข้องกับโครงการ Politiquices.pt
- Porsimplessent - คู่ประโยคที่จัดตำแหน่งเพื่อตรวจสอบการประเมินความสามารถในการอ่านประโยค
- Portilexicon -ud - พจนานุกรมสำหรับชาวบราซิลชาวโปรตุเกสตามการพึ่งพาสากล
- โปรตุเกส-เกลียด---ซ้อน-ชุดข้อมูลโปรตุเกสสำหรับการตรวจจับคำพูดแสดงความเกลียดชังประกอบด้วย 5,668 ทวีตพร้อมคำอธิบายประกอบแบบไบนารี (เช่น 'เกลียด' เทียบกับ 'ไม่เกลียดชัง') (HuggingFace)
- ประโยคทางกฎหมายของโปรตุเกส - การรวบรวมประโยคทางกฎหมายจากศาลฎีกาของโปรตุเกส
- การเลือกตั้งประธานาธิบดีโปรตุเกส - ชุดข้อมูลนี้มีทวีตและผู้ใช้ส่วนใหญ่มาจาก Twittersphere โปรตุเกส
- Pracegover - ชุดข้อมูลหลายรูปแบบที่มีรูปภาพที่เกี่ยวข้องกับคำอธิบายภาพโปรตุเกสตามโพสต์จาก Instagram
- Priberam Corpus ความคิดเห็นที่ละเอียดได้ดี-คลังข้อมูลการขุดความคิดเห็นของชาวโปรตุเกสอย่างละเอียด
- Propbank - มีอินสแตนซ์ที่มีคำอธิบายประกอบด้วยฉลากบทบาทความหมาย (SRL)
- Projeto ACDC - การเข้าถึงอินเทอร์เน็ตไปยัง Corpora
- Puntuguese - คลังของ Puns ในภาษาโปรตุเกสที่มี micro -editions (Huggingface)
- QA -Portuguese - การปรับตัวจากชุดข้อมูล MQA Portuguese Split (คู่ entailment QA)
- Quati-ชุดข้อมูลนี้มีวัตถุประสงค์เพื่อรองรับการพัฒนาระบบการดึงข้อมูล (PT-BR) ของบราซิล (PT-BR) การพัฒนาระบบ (PT-BR) การพัฒนาเอกสารที่สร้างขึ้นใน PT-BR รวมถึงการสืบค้น (หัวข้อ) ที่สร้างโดยเจ้าของภาษา
- Rebel -Portuguese - ชุดข้อมูล de relações partir da wikipedia
- Reli - Resenha de Livros
- REPRO: ชุดข้อมูลมาตรฐานสำหรับการขุดความคิดเห็นสำหรับบราซิลโปรตุเกส - ชุดข้อมูลมาตรฐานสำหรับการขุดความคิดเห็นสำหรับชาวโปรตุเกสบราซิล (HuggingFace)
- Rhetalho - คอร์ปัสหมายเหตุประกอบกับ Rsttool ของ Daniel Marcu
- SEMCLINBR-คลังข้อมูลที่มีความหมายแบบหลายสถาบันและหลายความพิเศษสำหรับงาน NLP ทางคลินิกของโปรตุเกส
- งา - คลังข้อมูลสำหรับ ner ในภาษาโปรตุเกส
- Sigarra News Corpus - ระบบข้อมูล Sigarra ที่มหาวิทยาลัยปอร์โต
- SimpleX -PB - ฐานข้อมูลการทำให้เข้าใจง่ายและมาตรฐานสำหรับภาษาโปรตุเกส
- SimpleX-PB-2.0-ปรับปรุง SimpleX-PB
- SimpleX-PB-3.0-SimpleX-PB เวอร์ชันใหม่
- Spotify Subset - การจำแนกประเภทภาษาในภาษาโปรตุเกสของบราซิล
- Squad -PT v1.1 - การแปลโปรตุเกสของชุดข้อมูลทีม
- Squad-PT v1.1-PT-BR-การแปลโปรตุเกสของบราซิลโปรตุเกสของชุดข้อมูลทีมแปลโดย Brasil การเรียนรู้ลึก
- Squad -PT V2.0 - การแปลชุดข้อมูลของ Squad 2.0 Portuguese
- SST -2 PT - การแปลอัตโนมัติของ Stanford Sentiment Treebank
- Temário - ข้อความข่าวและบทสรุปของมนุษย์ที่สอดคล้องกันเพื่อการสรุป
- คลังข้อมูลความซับซ้อนเชิงข้อความ - คลังความซับซ้อนเชิงข้อความสำหรับการฝึกงานของโรงเรียนในระบบการศึกษาของบราซิล
- TOLD -BR - การตรวจจับภาษาที่เป็นพิษในโซเชียลมีเดียสำหรับบราซิลโปรตุเกส (GITHUB)
- TTS -Portuguese Corpus - ข้อความถึงคำพูดภาษาโปรตุเกส
- Tweetsentbr - ทวีตในบราซิลโปรตุเกส
- ทวีตสำหรับการวิเคราะห์ความเชื่อมั่น
- UD_Portuguese -Bosque - Universal Dependencies (UD) Portuguese TreeBank
- UD_Portuguese -Cintil - Universal Dependencies (UD) Portuguese TreeBank
- UD_PORTUGUESE -GSD - Universal Dependencies (UD) Portuguese TreeBank
- UD_PORTUGUESE -PETROGOLD - Universal Dependencies (UD) Portuguese TreeBank
- ud_portuguese -pud - การพึ่งพาสากล (UD) Portuguese Treebank
- Ulyssesner -BR - คลังข้อมูลของเอกสารกฎหมายของบราซิลสำหรับการรับรู้เอนทิตีที่มีชื่อ
- Utlcorpus - คลังข้อมูลรีวิวออนไลน์ในคำอธิบายประกอบภาษาโปรตุเกสของบราซิลด้วยการจำแนกความช่วยเหลือ
- Winograd Schema Challenge - Solver สำหรับ Winograd Schema Challenge ที่ใช้โปรตุเกส
- WizardVicuna-PTBR-Instruct-Clean-Wizard Vicuna PT-BR สอนชุดข้อมูลที่สะอาด
ชุดข้อมูลหลายภาษา
- ชุดข้อมูลหลายภาษาสำหรับการตรวจสอบแบบแผนและทัศนคติเชิงลบต่อกลุ่มผู้อพยพในรูปแบบภาษาขนาดใหญ่
- Askd - ชุดข้อมูล Eli5 ดัดแปลงจากคำถามทางการแพทย์ (AskDocs) Subreddit
- ประโยคภาษาอังกฤษ-คอร์ทูกู-ประโยคภาษาอังกฤษ-พอร์ทูกูจากโครงการ Tatoeba
- Eur -Lex - คลังข้อมูลหลายภาษาในทุกภาษาทางการของสหภาพยุโรป
- Europarl - การดำเนินคดีของรัฐสภายุโรปขนานคอร์ปัส 2539-2554
- Europarl-St-คลังข้อมูลการแปลหลายภาษาที่มีตัวอย่างข้อความเสียงที่จับคู่สำหรับการแปลคำพูดที่สร้างขึ้นโดยใช้การอภิปรายที่ดำเนินการในรัฐสภายุโรปในช่วงระหว่างปี 2551 ถึง 2555
- MC4 - Web Crawl Corpus Web Crawl ของ Common Crawl Corpus ขึ้นอยู่กับชุดข้อมูลการรวบรวมข้อมูลทั่วไป
- MFAQ - คลังข้อมูลหลายภาษาของคำถามที่พบบ่อยที่แยกวิเคราะห์จากการรวบรวมข้อมูลทั่วไป
- MKQA - คำถามและคำตอบความรู้หลายภาษา (GitHub)
- MQA - คลังข้อมูลและคำตอบหลายภาษา (MQA) แยกวิเคราะห์จากการรวบรวมข้อมูลทั่วไป
- MMARCO - ชุดข้อมูลการจัดอันดับ MS Marco Passage หลายภาษา
- MROBUST - ชุดข้อมูลการจัดอันดับ TREC 2004 ที่มีหลายภาษา
- Multiconer - ชุดข้อมูลหลายภาษาขนาดใหญ่สำหรับการจดจำเอนทิตีที่มีชื่อ
- ต้อง C - คลังข้อมูลการแปลคำพูดหลายภาษา
- OpenSubtitles - คอลเลกชันคำบรรยายภาพยนตร์แปล
- ออสการ์ - คลังข้อมูลรวมที่มีขนาดใหญ่มาก
- Tatoeba - ฐานข้อมูลขนาดใหญ่ของประโยคและการแปล
- TED2020 - มีการรวบรวมข้อมูลเกือบ 4,000 TED และ TED -X Transcripts ตั้งแต่เดือนกรกฎาคม 2563
- TSAR-20122-shared-task-TSAR2022 งานที่ใช้ร่วมกันในการทำให้เข้าใจง่ายคำศัพท์
- Wikiann - ชุดข้อมูลการจดจำเอนทิตีที่มีชื่อหลายภาษาประกอบด้วยบทความ Wikipedia ที่มีคำอธิบายประกอบกับ LOC (ตำแหน่ง), ต่อ (บุคคล) และแท็ก org (องค์กร) ในรูปแบบ IOB2
- Wikilingua - ชุดข้อมูลการสรุปบทคัดย่อหลายภาษาที่แยกออกมาจาก WikiHow
- Wikimatrix - ประโยคคู่ขนานในคู่ภาษา 1620 คู่จาก Wikipedia
- Wikiner - การเรียนรู้การจดจำเอนทิตีหลายภาษาจาก Wikipedia
- WIKINEURAL - การสร้างข้อมูลสีเงินและความรู้ที่ใช้ความรู้รวมกันสำหรับ NER หลายภาษา (EMNLP 2021)
- Wikipedia - ชุดข้อมูล Wikipedia ที่มีบทความที่สะอาดของทุกภาษา
- XFORMAL - มาตรฐานสำหรับการถ่ายโอนสไตล์การพูดหลายภาษาหลายภาษา
- XLSUM - 1.35 ล้านคู่ที่มีคำอธิบายประกอบอย่างมืออาชีพบทความสรุปจาก BBC
พจนานุกรม
- Bats -PT - การแปลด้วยตนเองของส่วนพจนานุกรมของชุดทดสอบการเปรียบเทียบที่ใหญ่กว่า (BATS) เป็นภาษาโปรตุเกส
- Br.ispell - พจนานุกรม Ispell สำหรับบราซิลโปรตุเกส (GitHub)
- ConceptNet - กราฟความรู้หลายภาษาที่เปิดกว้าง
- Dicsin - พจนานุกรมคำพ้องความหมายและคำตรงข้าม
- LexicOnpt - แพ็คเกจ R ที่ให้คำศัพท์สำหรับการวิเคราะห์ข้อความภาษาโปรตุเกส
- พจนานุกรม - พจนานุกรมชื่อนามสกุลคำย่อและส่วนขยาย, หยุดคำ ฯลฯ
- LIWC - การสอบถามภาษาศาสตร์และจำนวนคำ (พจนานุกรม)
- ไปยัง. PT - Ontologia คำศัพท์ para o português
- OpenWordNet -PT - Open Access WordNet สำหรับภาษาโปรตุเกส (ไซต์)
- Oplexicon - พจนานุกรมความเชื่อมั่นสำหรับภาษาโปรตุเกส
- PALAVRAS - รายการคำของ Brazillian Portuguese
- Papel
- PT -BR - WordList, คำกริยา, การผันคำกริยา, ความถี่คำ
- PT-LKB-ฐานความรู้ศัพท์ภาษาโปรตุเกสขนาดใหญ่
- Pulo - อภิปรัชญาคำศัพท์ภาษาโปรตุเกสแบบครบวงจร
- Sentilex -PT - พจนานุกรมความเชื่อมั่นสำหรับโปรตุเกส
- Stopwords - คอลเลกชันคำหยุดภาษาโปรตุเกส
- tep2.
- UNITEX -PB - ทรัพยากรคำศัพท์
- VALEXPB - พจนานุกรมของบราซิลโปรตุเกสกริยา Valences
- verbnet.br 1.0 - คำศัพท์ทางวาจาของบราซิลโปรตุเกส
- Wikidict-DSL-PT-พจนานุกรม DSL สองภาษา Wikidata
- WordNetaffectbr - คำศัพท์ของคำอารมณ์
- Wordnet.br - Portuguese Wordnet
แบบจำลอง
- Albertina PT -BR - เป็นตัวเข้ารหัสของตระกูลเบิร์ตสำหรับภาษาโปรตุเกส - ตัวแปรอเมริกันจากบราซิล
- Albertina PT -PT - มันเป็นตัวเข้ารหัสของตระกูลเบิร์ตสำหรับภาษาโปรตุเกส - ตัวแปรยุโรปจากโปรตุเกส
- Alpaca-Lora-PTBR-คำสั่ง Llama ระดับต่ำ
- Bart - Bart Pre -Treinado EM Português
- Bertimbau-Bertimbau Base เป็นแบบจำลอง Bert ที่ได้รับการฝึกฝนสำหรับโปรตุเกสของบราซิลที่ได้รับการแสดงที่ล้ำสมัยในงาน NLP แบบดาวน์สตรีมสามงาน: การจดจำเอนทิตีที่มีชื่อ
- Biobertpt - รุ่นเบิร์ตที่ปรับแต่งอย่างละเอียดซึ่งได้รับการฝึกฝนเกี่ยวกับโดเมนทางคลินิกสำหรับภาษาโปรตุเกส (GitHub)
- CABRITA - คำแนะนำ Finetuned โปรตุเกส Llama (GitHub)
- Debertinha - A Deberta V3 XSMALL ปรับให้เข้ากับภาษาโปรตุเกสของบราซิล (GitHub)
- Electra - รุ่น Electra ที่ผ่านการฝึกอบรมเกี่ยวกับ Brwac
- Gervasio -PT -BR - เป็นตัวถอดรหัสของตระกูล GPT สำหรับภาษาโปรตุเกส - ตัวแปรอเมริกันจากบราซิล
- Gervasio -PT -PT - มันเป็นตัวถอดรหัสของตระกูล GPT สำหรับภาษาโปรตุเกส - ตัวแปรยุโรปจากโปรตุเกส
- Glória 1.3b - โมเดลภาษาขนาดใหญ่ที่เน้นภาษาโปรตุเกสในยุโรป (HuggingFace)
- GPT2 Small-Gportuguese-2 (Portuguese GPT-2 Small) เป็นรูปแบบภาษาที่ทันสมัยสำหรับภาษาโปรตุเกสตามรุ่นขนาดเล็ก GPT-2
- GPT-Neo Small-เวอร์ชั่น finetuned จาก GPT-Neo 125m โดย Eletheurai เป็นภาษาโปรตุเกส
- GPT2-BIO-PT-รุ่น finetuned ชีวการแพทย์จาก Gportuguese-2 (GitHub)
- Nerde -Base - Bertimbau Finetuned ไปยังเอกสารการพิจารณาคดี
- Roberta-pt-br
- Robertacrawlpt-Base-Robertacrawlpt-Base เป็นรูปแบบภาษาที่สวมหน้ากากภาษาโปรตุเกสทั่วไปที่ได้รับการปรับปรุงจากศูนย์
- Robertalexpt -base - รูปแบบภาษาที่สวมหน้ากากโปรตุเกสที่ได้รับการฝึกฝนมาตั้งแต่เริ่มต้นจาก legalpt และ crawlpt corpora
- Sabiá - Sabiá -7b เป็นรูปแบบภาษาโปรตุเกสที่พัฒนาโดย Maritaca AI
- Sabiá 2 - รูปแบบภาษาที่ผ่านการฝึกอบรมเกี่ยวกับข้อความภาษาโปรตุเกสโดยเฉพาะในโดเมนบราซิล
- รุ่น T5 - T5 บนข้อมูลภาษาโปรตุเกสของบราซิล
- TGF-XLM-Roberta-Base-PT-BR (GitHub)
- WAV2VEC-Facebook/WAV2VEC2-LARGE-XLSR-53 บน Portuguese โดยใช้รถไฟและการตรวจสอบความถูกต้องของเสียงทั่วไป 6.1
โมเดลหลายภาษา
- Bloom-Bigscience ขนาดใหญ่เปิดวิทยาศาสตร์แบบเปิดกว้างภาษาหลายภาษา
- Mbert - โมเดลที่ผ่านการฝึกอบรมใน 104 ภาษาบนสุดที่มีวิกิพีเดียที่ใหญ่ที่สุดโดยใช้วัตถุประสงค์การสร้างแบบจำลองภาษาหน้ากาก (MLM)
- mdeberta
- MGPT - รุ่น GPT หลายภาษา โมเดล GPT แบบอัตโนมัติ
- MMINILM-MMINILM-L6-V2 RERANKER FINETUNED บน MMARCO
- MT5 - T5 หลายภาษา หม้อแปลงข้อความที่ผ่านการฝึกอบรมหลายภาษาหลายภาษา
- XLM-Roberta-XLM-Roberta Model ได้รับการฝึกอบรมล่วงหน้าบนข้อมูล Commoncrawl ที่ผ่านการกรอง 2.5TB ที่มี 100 ภาษา
- Labse-Language-Agnostic Bert Sentence Encoder (LabSE) เป็นแบบจำลองที่ใช้ BERT ที่ได้รับการฝึกฝนสำหรับการฝังประโยคสำหรับ 109 ภาษา
การฝังคำ
- FastText - เวกเตอร์คำหลายภาษา
- เลเซอร์ - การเป็นตัวแทนประโยคที่ไม่เชื่อเรื่องภาษา
- NILC -embeddings - การฝังคำที่ได้รับการฝึกฝนในภาษาโปรตุเกสโดย USP
- Muse - การฝังตัวที่ไม่ได้รับการดูแลและดูแล
- Word Vectors - เวกเตอร์ Word ที่ผ่านการฝึกอบรมมาก่อน 30+ ภาษา
ตัวชี้วัด
- COH-Metrix-Port-การปรับเครื่องมือวิเคราะห์ข้อความ COH-Metrix เป็นภาษาโปรตุเกสของบราซิล
- NILC -Metrix - รวบรวมตัวชี้วัดที่พัฒนามานานกว่าทศวรรษใน NILC Lab
บอร์ดลีดเดอร์
- Open PT LLM LEADERBOARD - OPEN PT LLM LEADERBOARD มีจุดมุ่งหมายเพื่อให้มาตรฐานสำหรับการประเมินแบบจำลองภาษาขนาดใหญ่ (LLMS) ในภาษาโปรตุเกสในงานและชุดข้อมูลที่หลากหลาย
เฟรมเวิร์ก
- nlpnet
- nltk
- ภาพรวมหลายภาษา
- เครื่องราง
- stanza nlp
- UDPIPE
สถาบัน
- Brasileiras em pln
- HAILAB -PUCPR - กลุ่มวิจัยผู้บุกเบิกโดยมีวัตถุประสงค์เพื่อพัฒนาโซลูชั่นสำหรับการดูแลสุขภาพโดยใช้การประมวลผลภาษาธรรมชาติและการเรียนรู้ของเครื่อง
- Linguateca
- Nilc.
- Nlportuguês - อุทิศให้กับการสร้างหลักสูตร NLP ในภาษาโปรตุเกสของบราซิล
- กลุ่ม NLX
- pln pucrs
เครื่องมือ
- Apertium -por - ข้อมูลภาษาศาสตร์ Apertium สำหรับภาษาโปรตุเกส
- Autocorrect - ตัวตรวจสอบการสะกดคำใน Python
- Brgram - ชิ้นส่วนไวยากรณ์การคำนวณของชาวบราซิลโปรตุเกสในพิธีการ LFG ที่ใช้ใน XLE
- DICIO API - API พจนานุกรมโปรตุเกส
- DICT-PT-BR-พจนานุกรมสำหรับบราซิลโปรตุเกส
- Languagetool - Checker สไตล์และไวยากรณ์สำหรับ 25+ ภาษา
- LegalNLP - วิธีการประมวลผลภาษาธรรมชาติสำหรับภาษากฎหมายของบราซิล
- Lexml Parser - ตัวแยกวิเคราะห์สำหรับเอกสารทางกฎหมาย
- LX Parser - ตัวแยกวิเคราะห์การเลือกตั้งทางสถิติสำหรับโปรตุเกส
- Metaphone -PTBR - อัลกอริทึม metaphone สำหรับภาษาโปรตุเกส
- MLCONJUG3 - ห้องสมุด Python เพื่อผันคำกริยาในภาษาโปรตุเกสและภาษาอื่น ๆ
- Morphobr - ทรัพยากรสำหรับการวิเคราะห์ทางสัณฐานวิทยาของโปรตุเกส
- Opcluster - การสกัดอัตโนมัติและการจัดกลุ่มของความคิดเห็นที่ละเอียด
- Phonemizer - ตัวแปลงโทรศัพท์แบบง่าย ๆ สำหรับหลายภาษา
- Porgram - ไวยากรณ์การคำนวณโอเพนซอร์สสำหรับโปรตุเกสในพิธีการ HPSG
- pymetaphone -br - แพ็คเกจอัลกอริทึม metaphone สำหรับภาษาโปรตุเกส
- Pysentimiento - ชุดเครื่องมือหลายภาษาสำหรับการวิเคราะห์ความเชื่อมั่นและงาน NLP ทางสังคม
- PyspellChecker - การตรวจสอบการสะกดหลายภาษา
- RBAMR - ตัวแยกวิเคราะห์ AMR ตามกฎสำหรับโปรตุเกส
- VERBECC - การผันคำกริยาใด ๆ ที่สมบูรณ์โดยใช้การเรียนรู้ของเครื่องจักรสำหรับฝรั่งเศส, สเปน, โปรตุเกส, อิตาลีและโรมาเนีย
รายการอื่น ๆ
- ชุดข้อมูลความสัมพันธ์เชิงความหมายหมายเหตุประกอบ
- ชุดข้อมูลภาษาศาสตร์ - ชุดข้อมูลภาษาศาสตร์สำหรับภาษาโปรตุเกส
- Ner-Datasets สำหรับโปรตุเกส
- นิวเคลียส
- NILC 2
- NILC 3
- Internando - การขุดความคิดเห็นสำหรับโปรตุเกส
- รายการชุดข้อมูลโปรตุเกส
ลิงค์อื่น ๆ
- Opus - Opus เป็นคอลเลกชันที่เพิ่มขึ้นของข้อความที่แปลจากเว็บ
- การแปลทางสถิติและระบบประสาท