中文(繁体)
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
網站地圖大全
最新更新
首頁
源碼下載
編程相關
建站資源
網頁設計教程
網絡編程教程
首頁
>
編程相關
>
其他源碼
Portuguese NLP
其他源碼
1.0.0
下載
葡萄牙-NLP
以葡萄牙語為重點開發的資源和工具清單。
數據集
#pracegover-基於Instagram的帖子的葡萄牙字幕的多模式數據集。
18世紀的葡萄牙醫學文本
AG_News PT-自動翻譯AG的新聞文章。
羊駝數據PT-BR-Stanford羊駝數據集使用Helsinki-NLP/Opus-Mt-Mt-Mt-Tc-big-en-pt模型轉換為巴西葡萄牙語。
Factionbr-基於方面的網絡消費者評論數據集。
Assin-具有語義相似性評分和含義註釋的數據集。 (擁抱面)
assin 2- assin序列。 (擁抱面)
自動論文分數(AES)元素數據集 - 葡萄牙語中自動散文評分的基準(huggingface)
AYA DATASET PT -COHEREFORAI AYA DATASET FILTRADO PARA PARAPORTUGUês(PT)。
Blogset -BR-從Brazillian用戶撰寫的Blogspot平台收集的帖子集合。
BlueX-基於巴西領先大學入學考試的基準。
Boolq -TraduçãoAutomáticado boolq。
BR-Quad-2.0-斯坦福問題回答數據集(小隊)2.0轉化為巴西葡萄牙語(PT-BR)語言。
Brands.br-葡萄牙評論語料庫
巴西法院的裁決 - 收集4043 Elementa(摘要)法院裁決及其元數據,來自阿拉戈亞斯州州最高法院(巴西)州最高法院(TJAL)法庭。
巴西電子商務 - Olist商店的巴西電子商務公共數據集。
巴西頭條新聞情緒 - 包含巴西新聞機構頭條的情感分析的數據集。
巴西葡萄牙文學語料庫 - 1840 - 1908年之間出版了370萬個巴西文學單詞語料庫。
巴西葡萄牙敘事論文數據集 - 用於巴西葡萄牙敘事論文的自動論文評分的數據集。
巴西葡萄牙情感分析數據集。
巴西TCU的判決 - 聯邦賬戶法院的判決 - 巴西(TCU)。
BRWAC-巴西葡萄牙網絡作為語料庫。
BRWAC2WIKI-用於葡萄牙語中多文件摘要的數據集。
B2W -REVIEWS01-產品評論。
CANARIM-葡萄牙語言中網頁的大規模數據集(huggingface)
卡羅來納州-Corpus geral doportuguêsbrasileiroersporâneo(huggingface)。
斗篷 - 英語和葡萄牙語中的論文和論文摘要的平行語料庫。
CC100-葡萄牙 - 由Conneau&Wenzek等人創建。在2020年。此數據集是2018年1月至12月從CC-NET存儲庫中處理的100個單語數據中的100個單語言數據集之一。
Cetenfolha-來自報紙Folha de S. Paulo的新聞。
Chave-收集信息檢索和問答。
Cintil Copus-語言解釋的葡萄牙語語料庫。
臨床者 - 葡萄牙語中的臨床命名實體識別。
Complexidade Textual paraestágiosescolares Do Sistema教育Brasileiro。
CORAA-用於自動語音識別的數據集。
Coraa Ser-巴西葡萄牙非正式自發演講的情感認可。
Crawlpt_dedup-Crawlpt(Dewuplicated)由三個Corpora組成:BRWAC,C100-PT,OSCAR-2301。
CSTNEWS-具有50個新聞文本的語料庫,其多文件摘要以及幾個話語和語義註釋。
C-Oral-Brasil-該項目致力於研究巴西葡萄牙自發的演講,更廣泛地研究了口頭語料庫的彙編。
DanteStocks-根據后宮分類法,用巴西葡萄牙語編寫的股票市場推文並用命名實體註釋。
Deepagé-在葡萄牙語中回答有關巴西環境的問題。
DNLT -BP-巴西葡萄牙語中神經心理語言測試的數據集。
Enem挑戰 - 由論文的寫作和包含180個多項選擇問題的客觀部分組成。
Enem-2022和Enem-2023-這些項目涵蓋了前兩個版本的所有多項選擇問題,即前兩個版本,這是巴西大學通過的主要標準化入學考試。
Essay-Br-散文-BR:巴西葡萄牙語的論文語料庫。
Essay-Br語料庫的擴展論文 - 擴展版。
FACTCK.BR-一個在葡萄牙研究假新聞的數據集。
FACTNEWS-數據集預測新聞報導的句子級事實。
假的聲音 - 由XTTS模型創建的巴西葡萄牙語中的深果。
假br-用巴西葡萄牙語(Hugginface)編寫的真實和假新聞。
central_de_fatos-(huggingface)。
fakenewsset-(huggingface)。
Fakepedia -Corpus-假新聞數據集。
Fakerecogna-數據集由真實和虛假新聞(擁抱面)組成。
FakeWhatsApp.br- PT -BR中WhatsApp消息的帶註釋的語料庫,用於自動檢測文本錯誤信息。
FKTC-假新聞文本集。
FlorestaSintá(C)Tica-葡萄牙的樹倉。
后宮首先 - 葡萄牙語中指定實體識別者的評估競賽。
后宮第二 - 葡萄牙語中指定實體識別者的評估競賽。
Hatebr-巴西Instagram的大規模專家註釋語料庫評論仇恨言論和網絡和社交媒體上的令人反感的語言檢測。
歷史葡萄牙語料庫 - 操縱歷史語料庫和歷史詞典管理的工具和資源。
IMDB PT -TraduçãoAtomáticado Imbd。
辛格 - 自然語言推理數據集。
iudicium Textum數據集 - 包含巴西聯邦最高法院在其整體組成(論文)中創建的法律文件。
Lener -BR-巴西法律文本中指定實體識別的數據集。
LegalPT_DEDUP-法律PRENT(重複數據刪除)匯總了葡萄牙公開可用的法律數據。
Lex2Kids-兒童聽到的葡萄牙語中的詞典。
MAC-MORPHO-帶有言論部分標籤註釋的巴西葡萄牙文本。
米爾卡 - 一個密集問題的數據集,以解決答案選擇的任務。
巴西中央銀行的紀要 - 巴西中央銀行貨幣政策委員會的紀要。
在巴西葡萄牙的推文中的NER- PT -BR中的Twitter消息,針對每個實體,LOC和ORG註釋。
NERDE-凱德(Cade)法學的文件註釋了實體,per,tempo,loc,loc,loc(立法),文檔(文件),勇氣。
News-Crawl-Pt-用於WMT的單語言新聞爬網。
網站Folha de聖保羅的新聞 - 巴西報紙Folha de聖保羅的新聞。
新聞發佈於巴西 - Globo集團的新聞彙編。
OAB考試 - 巴西版的律師考試(美國)(擁抱面)。
Revista Pesquisa fapesp的平行語料庫 - 葡萄牙 - 英語和葡萄牙 - 西班牙雙語收藏,涉及科學新聞巴西雜誌Revista Pesquisa fapesp的在線問題。
NURC-SP
Pirá-雙語葡萄牙語 - 英語數據集,用於有關海洋的提問。
PL-Corpus- Ulyssesner-Br的一部分,這是一大批帶有優質基線的NER的立法文件。
Plue-膠水基準和Scitail數據集的葡萄牙翻譯。
Poetisa-葡萄牙加工 - 進行句法分析和解析。
政治 - 與politiques.pt項目相關的數據集。
重新安裝的句子對調查句子可讀性評估。
Portile tocixon -ud-根據普遍的依賴性,巴西葡萄牙語的詞典。
葡萄牙仇恨 - 斯波奇數據集 - 葡萄牙數據集用於仇恨言語檢測,由5,668條帶有二進制註釋的推文組成(即“仇恨”與“ no hathate”)(huggingface)
葡萄牙法律判決 - 葡萄牙最高法院收集法律判決。
葡萄牙總統選舉 - 該數據集包含推文和用戶,主要來自葡萄牙Twittersphere。
pracegover-基於Instagram帖子與葡萄牙字幕關聯的圖像的多模式數據集。
Priberam細顆粒意見語料庫 - 一種葡萄牙細粒度的依賴意見礦業語料庫。
Propbank - 包含帶有語義角色標籤(SRL)註釋的實例。
Projeto ACDC-互聯網訪問CORPORA。
Pununuguese-葡萄牙語中的雙關語,帶有微觀版本(擁抱面)
QA-葡萄牙 - 從MQA數據集葡萄牙拆分(質量檢查對)改編。
Quati-該數據集旨在支持巴西葡萄牙(PT-BR)信息檢索(IR)系統開發,提供最初在PT-BR中創建的文檔Passagens,以及由母語人士創建的查詢(主題)。
叛軍 - 葡萄球菌-DADASET deRelaçõespartir da Wikipedia。
Reli -Resenha de Livros。
Repro:用於巴西葡萄牙語的基準數據集,用於開採意見 - 用於巴西葡萄牙語的基準數據集。 (擁抱面)
Rhetalho-與丹尼爾·馬庫(Daniel Marcu)的rsttool註釋的語料庫。
Semclinbr-用於葡萄牙臨床NLP任務的多機構和多特殊語義註釋語料庫。
芝麻 - 葡萄牙語中的NER語料庫。
Sigarra新聞語料庫 - 波爾圖大學的Sigarra信息系統。
Simplex -PB-葡萄牙語的詞彙簡化數據庫和基準。
Simple-pb-2.0-改進的單純版PB版本。
Simple-pb-3.0-簡單版本的新版本。
Spotify子集 - 在巴西葡萄牙語中分類語言變化
小隊-PT v1.1-小隊數據集的葡萄牙翻譯。
Squad-pt v1.1-pt-Br-巴西葡萄牙語的葡萄牙數據集翻譯,由深度學習巴西翻譯。
小隊-PT v2.0-小隊2.0數據集的葡萄牙翻譯。
SST -2 PT-斯坦福情感樹庫的自動翻譯。
Temário-新聞文本和相應的人類摘要,以進行摘要。
文本複雜性語料庫 - 巴西教育系統中學校實習的文本複雜性語料庫。
在社交媒體中為巴西葡萄牙語(Github)中的有毒語言檢測。
TTS-葡萄牙語料庫 - 葡萄牙語語音的文字。
Tweetsentbr-巴西葡萄牙語中的推文。
推文進行情感分析。
UD_PORTUGUESE -BOSQUE-通用依賴(UD)葡萄牙樹庫。
UD_PORTUGUESE -CINTIL-通用依賴(UD)葡萄牙樹庫。
UD_PORTUGUESE -GSD-通用依賴關係(UD)葡萄牙樹庫。
UD_PORTUGUESE -PETROGOLD-通用依賴(UD)葡萄牙樹庫。
UD_PORTUGUESE -PUD-通用依賴項(UD)葡萄牙樹庫。
Ulyssesner -Br-巴西立法文件的語料庫,用於指定實體識別
UTLCORPUS-帶有幫助分類的帶註釋的巴西葡萄牙的在線評論語料庫。
Winograd模式挑戰 - 總部位於葡萄牙的Winograd模式挑戰賽的求解器。
wizardvicuna-ptbr-instruct-clean-Wizard Vicuna PT-BR指示清潔數據集。
多語言數據集
用於調查大語模型中移民群體的刻板印象和負面態度的多語言數據集
AskD -ELI5數據集適用於醫療問題(AskDocs)subreddit。
英語 - 葡萄牙語句子 - Tatoeba項目中的英語 - 葡萄牙語句子。
EUR -LEX-歐盟所有官方語言中的多語言語料庫。
EUROPARL-歐洲議會會議卷平行語料庫1996-2011。
EUROPARL-ST-多語言語音翻譯語料庫,其中包含配對的音頻文本樣本,用於語音翻譯,該樣本是在2008年至2012年期間使用歐洲議會中在歐洲議會中進行的辯論進行的。
MC4-多語言巨大,清潔的版本的Common Crawl的Web Crawl Copus。基於常見的爬網數據集。
MFAQ-從普通爬網中解析的常見問題的多語言語料庫。
MKQA-多語言知識問題和答案(GitHub)。
MQA-從共同爬網中解析的問題和答案的多語種語料庫。
MMARCO- MS MARCO通過排名數據集的多語言版本。
Mrobust- TREC 2004強大段落排名數據集的多語言版本
Multiconer-用於命名實體識別的大型多語言數據集。
必須使用 - 多語言語音翻譯語料庫。
OpenSubtitles-翻譯電影字幕的集合。
奧斯卡 - 開放的超大爬行堆積語料庫。
tatoeba-句子和翻譯的大數據庫。
TED2020-從2020年7月開始,包含近4000台TED和TED -X成績單的爬網。
TSAR-2022共享任務-TSAR2022在詞彙簡化上共享任務。
Wikiann-多語言命名實體識別數據集,該數據集由以IOB2格式註釋的Wikipedia文章(位置),Per(Person)和Org(組織)標籤。
Wikilingua-從Wikihow提取的多語言抽象摘要數據集。
Wikimatrix- Wikipedia的1620語言對的並行句子。
Wikiner-從Wikipedia學習多語言命名實體識別。
WIKINEARARARARARARIAN-多語言NER的合併基於神經和知識的銀數據創建(EMNLP 2021)。
Wikipedia- Wikipedia數據集,其中包含所有語言的清潔文章。
Xformal-多語性形式樣式轉移的基準。
XLSUM-來自BBC的135萬專業註釋的文章 - 薩摩對。
詞典
BATS -PT-較大類比測試集(蝙蝠)詞典部分的手動翻譯到葡萄牙
br.ispell-巴西葡萄牙語(github)的iSpell詞典。
概念網 - 開放的多語言知識圖。
DICSIN-同義詞和反義詞詞典。
詞典-R包裝,可為葡萄牙文本分析提供詞典。
詞典 - 名稱,姓氏,縮寫詞的字典以及它的擴展名,停止詞等。
LIWC-語言查詢和單詞計數(字典)
in.pt--本體詞法para oportuguês。
OpenWordnet -PT-葡萄牙語(站點)的開放訪問WordNet。
Oplexicon-葡萄牙語的情感詞典。
Palavras-巴西葡萄牙語的單詞清單。
帕普爾。
pt -br-詞列表,動詞,結合,術語頻率。
PT-LKB-大型葡萄牙詞彙語義知識庫
Pulo-葡萄牙統一的詞彙本體論。
Senilex -pt-葡萄牙語的情感詞典。
停止詞 - 葡萄牙停止詞收集。
tep2。
UNITEX -PB-詞彙資源。
Valexpb-巴西葡萄牙動詞率的詞典。
Verbnet.br 1.0-巴西葡萄牙語的語言詞典。
Wikidict-DSL-PT-Wikidata雙語DSL詞典。
WordNetaffectbr-情感詞語詞彙。
WordNet.br-葡萄牙文章。
型號
Albertina PT -BR-它是葡萄牙語的Bert家族的編碼器 - 來自巴西的美國變體。
Albertina PT -PT-它是Bert家族的葡萄牙語言的編碼器 - 來自葡萄牙的歐洲變體。
羊駝毛 - 洛拉-PTBR-低級別的駱駝指令。
BART -BART PRE -TREINADO EMPORTUGUês。
Bertimbau-Bertimbau基礎是巴西葡萄牙語的審計BERT模型,在下游NLP的三個任務上實現了最先進的表演:命名實體識別,句子文本相似性和識別文本款項(Github)。
Biobertpt-對葡萄牙語臨床領域訓練的微調BERT模型(Github)。
Cabrita-葡萄牙的芬特指令Llama(Github)。
DEBERTINHA- DEBERTA V3 XSMALL適用於巴西葡萄牙語(Github)。
Electra-在BRWAC上訓練的Electra模型。
Gervasio -pt -br-它是葡萄牙語的GPT家族的解碼器 - 來自巴西的美國變體。
Gervasio -pt -pt-它是葡萄牙語的GPT家族的解碼器 - 來自葡萄牙的歐洲變體。
Glória1.3b-一種以葡萄牙為註重歐洲的大語言模型(擁抱面)
GPT2 Small-Gportuguese-2(葡萄牙GPT-2小)是基於GPT-2小型型號的葡萄牙語的最先進的語言模型。
gpt-neo Small- Eletheurai的GPT-Neo 1.25m的固定版本到葡萄牙語。
GPT2-BIO-PT- GPORTUGUESE-2(GITHUB)的生物醫學鑑定版本。
Nerde -base -Bertimbau對司法文件進行了挑戰。
羅伯塔-PT-BR
Robertacrawlpt-bas-bas-Robertacrawlpt-base是一種通用的葡萄牙語蒙面語言模型
Robertalexpt -base-葡萄牙蒙面的語言模型從法律和爬網語料庫中概述
Sabiá -Sabiá -7b是Maritaca AI開發的葡萄牙語模型。
Sabiá2-在葡萄牙文本中訓練的語言模型,尤其是在巴西領域。
巴西葡萄牙數據的T5 -T5模型。
TGF-XLM-ROBERTA-BASE-PT-BR(GITHUB)
WAV2VEC-使用火車和驗證分配的普通語音6.1進行微調/wav2Vec2-large-xlsr-53。
多語言模型
Bloom-大科學大型開放科學開放式多語言模型。
梅伯特(Mbert) - 使用蒙版語言建模(MLM)目標的最大Wikipedia的前104種語言進行了預讀的模型。
姆德伯塔省
MGPT-多語言GPT模型。一種自回歸的類似GPT的模型。
mminilm-mminilm-l6-v2 reranker在mmarco上進行了固定
MT5-多語言T5。大規模多語言預訓練的文本到文本變壓器。
XLM-ROBERTA-XLM-ROBERTA模型在包含100種語言的2.5TB的2.5TB上進行了預訓練。
LABSE-語言不可思議的bert句子編碼器(LABSE)是一種基於BERT的模型,該模型訓練了嵌入109種語言的句子。
單詞嵌入
FastText-多語言詞向量。
激光 - 語言敏銳的句子表示。
NILC-隔離 - 單詞嵌入在USP在葡萄牙訓練的單詞嵌入。
繆斯 - 多語言無監督和有監督的嵌入。
單詞向量 - 30多種語言的預訓練的單詞向量。
指標
COH-Metrix-port- COH-Metrix文本分析工具對巴西葡萄牙語的改編。
NILC -Metrix-它收集了NILC實驗室十多年來發展的指標。
排行榜
OPEN PT LLM排行榜 - 開放PT LLM排行榜旨在為葡萄牙語中的大型語言模型(LLMS)評估在各種任務和數據集中評估大型語言模型(LLM)。
框架
nlpnet
NLTK
多面體
Spacy
Stanza NLP
udpipe
機構
Brasileiras Em Pln。
Hailab -Pucpr-一個開創性的研究小組,旨在使用自然語言處理和機器學習開發醫療保健解決方案。
語言。
NILC。
Nlportuguês-致力於在巴西葡萄牙創建NLP課程。
NLX組。
PLN PUCR。
工具
葡萄牙語的Apertium -Por-孔道語言數據。
自動更正 - Python中的拼寫校正器。
BRGRAGR- XLE實施的LFG形式主義中巴西葡萄牙語的計算語法片段。
DICIO API-葡萄牙字典API。
dict-pt-br-巴西葡萄牙語的詞典。
Languagetool- 25多種語言的樣式和語法檢查器。
Legalnlp-巴西法律語言的自然語言處理方法。
Lexml解析器 - 法律文件解析器。
LX解析器 - 葡萄牙語的統計選區解析器。
對葡萄牙語的代碼 - PTBR-代碼算法。
mlConjug3-一個python庫,用於葡萄牙語和其他語言中的動詞。
Morphobr-葡萄牙形態分析的資源。
opcluster-自動提取和精細顆粒意見的聚類。
PhoneMizer-簡單的文本到手機轉換器的多種語言。
PORGRAM- HPSG形式主義中葡萄牙語的開源計算語法。
Pymethone -BR-葡萄牙語的代碼算法包。
Pysentimiento-多種語言工具包用於情感分析和社交NLP任務。
PyspellChecker-多語言拼寫檢查。
RBAMR-葡萄牙的基於規則的AMR解析器。
Verbecc-使用法語,西班牙語,葡萄牙語,意大利語和羅馬尼亞語的機器學習完全連接任何動詞。
其他列表
註釋的語義關係數據集
語言數據集 - 葡萄牙語的語言數據集。
NER-DATASET用於葡萄牙
NILC
NILC 2
NILC 3
Opinando-葡萄牙的意見採礦。
葡萄牙數據集列表
其他鏈接
Opus -Opus是網絡上越來越多的翻譯文本集合。
統計和神經機器翻譯。
展開
附加信息
版本
1.0.0
類型
其他源碼
更新時間
2025-04-19
大小
11.87KB
來自於
Github
相關應用
GitHub sgrebnov/cordova plugin background download
2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings
2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home
2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home
2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p
2024-11-01
GitHub the via/releases
2024-11-01
爲您推薦
chat.petals.dev
其他源碼
1.0.0
GPT Prompt Templates
其他源碼
1.0.0
GPTyped
其他源碼
GPTyped 1.0.5
Google Dorks
其他源碼
1.0
shepherd
其他源碼
v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express
其他源碼
v1.1.0-rc-3
Google Dorks
其他源碼
1.0
shepherd
其他源碼
v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express
其他源碼
v1.1.0-rc-3
相關資訊
全部
崩壞星軌下一個橫幅和當前橫幅,崩壞星軌中所有橫幅的列表
2024-11-22
如何獲得 PLS DONATE x 塔防模擬器活動中的所有獎勵
2024-11-17
如何解鎖《龍騰世紀:面紗守衛》中的黑色商場
2024-11-16
如何製作《黑色行動 6》第 1 季中的人體模型 Nuketown 復活節彩蛋
2024-11-15
《金剛之國度 2》的新秘籍在幾十年後被發現
2024-11-10
如何在《黑色行動 6》(BO6) 中用煙霧彈擊殺並解鎖鈍器創傷名片
2024-11-11
《戰區》和《黑色行動 6》第 1 季的發布日期和時間
2024-11-10
如何在龍騰世紀中擊敗冰爪科里烏斯面紗守衛
2024-11-02
如何到達《國王遺產》中的盧瑪叢林和龍堡要塞
2024-11-02
Pokemon Go Team Rocket Grunt 2024 年 11 月的對陣和陣容
2024-11-02
2024 年 11 月的 Zenless Zone 零代碼以及如何兌換它們
2024-11-02
FF14陸行鳥怎麼獲得FF14陸行鳥獲得方法分享
2023-10-31