Portuguese NLP下载 - Portuguese NLP源代码下载

Portuguese NLP

其他源码

1.0.0

下载

葡萄牙-NLP

以葡萄牙语为重点开发的资源和工具清单。

数据集

#pracegover-基于Instagram的帖子的葡萄牙字幕的多模式数据集。
18世纪的葡萄牙医学文本
AG_News PT-自动翻译AG的新闻文章。
羊驼数据PT-BR-Stanford羊驼数据集使用Helsinki-NLP/Opus-Mt-Mt-Mt-Tc-big-en-pt模型转换为巴西葡萄牙语。
Factionbr-基于方面的网络消费者评论数据集。
Assin-具有语义相似性评分和含义注释的数据集。（拥抱面）
assin 2- assin序列。（拥抱面）
自动论文分数（AES）元素数据集 - 葡萄牙语中自动散文评分的基准（huggingface）
AYA DATASET PT -COHEREFORAI AYA DATASET FILTRADO PARA PARAPORTUGUês（PT）。
Blogset -BR-从Brazillian用户撰写的Blogspot平台收集的帖子集合。
BlueX-基于巴西领先大学入学考试的基准。
Boolq -TraduçãoAutomáticado boolq。
BR-Quad-2.0-斯坦福问题回答数据集（小队）2.0转化为巴西葡萄牙语（PT-BR）语言。
Brands.br-葡萄牙评论语料库
巴西法院的裁决 - 收集4043 Elementa（摘要）法院裁决及其元数据，来自阿拉戈亚斯州州最高法院（巴西）州最高法院（TJAL）法庭。
巴西电子商务 - Olist商店的巴西电子商务公共数据集。
巴西头条新闻情绪 - 包含巴西新闻机构头条的情感分析的数据集。
巴西葡萄牙文学语料库 - 1840 - 1908年之间出版了370万个巴西文学单词语料库。
巴西葡萄牙叙事论文数据集 - 用于巴西葡萄牙叙事论文的自动论文评分的数据集。
巴西葡萄牙情感分析数据集。
巴西TCU的判决 - 联邦账户法院的判决 - 巴西（TCU）。
BRWAC-巴西葡萄牙网络作为语料库。
BRWAC2WIKI-用于葡萄牙语中多文件摘要的数据集。
B2W -REVIEWS01-产品评论。
CANARIM-葡萄牙语言中网页的大规模数据集（huggingface）
卡罗来纳州-Corpus geral doportuguêsbrasileiroersporâneo（huggingface）。
斗篷 - 英语和葡萄牙语中的论文和论文摘要的平行语料库。
CC100-葡萄牙 - 由Conneau＆Wenzek等人创建。在2020年。此数据集是2018年1月至12月从CC-NET存储库中处理的100个单语数据中的100个单语言数据集之一。
Cetenfolha-来自报纸Folha de S. Paulo的新闻。
Chave-收集信息检索和问答。
Cintil Copus-语言解释的葡萄牙语语料库。
临床者 - 葡萄牙语中的临床命名实体识别。
Complexidade Textual paraestágiosescolares Do Sistema教育Brasileiro。
CORAA-用于自动语音识别的数据集。
Coraa Ser-巴西葡萄牙非正式自发演讲的情感认可。
Crawlpt_dedup-Crawlpt（Dewuplicated）由三个Corpora组成：BRWAC，C100-PT，OSCAR-2301。
CSTNEWS-具有50个新闻文本的语料库，其多文件摘要以及几个话语和语义注释。
C-Oral-Brasil-该项目致力于研究巴西葡萄牙自发的演讲，更广泛地研究了口头语料库的汇编。
DanteStocks-根据后宫分类法，用巴西葡萄牙语编写的股票市场推文并用命名实体注释。
Deepagé-在葡萄牙语中回答有关巴西环境的问题。
DNLT -BP-巴西葡萄牙语中神经心理语言测试的数据集。
Enem挑战 - 由论文的写作和包含180个多项选择问题的客观部分组成。
Enem-2022和Enem-2023-这些项目涵盖了前两个版本的所有多项选择问题，即前两个版本，这是巴西大学通过的主要标准化入学考试。
Essay-Br-散文-BR：巴西葡萄牙语的论文语料库。
Essay-Br语料库的扩展论文 - 扩展版。
FACTCK.BR-一个在葡萄牙研究假新闻的数据集。
FACTNEWS-数据集预测新闻报道的句子级事实。
假的声音 - 由XTTS模型创建的巴西葡萄牙语中的深果。
假br-用巴西葡萄牙语（Hugginface）编写的真实和假新闻。
central_de_fatos-（huggingface）。
fakenewsset-（huggingface）。
Fakepedia -Corpus-假新闻数据集。
Fakerecogna-数据集由真实和虚假新闻（拥抱面）组成。
FakeWhatsApp.br- PT -BR中WhatsApp消息的带注释的语料库，用于自动检测文本错误信息。
FKTC-假新闻文本集。
FlorestaSintá（C）Tica-葡萄牙的树仓。
后宫首先 - 葡萄牙语中指定实体识别者的评估竞赛。
后宫第二 - 葡萄牙语中指定实体识别者的评估竞赛。
Hatebr-巴西Instagram的大规模专家注释语料库评论仇恨言论和网络和社交媒体上的令人反感的语言检测。
历史葡萄牙语料库 - 操纵历史语料库和历史词典管理的工具和资源。
IMDB PT -TraduçãoAtomáticado Imbd。
辛格 - 自然语言推理数据集。
iudicium Textum数据集 - 包含巴西联邦最高法院在其整体组成（论文）中创建的法律文件。
Lener -BR-巴西法律文本中指定实体识别的数据集。
LegalPT_DEDUP-法律PRENT（重复数据删除）汇总了葡萄牙公开可用的法律数据。
Lex2Kids-儿童听到的葡萄牙语中的词典。
MAC-MORPHO-带有言论部分标签注释的巴西葡萄牙文本。
米尔卡 - 一个密集问题的数据集，以解决答案选择的任务。
巴西中央银行的纪要 - 巴西中央银行货币政策委员会的纪要。
在巴西葡萄牙的推文中的NER- PT -BR中的Twitter消息，针对每个实体，LOC和ORG注释。
NERDE-凯德（Cade）法学的文件注释了实体，per，tempo，loc，loc，loc（立法），文档（文件），勇气。
News-Crawl-Pt-用于WMT的单语言新闻爬网。
网站Folha de圣保罗的新闻 - 巴西报纸Folha de圣保罗的新闻。
新闻发布于巴西 - Globo集团的新闻汇编。
OAB考试 - 巴西版的律师考试（美国）（拥抱面）。
Revista Pesquisa fapesp的平行语料库 - 葡萄牙 - 英语和葡萄牙 - 西班牙双语收藏，涉及科学新闻巴西杂志Revista Pesquisa fapesp的在线问题。
NURC-SP
Pirá-双语葡萄牙语 - 英语数据集，用于有关海洋的提问。
PL-Corpus- Ulyssesner-Br的一部分，这是一大批带有优质基线的NER的立法文件。
Plue-胶水基准和Scitail数据集的葡萄牙翻译。
Poetisa-葡萄牙加工 - 进行句法分析和解析。
政治 - 与politiques.pt项目相关的数据集。
重新安装的句子对调查句子可读性评估。
Portile tocixon -ud-根据普遍的依赖性，巴西葡萄牙语的词典。
葡萄牙仇恨 - 斯波奇数据集 - 葡萄牙数据集用于仇恨言语检测，由5,668条带有二进制注释的推文组成（即“仇恨”与“ no hathate”）（huggingface）
葡萄牙法律判决 - 葡萄牙最高法院收集法律判决。
葡萄牙总统选举 - 该数据集包含推文和用户，主要来自葡萄牙Twittersphere。
pracegover-基于Instagram帖子与葡萄牙字幕关联的图像的多模式数据集。
Priberam细颗粒意见语料库 - 一种葡萄牙细粒度的依赖意见矿业语料库。
Propbank - 包含带有语义角色标签（SRL）注释的实例。
Projeto ACDC-互联网访问CORPORA。
Pununuguese-葡萄牙语中的双关语，带有微观版本（拥抱面）
QA-葡萄牙 - 从MQA数据集葡萄牙拆分（质量检查对）改编。
Quati-该数据集旨在支持巴西葡萄牙（PT-BR）信息检索（IR）系统开发，提供最初在PT-BR中创建的文档Passagens，以及由母语人士创建的查询（主题）。
叛军 - 葡萄球菌-DADASET deRelaçõespartir da Wikipedia。
Reli -Resenha de Livros。
Repro：用于巴西葡萄牙语的基准数据集，用于开采意见 - 用于巴西葡萄牙语的基准数据集。（拥抱面）
Rhetalho-与丹尼尔·马库（Daniel Marcu）的rsttool注释的语料库。
Semclinbr-用于葡萄牙临床NLP任务的多机构和多特殊语义注释语料库。
芝麻 - 葡萄牙语中的NER语料库。
Sigarra新闻语料库 - 波尔图大学的Sigarra信息系统。
Simplex -PB-葡萄牙语的词汇简化数据库和基准。
Simple-pb-2.0-改进的单纯版PB版本。
Simple-pb-3.0-简单版本的新版本。
Spotify子集 - 在巴西葡萄牙语中分类语言变化
小队-PT v1.1-小队数据集的葡萄牙翻译。
Squad-pt v1.1-pt-Br-巴西葡萄牙语的葡萄牙数据集翻译，由深度学习巴西翻译。
小队-PT v2.0-小队2.0数据集的葡萄牙翻译。
SST -2 PT-斯坦福情感树库的自动翻译。
Temário-新闻文本和相应的人类摘要，以进行摘要。
文本复杂性语料库 - 巴西教育系统中学校实习的文本复杂性语料库。
在社交媒体中为巴西葡萄牙语（Github）中的有毒语言检测。
TTS-葡萄牙语料库 - 葡萄牙语语音的文字。
Tweetsentbr-巴西葡萄牙语中的推文。
推文进行情感分析。
UD_PORTUGUESE -BOSQUE-通用依赖（UD）葡萄牙树库。
UD_PORTUGUESE -CINTIL-通用依赖（UD）葡萄牙树库。
UD_PORTUGUESE -GSD-通用依赖关系（UD）葡萄牙树库。
UD_PORTUGUESE -PETROGOLD-通用依赖（UD）葡萄牙树库。
UD_PORTUGUESE -PUD-通用依赖项（UD）葡萄牙树库。
Ulyssesner -Br-巴西立法文件的语料库，用于指定实体识别
UTLCORPUS-带有帮助分类的带注释的巴西葡萄牙的在线评论语料库。
Winograd模式挑战 - 总部位于葡萄牙的Winograd模式挑战赛的求解器。
wizardvicuna-ptbr-instruct-clean-Wizard Vicuna PT-BR指示清洁数据集。

多语言数据集

用于调查大语模型中移民群体的刻板印象和负面态度的多语言数据集
AskD -ELI5数据集适用于医疗问题（AskDocs）subreddit。
英语 - 葡萄牙语句子 - Tatoeba项目中的英语 - 葡萄牙语句子。
EUR -LEX-欧盟所有官方语言中的多语言语料库。
EUROPARL-欧洲议会会议卷平行语料库1996-2011。
EUROPARL-ST-多语言语音翻译语料库，其中包含配对的音频文本样本，用于语音翻译，该样本是在2008年至2012年期间使用欧洲议会中在欧洲议会中进行的辩论进行的。
MC4-多语言巨大，清洁的版本的Common Crawl的Web Crawl Copus。基于常见的爬网数据集。
MFAQ-从普通爬网中解析的常见问题的多语言语料库。
MKQA-多语言知识问题和答案（GitHub）。
MQA-从共同爬网中解析的问题和答案的多语种语料库。
MMARCO- MS MARCO通过排名数据集的多语言版本。
Mrobust- TREC 2004强大段落排名数据集的多语言版本
Multiconer-用于命名实体识别的大型多语言数据集。
必须使用 - 多语言语音翻译语料库。
OpenSubtitles-翻译电影字幕的集合。
奥斯卡 - 开放的超大爬行堆积语料库。
tatoeba-句子和翻译的大数据库。
TED2020-从2020年7月开始，包含近4000台TED和TED -X成绩单的爬网。
TSAR-2022共享任务-TSAR2022在词汇简化上共享任务。
Wikiann-多语言命名实体识别数据集，该数据集由以IOB2格式注释的Wikipedia文章（位置），Per（Person）和Org（组织）标签。
Wikilingua-从Wikihow提取的多语言抽象摘要数据集。
Wikimatrix- Wikipedia的1620语言对的并行句子。
Wikiner-从Wikipedia学习多语言命名实体识别。
WIKINEARARARARARARIAN-多语言NER的合并基于神经和知识的银数据创建（EMNLP 2021）。
Wikipedia- Wikipedia数据集，其中包含所有语言的清洁文章。
Xformal-多语性形式样式转移的基准。
XLSUM-来自BBC的135万专业注释的文章 - 萨摩对。

词典

BATS -PT-较大类比测试集（蝙蝠）词典部分的手动翻译到葡萄牙
br.ispell-巴西葡萄牙语（github）的iSpell词典。
概念网 - 开放的多语言知识图。
DICSIN-同义词和反义词词典。
词典-R包装，可为葡萄牙文本分析提供词典。
词典 - 名称，姓氏，缩写词的字典以及它的扩展名，停止词等。
LIWC-语言查询和单词计数（字典）
in.pt--本体词法para oportuguês。
OpenWordnet -PT-葡萄牙语（站点）的开放访问WordNet。
Oplexicon-葡萄牙语的情感词典。
Palavras-巴西葡萄牙语的单词清单。
帕普尔。
pt -br-词列表，动词，结合，术语频率。
PT-LKB-大型葡萄牙词汇语义知识库
Pulo-葡萄牙统一的词汇本体论。
Senilex -pt-葡萄牙语的情感词典。
停止词 - 葡萄牙停止词收集。
tep2。
UNITEX -PB-词汇资源。
Valexpb-巴西葡萄牙动词率的词典。
Verbnet.br 1.0-巴西葡萄牙语的语言词典。
Wikidict-DSL-PT-Wikidata双语DSL词典。
WordNetaffectbr-情感词语词汇。
WordNet.br-葡萄牙文章。

型号

Albertina PT -BR-它是葡萄牙语的Bert家族的编码器 - 来自巴西的美国变体。
Albertina PT -PT-它是Bert家族的葡萄牙语言的编码器 - 来自葡萄牙的欧洲变体。
羊驼毛 - 洛拉-PTBR-低级别的骆驼指令。
BART -BART PRE -TREINADO EMPORTUGUês。
Bertimbau-Bertimbau基础是巴西葡萄牙语的审计BERT模型，在下游NLP的三个任务上实现了最先进的表演：命名实体识别，句子文本相似性和识别文本款项（Github）。
Biobertpt-对葡萄牙语临床领域训练的微调BERT模型（Github）。
Cabrita-葡萄牙的芬特指令Llama（Github）。
DEBERTINHA- DEBERTA V3 XSMALL适用于巴西葡萄牙语（Github）。
Electra-在BRWAC上训练的Electra模型。
Gervasio -pt -br-它是葡萄牙语的GPT家族的解码器 - 来自巴西的美国变体。
Gervasio -pt -pt-它是葡萄牙语的GPT家族的解码器 - 来自葡萄牙的欧洲变体。
Glória1.3b-一种以葡萄牙为注重欧洲的大语言模型（拥抱面）
GPT2 Small-Gportuguese-2（葡萄牙GPT-2小）是基于GPT-2小型型号的葡萄牙语的最先进的语言模型。
gpt-neo Small- Eletheurai的GPT-Neo 1.25m的固定版本到葡萄牙语。
GPT2-BIO-PT- GPORTUGUESE-2（GITHUB）的生物医学鉴定版本。
Nerde -base -Bertimbau对司法文件进行了挑战。
罗伯塔-PT-BR
Robertacrawlpt-bas-bas-Robertacrawlpt-base是一种通用的葡萄牙语蒙面语言模型
Robertalexpt -base-葡萄牙蒙面的语言模型从法律和爬网语料库中概述
Sabiá -Sabiá -7b是Maritaca AI开发的葡萄牙语模型。
Sabiá2-在葡萄牙文本中训练的语言模型，尤其是在巴西领域。
巴西葡萄牙数据的T5 -T5模型。
TGF-XLM-ROBERTA-BASE-PT-BR（GITHUB）
WAV2VEC-使用火车和验证分配的普通语音6.1进行微调/wav2Vec2-large-xlsr-53。

多语言模型

Bloom-大科学大型开放科学开放式多语言模型。
梅伯特（Mbert） - 使用蒙版语言建模（MLM）目标的最大Wikipedia的前104种语言进行了预读的模型。
姆德伯塔省
MGPT-多语言GPT模型。一种自回归的类似GPT的模型。
mminilm-mminilm-l6-v2 reranker在mmarco上进行了固定
MT5-多语言T5。大规模多语言预训练的文本到文本变压器。
XLM-ROBERTA-XLM-ROBERTA模型在包含100种语言的2.5TB的2.5TB上进行了预训练。
LABSE-语言不可思议的bert句子编码器（LABSE）是一种基于BERT的模型，该模型训练了嵌入109种语言的句子。

单词嵌入

FastText-多语言词向量。
激光 - 语言敏锐的句子表示。
NILC-隔离 - 单词嵌入在USP在葡萄牙训练的单词嵌入。
缪斯 - 多语言无监督和有监督的嵌入。
单词向量 - 30多种语言的预训练的单词向量。

指标

COH-Metrix-port- COH-Metrix文本分析工具对巴西葡萄牙语的改编。
NILC -Metrix-它收集了NILC实验室十多年来发展的指标。

排行榜

OPEN PT LLM排行榜 - 开放PT LLM排行榜旨在为葡萄牙语中的大型语言模型（LLMS）评估在各种任务和数据集中评估大型语言模型（LLM）。

框架

nlpnet
NLTK
多面体
Spacy
Stanza NLP
udpipe

机构

Brasileiras Em Pln。
Hailab -Pucpr-一个开创性的研究小组，旨在使用自然语言处理和机器学习开发医疗保健解决方案。
语言。
NILC。
Nlportuguês-致力于在巴西葡萄牙创建NLP课程。
NLX组。
PLN PUCR。

工具

葡萄牙语的Apertium -Por-孔道语言数据。
自动更正 - Python中的拼写校正器。
BRGRAGR- XLE实施的LFG形式主义中巴西葡萄牙语的计算语法片段。
DICIO API-葡萄牙字典API。
dict-pt-br-巴西葡萄牙语的词典。
Languagetool- 25多种语言的样式和语法检查器。
Legalnlp-巴西法律语言的自然语言处理方法。
Lexml解析器 - 法律文件解析器。
LX解析器 - 葡萄牙语的统计选区解析器。
对葡萄牙语的代码 - PTBR-代码算法。
mlConjug3-一个python库，用于葡萄牙语和其他语言中的动词。
Morphobr-葡萄牙形态分析的资源。
opcluster-自动提取和精细颗粒意见的聚类。
PhoneMizer-简单的文本到手机转换器的多种语言。
PORGRAM- HPSG形式主义中葡萄牙语的开源计算语法。
Pymethone -BR-葡萄牙语的代码算法包。
Pysentimiento-多种语言工具包用于情感分析和社交NLP任务。
PyspellChecker-多语言拼写检查。
RBAMR-葡萄牙的基于规则的AMR解析器。
Verbecc-使用法语，西班牙语，葡萄牙语，意大利语和罗马尼亚语的机器学习完全连接任何动词。

其他列表

注释的语义关系数据集
语言数据集 - 葡萄牙语的语言数据集。
NER-DATASET用于葡萄牙
NILC
NILC 2
NILC 3
Opinando-葡萄牙的意见采矿。
葡萄牙数据集列表

其他链接

Opus -Opus是网络上越来越多的翻译文本集合。
统计和神经机器翻译。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-19
大小 11.87KB
来自于 Github

Portuguese NLP

葡萄牙-NLP

数据集

多语言数据集

词典

型号

多语言模型

单词嵌入

指标

排行榜

框架

机构

工具

其他列表

其他链接

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express