nlp_thai_resources下载nlp_thai_resources源代码下载

中文(简体)

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

首页>编程相关>其他源码

nlp_thai_resources

其他源码

1.0.0

下载

泰国NLP资源

泰国自然语言处理（NLP）软件库，词典和语料库的收集。总是欢迎提取拉的请求。

库/服务

泰语角色集群

图书馆	描述	编程语言	特征	执照	作者和链接
JTCC	泰语角色集群	爪哇		GPL-3.0	维塔瓦特
TCC	泰语角色集群	Python		Apache 2.0	Wannaphong

情感分析

图书馆	描述	编程语言	特征	执照	作者和链接
sentiment_analysis_thai					Jagerv3

Soundex

图书馆	描述	编程语言	特征	执照	作者和链接
pythainlp	Python 3	LK82 + UDOR83	Apache 2.0	Korakot，Github

单词分割

图书馆	描述	编程语言	特征	执照	作者和链接
Chamkho	老挝/泰语单词细分	锈	LGPL	github
cutkum	泰语单词分割，并在张力流中进行深度学习。 RNN。	Python	93％的F量。	麻省理工学院	Pucktada，Github
cutthai	泰语单词细分用咖啡录编辑编辑	咖啡录		麻省理工学院	pureexe/cutthai github
深度	使用深神经网络的泰语单词令牌库。 CNN。	Python	98.8％的F量。	麻省理工学院	rkcosmos，github
Lexto：泰式雷克塞姆令牌	爪哇		LGPL	Nectec
Lexto	Python 2		LGPL	github
Lexto	Python 3		LGPL	github
多转换字节目	泰语的多候选单词细分	Python，RNN，LSTM	97.0％f量级（单词级），98.95％F-量级（边界级）	麻省理工学院	纸，github
pythainlp	Python 3	最大匹配和其他各种引擎	Apache 2.0	github
条纹	Swath（泰语的智能单词分析）是泰国的单词分割	c	最长的匹配，最大匹配和言论的一部分。	GPL	Paisarn Charoenpornsawat，CMU
Synthai	泰语单词细分和言论的一部分标记，并深入学习。 RNN。 LSTM。	Python	99.2％的F量	麻省理工学院	Kenjiroai，Github
泰语工具包（TLTK）	基于Wirote Aroonmanakun于2002年的论文。单词分割基于最大搭配方法。音节分割基于3Grams统计。（包括数据集）	Python	97.86％的F量。（在不同的测试集上进行了测试；将其与其他模型进行比较是不公平的。）	GPLV3	PYPI
Wordcut	thai word breaker for node.js	JavaScript，node.js		LGPL-3.0	Veer66，Github
WordCutpy	用1 python文件写的一个简单的泰语单词令牌	Python 3		LGPL-3.0	Veer66，Github

语音标签的一部分（POS标记）

图书馆	描述	编程语言	特征	执照	作者和链接
图表盘	泰国pos标记	c		版权所有	Aiat，Kindml，Thanaruk T.（[email protected]），Tchayintr，iApp演示
Jitar+Naist	一个简单的Trigram hmm词性标记器	爪哇			Ver66，Jitar + Naist，1 + Naist，2
Synthai	泰语单词细分和言论的一部分标记，并深入学习。 RNN。 LSTM。	Python	0.9163 F量。 RNN。 LSTM	麻省理工学院	Kenjiroai，Github

名称实体识别

图书馆	描述	编程语言	特征	执照	作者和链接
命名实体标记（泰国巢）	泰语指定的实体标记规范和工具			GPL	Kindml，siit，aiat
塞纳尔	泰国人称为pythainlp的实体认可	Python		Apache 2.0（代码）和CC BY 3.0（数据集）	塞纳尔

新闻结构标记

图书馆	描述	编程语言	特征	执照	作者和链接
新闻结构标记程序	泰语新闻结构标签计划		元数据标签，结构标签，自动新闻标题一代	GPL	aiat

句法解析和工具

图书馆	描述	编程语言	特征	执照	作者和链接
排行榜	从pos标记的句子中提取句法结构。	c		版权所有	Aiat，Kindml，Thanaruk T.（[email protected]），Tchayintr，iApp演示
语法处理	标记的括号 - >上下文免费语法（CFGS）	Python	转换和计算概率		tchayintr

单词嵌入

图书馆	描述	编程语言	特征	执照	作者和链接
Kobkrit-word-ebedding	泰语单词嵌入的张量实现	Python	源代码，示例，单词距离图	LGPL	Kobkrit V.

问答（机器理解）

服务	描述	执照	作者和链接
泰国机器理解（thaimc）	双向注意流	版权（作为服务）	iapp-ai

情绪化

服务	描述	执照	作者和链接
泰国情绪化	LSTM	GPL	iApp-ai的演示和github的来源

语料库和数据集

字典 /翻译对

图书馆	描述	尺寸	特征	执照	关联
Lexitron	泰语<->英语词典		th-> en， - > th	Lexitron许可证	Nectec
音译语料库		31k对	泰语翻译对	CC BY-NC-SA 3.0 th	Nectec
Yaitron	机器可读格式（XML）中的Lexitron		th-> en， - > th	Lexitron许可证	VEER66模式，数据和转换代码

可下载的文本语料库

图书馆	描述	尺寸	特征	执照	关联
单击诱饵句子	泰语点击诱饵句子	330发送。（90.7KB）		麻省理工学院	Wannaphongcom
Interbest 2009/2010		5M单词	单词seg。	CC BY-NC-SA 3.0 th	Nectec
兰花		发送了30k。	单词seg。，pos标记。	CC BY-NC-SA 3.0 th	Nectec
总理29	总理29的讲话	338kb	单词segged，名称实体标记	麻省理工学院	Wannaphongcom
泰国笑话	清洁泰国笑话语料库	457个笑话		GPLV3	IAPP技术
泰国命名实体语料库	Wirote Aroonmanakun的学生指定实体语料库	266KB-1.5MB	音节seg。，单词seg。，命名为标记的实体	GPLV3（不确定，但是TLTK正在使用此许可证）	นัชชา数据 ศศิวิมล数据 ณัฐดาพร数据
泰国	泰国：泰国命名实体标记规范和工具	45K+名称实体令牌	名称实体标记	LGPL	Kindml
泰国情感单词清单	泰国情感词列表	52kb	分开的单词为adj，v	麻省理工学院	Wannaphongcom
泰国维基百科	正式文章	1.49GB（〜213.1 MB压缩）	XML	GFDL	维基百科
泰国Wordnet	使用双向翻译方法和不同编译方法的字典（ธนนท์ธนนท์）的泰式实体的泰国wordnet共同基础概念的构建使用双向翻译方法的第二阶实体的泰语WordNet共同基础概念：研究影响翻译准确性的含义多样性（ปริศนาปริศนา）		WordNet	N/A。	2008年 ปริศนา数据2008
TNC前5000个单词	单词频率	5,000个字	泰语在各种流派中的频率，Excel	版权所有	Chula
泰国推文语料库中的毒性	东京都会大学自然语言处理小组		每条推文都标记为有毒或无毒	CC BY-NC 4.0	TMU-NLP
明智的情感语料库	带有情感标签的社交媒体信息（积极，中性，负面，问题）。	〜26,700条消息	情感标签，问题标签	公共领域	pythainlp

网络查询文本语料库

图书馆	描述	尺寸	特征	执照	关联
泰国国家语料库2		32M单词	查询文本由类型，域名	版权所有	Chula
泰国医疗文件		3,594个文档	文档和动态关键字图	版权所有	Kindml，Siit
东南亚语言图书馆	泰语新闻，网络文字，流行音乐，文学，toponyms	20m炭	围绕搜索文本的阶段		Sealang
HSE泰国语料库	用泰语写的现代文本（主要是新闻网站）	50m令牌	通过单词形式，词汇，翻译，语法属性，词汇属性查询		HSE语言学学校

平行语料库

图书馆	描述	尺寸	特征	执照	关联
塔普科	TUFS亚洲语言平行语料库	1327发送	开放的平行语料库由日本句子及其翻译成缅甸（缅甸；缅甸共和国共和国的官方语言），马来语（马来西亚，新加坡和文莱的民族语言），印尼，泰国，越南和英语	CC由4.0	塔普科

预训练的语言模型

预训练模型	描述	尺寸	方面	执照	关联
fastText	使用FastText在Wikipedia上训练的Skip-gram模型		300	CC BY-SA 3.0	Facebook + bin＆text +仅文字
泰国2FIT	Wikipedia上的Ulmfit。 46.80959的困惑，嵌入60,002。	70MB	300	麻省理工学院	thai2vec / pythainlp
Thbert	另一个预先训练的伯特，特别是在泰国			Apache 2.0	tchayintr

基准

泰语文本分类基准

Wongnai-Corpus
Prachathai-67k
明智的选择
TrueVoice-Intent：目的地

工具

语料库提取器

图书馆	描述	编程语言	特征	执照	作者和链接
Best2010 Cooker	从泰语分割的最佳2010年语料库中提取分段单词的工具	python3	提取分段的单词，功能和数据划分	Apache 2.0	tchayintr

未找到？尝试查看另一个泰国NLP很棒的列表/资源（如这个）

https://resources.aiat.or.th/

致谢

BACT-有关许可词的建议。
C4N
Veer66
BI89
tchayintr
Pureexe
CSTORM125
Wannaphongcom
ekapolc

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-17
大小 5.28KB
来自于 Github

相关应用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
丽华数据分析引擎免费版3.0_搜索_导航_采集_舆情_排行_api

2022-06-28

为您推荐

chat.petals.dev

其他源码

1.0.0
GPT Prompt Templates

其他源码

1.0.0
GPTyped

其他源码

GPTyped 1.0.5
Google Dorks

其他源码

1.0
shepherd

其他源码

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源码

v1.1.0-rc-3
Google Dorks

其他源码

1.0
shepherd

其他源码

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源码

v1.1.0-rc-3

相关资讯全部