泰国NLP资源
泰国自然语言处理(NLP)软件库,词典和语料库的收集。总是欢迎提取拉的请求。
库/服务
泰语角色集群
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| JTCC | 泰语角色集群 | 爪哇 | | GPL-3.0 | 维塔瓦特 |
| TCC | 泰语角色集群 | Python | | Apache 2.0 | Wannaphong |
情感分析
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| sentiment_analysis_thai | | | | | Jagerv3 |
Soundex
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| pythainlp | Python 3 | LK82 + UDOR83 | Apache 2.0 | Korakot,Github | |
单词分割
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| Chamkho | 老挝/泰语单词细分 | 锈 | LGPL | github | |
| cutkum | 泰语单词分割,并在张力流中进行深度学习。 RNN。 | Python | 93%的F量。 | 麻省理工学院 | Pucktada,Github |
| cutthai | 泰语单词细分用咖啡录编辑编辑 | 咖啡录 | | 麻省理工学院 | pureexe/cutthai github |
| 深度 | 使用深神经网络的泰语单词令牌库。 CNN。 | Python | 98.8%的F量。 | 麻省理工学院 | rkcosmos,github |
| Lexto:泰式雷克塞姆令牌 | 爪哇 | | LGPL | Nectec | |
| Lexto | Python 2 | | LGPL | github | |
| Lexto | Python 3 | | LGPL | github | |
| 多转换字节目 | 泰语的多候选单词细分 | Python,RNN,LSTM | 97.0%f量级(单词级),98.95%F-量级(边界级) | 麻省理工学院 | 纸,github |
| pythainlp | Python 3 | 最大匹配和其他各种引擎 | Apache 2.0 | github | |
| 条纹 | Swath(泰语的智能单词分析)是泰国的单词分割 | c | 最长的匹配,最大匹配和言论的一部分。 | GPL | Paisarn Charoenpornsawat,CMU |
| Synthai | 泰语单词细分和言论的一部分标记,并深入学习。 RNN。 LSTM。 | Python | 99.2%的F量 | 麻省理工学院 | Kenjiroai,Github |
| 泰语工具包(TLTK) | 基于Wirote Aroonmanakun于2002年的论文。单词分割基于最大搭配方法。音节分割基于3Grams统计。 (包括数据集) | Python | 97.86%的F量。 (在不同的测试集上进行了测试;将其与其他模型进行比较是不公平的。) | GPLV3 | PYPI |
| Wordcut | thai word breaker for node.js | JavaScript,node.js | | LGPL-3.0 | Veer66,Github |
| WordCutpy | 用1 python文件写的一个简单的泰语单词令牌 | Python 3 | | LGPL-3.0 | Veer66,Github |
语音标签的一部分(POS标记)
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| 图表盘 | 泰国pos标记 | c | | 版权所有 | Aiat,Kindml,Thanaruk T.([email protected]),Tchayintr,iApp演示 |
| Jitar+Naist | 一个简单的Trigram hmm词性标记器 | 爪哇 | | | Ver66,Jitar + Naist,1 + Naist,2 |
| Synthai | 泰语单词细分和言论的一部分标记,并深入学习。 RNN。 LSTM。 | Python | 0.9163 F量。 RNN。 LSTM | 麻省理工学院 | Kenjiroai,Github |
名称实体识别
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| 命名实体标记(泰国巢) | 泰语指定的实体标记规范和工具 | | | GPL | Kindml,siit,aiat |
| 塞纳尔 | 泰国人称为pythainlp的实体认可 | Python | | Apache 2.0(代码)和CC BY 3.0(数据集) | 塞纳尔 |
新闻结构标记
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| 新闻结构标记程序 | 泰语新闻结构标签计划 | | 元数据标签,结构标签,自动新闻标题一代 | GPL | aiat |
句法解析和工具
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| 排行榜 | 从pos标记的句子中提取句法结构。 | c | | 版权所有 | Aiat,Kindml,Thanaruk T.([email protected]),Tchayintr,iApp演示 |
| 语法处理 | 标记的括号 - >上下文免费语法(CFGS) | Python | 转换和计算概率 | | tchayintr |
单词嵌入
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| Kobkrit-word-ebedding | 泰语单词嵌入的张量实现 | Python | 源代码,示例,单词距离图 | LGPL | Kobkrit V. |
问答(机器理解)
| 服务 | 描述 | 执照 | 作者和链接 |
|---|
| 泰国机器理解(thaimc) | 双向注意流 | 版权(作为服务) | iapp-ai |
情绪化
| 服务 | 描述 | 执照 | 作者和链接 |
|---|
| 泰国情绪化 | LSTM | GPL | iApp-ai的演示和github的来源 |
语料库和数据集
字典 /翻译对
| 图书馆 | 描述 | 尺寸 | 特征 | 执照 | 关联 |
|---|
| Lexitron | 泰语<->英语词典 | | th-> en, - > th | Lexitron许可证 | Nectec |
| 音译语料库 | | 31k对 | 泰语翻译对 | CC BY-NC-SA 3.0 th | Nectec |
| Yaitron | 机器可读格式(XML)中的Lexitron | | th-> en, - > th | Lexitron许可证 | VEER66模式,数据和转换代码 |
可下载的文本语料库
| 图书馆 | 描述 | 尺寸 | 特征 | 执照 | 关联 |
|---|
| 单击诱饵句子 | 泰语点击诱饵句子 | 330发送。 (90.7KB) | | 麻省理工学院 | Wannaphongcom |
| Interbest 2009/2010 | | 5M单词 | 单词seg。 | CC BY-NC-SA 3.0 th | Nectec |
| 兰花 | | 发送了30k。 | 单词seg。,pos标记。 | CC BY-NC-SA 3.0 th | Nectec |
| 总理29 | 总理29的讲话 | 338kb | 单词segged,名称实体标记 | 麻省理工学院 | Wannaphongcom |
| 泰国笑话 | 清洁泰国笑话语料库 | 457个笑话 | | GPLV3 | IAPP技术 |
| 泰国命名实体语料库 | Wirote Aroonmanakun的学生指定实体语料库 | 266KB-1.5MB | 音节seg。,单词seg。,命名为标记的实体 | GPLV3(不确定,但是TLTK正在使用此许可证) | นัชชา数据 ศศิวิมล数据 ณัฐดาพร数据 |
| 泰国 | 泰国:泰国命名实体标记规范和工具 | 45K+名称实体令牌 | 名称实体标记 | LGPL | Kindml |
| 泰国情感单词清单 | 泰国情感词列表 | 52kb | 分开的单词为adj,v | 麻省理工学院 | Wannaphongcom |
| 泰国维基百科 | 正式文章 | 1.49GB(〜213.1 MB压缩) | XML | GFDL | 维基百科 |
| 泰国Wordnet | 使用双向翻译方法和不同编译方法的字典(ธนนท์ธนนท์)的泰式实体的泰国wordnet共同基础概念的构建
使用双向翻译方法的第二阶实体的泰语WordNet共同基础概念:研究影响翻译准确性的含义多样性(ปริศนาปริศนา) | | WordNet | N/A。 | 2008年 ปริศนา数据2008 |
| TNC前5000个单词 | 单词频率 | 5,000个字 | 泰语在各种流派中的频率,Excel | 版权所有 | Chula |
| 泰国推文语料库中的毒性 | 东京都会大学自然语言处理小组 | | 每条推文都标记为有毒或无毒 | CC BY-NC 4.0 | TMU-NLP |
| 明智的情感语料库 | 带有情感标签的社交媒体信息(积极,中性,负面,问题)。 | 〜26,700条消息 | 情感标签,问题标签 | 公共领域 | pythainlp |
网络查询文本语料库
| 图书馆 | 描述 | 尺寸 | 特征 | 执照 | 关联 |
|---|
| 泰国国家语料库2 | | 32M单词 | 查询文本由类型,域名 | 版权所有 | Chula |
| 泰国医疗文件 | | 3,594个文档 | 文档和动态关键字图 | 版权所有 | Kindml,Siit |
| 东南亚语言图书馆 | 泰语新闻,网络文字,流行音乐,文学,toponyms | 20m炭 | 围绕搜索文本的阶段 | | Sealang |
| HSE泰国语料库 | 用泰语写的现代文本(主要是新闻网站) | 50m令牌 | 通过单词形式,词汇,翻译,语法属性,词汇属性查询 | | HSE语言学学校 |
平行语料库
| 图书馆 | 描述 | 尺寸 | 特征 | 执照 | 关联 |
|---|
| 塔普科 | TUFS亚洲语言平行语料库 | 1327发送 | 开放的平行语料库由日本句子及其翻译成缅甸(缅甸;缅甸共和国共和国的官方语言),马来语(马来西亚,新加坡和文莱的民族语言),印尼,泰国,越南和英语 | CC由4.0 | 塔普科 |
预训练的语言模型
| 预训练模型 | 描述 | 尺寸 | 方面 | 执照 | 关联 |
|---|
| fastText | 使用FastText在Wikipedia上训练的Skip-gram模型 | | 300 | CC BY-SA 3.0 | Facebook + bin&text +仅文字 |
| 泰国2FIT | Wikipedia上的Ulmfit。 46.80959的困惑,嵌入60,002。 | 70MB | 300 | 麻省理工学院 | thai2vec / pythainlp |
| Thbert | 另一个预先训练的伯特,特别是在泰国 | | | Apache 2.0 | tchayintr |
基准
泰语文本分类基准
- Wongnai-Corpus
- Prachathai-67k
- 明智的选择
- TrueVoice-Intent:目的地
工具
语料库提取器
| 图书馆 | 描述 | 编程语言 | 特征 | 执照 | 作者和链接 |
|---|
| Best2010 Cooker | 从泰语分割的最佳2010年语料库中提取分段单词的工具 | python3 | 提取分段的单词,功能和数据划分 | Apache 2.0 | tchayintr |
未找到?尝试查看另一个泰国NLP很棒的列表/资源(如这个)
https://resources.aiat.or.th/
致谢
- BACT-有关许可词的建议。
- C4N
- Veer66
- BI89
- tchayintr
- Pureexe
- CSTORM125
- Wannaphongcom
- ekapolc