泰國NLP資源
泰國自然語言處理(NLP)軟件庫,詞典和語料庫的收集。總是歡迎提取拉的請求。
庫/服務
泰語角色集群
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| JTCC | 泰語角色集群 | 爪哇 | | GPL-3.0 | 維塔瓦特 |
| TCC | 泰語角色集群 | Python | | Apache 2.0 | Wannaphong |
情感分析
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| sentiment_analysis_thai | | | | | Jagerv3 |
Soundex
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| pythainlp | Python 3 | LK82 + UDOR83 | Apache 2.0 | Korakot,Github | |
單詞分割
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| Chamkho | 老撾/泰語單詞細分 | 銹 | LGPL | github | |
| cutkum | 泰語單詞分割,並在張力流中進行深度學習。 RNN。 | Python | 93%的F量。 | 麻省理工學院 | Pucktada,Github |
| cutthai | 泰語單詞細分用咖啡錄編輯編輯 | 咖啡錄 | | 麻省理工學院 | pureexe/cutthai github |
| 深度 | 使用深神經網絡的泰語單詞令牌庫。 CNN。 | Python | 98.8%的F量。 | 麻省理工學院 | rkcosmos,github |
| Lexto:泰式雷克塞姆令牌 | 爪哇 | | LGPL | Nectec | |
| Lexto | Python 2 | | LGPL | github | |
| Lexto | Python 3 | | LGPL | github | |
| 多轉換字節目 | 泰語的多候選單詞細分 | Python,RNN,LSTM | 97.0%f量級(單詞級),98.95%F-量級(邊界級) | 麻省理工學院 | 紙,github |
| pythainlp | Python 3 | 最大匹配和其他各種引擎 | Apache 2.0 | github | |
| 條紋 | Swath(泰語的智能單詞分析)是泰國的單詞分割 | c | 最長的匹配,最大匹配和言論的一部分。 | GPL | Paisarn Charoenpornsawat,CMU |
| Synthai | 泰語單詞細分和言論的一部分標記,並深入學習。 RNN。 LSTM。 | Python | 99.2%的F量 | 麻省理工學院 | Kenjiroai,Github |
| 泰語工具包(TLTK) | 基於Wirote Aroonmanakun於2002年的論文。單詞分割基於最大搭配方法。音節分割基於3Grams統計。 (包括數據集) | Python | 97.86%的F量。 (在不同的測試集上進行了測試;將其與其他模型進行比較是不公平的。) | GPLV3 | PYPI |
| Wordcut | thai word breaker for node.js | JavaScript,node.js | | LGPL-3.0 | Veer66,Github |
| WordCutpy | 用1 python文件寫的一個簡單的泰語單詞令牌 | Python 3 | | LGPL-3.0 | Veer66,Github |
語音標籤的一部分(POS標記)
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| 圖錶盤 | 泰國pos標記 | c | | 版權所有 | Aiat,Kindml,Thanaruk T.([email protected]),Tchayintr,iApp演示 |
| Jitar+Naist | 一個簡單的Trigram hmm詞性標記器 | 爪哇 | | | Ver66,Jitar + Naist,1 + Naist,2 |
| Synthai | 泰語單詞細分和言論的一部分標記,並深入學習。 RNN。 LSTM。 | Python | 0.9163 F量。 RNN。 LSTM | 麻省理工學院 | Kenjiroai,Github |
名稱實體識別
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| 命名實體標記(泰國巢) | 泰語指定的實體標記規範和工具 | | | GPL | Kindml,siit,aiat |
| 塞納爾 | 泰國人稱為pythainlp的實體認可 | Python | | Apache 2.0(代碼)和CC BY 3.0(數據集) | 塞納爾 |
新聞結構標記
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| 新聞結構標記程序 | 泰語新聞結構標籤計劃 | | 元數據標籤,結構標籤,自動新聞標題一代 | GPL | aiat |
句法解析和工具
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| 排行榜 | 從pos標記的句子中提取句法結構。 | c | | 版權所有 | Aiat,Kindml,Thanaruk T.([email protected]),Tchayintr,iApp演示 |
| 語法處理 | 標記的括號 - >上下文免費語法(CFGS) | Python | 轉換和計算概率 | | tchayintr |
單詞嵌入
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| Kobkrit-word-ebedding | 泰語單詞嵌入的張量實現 | Python | 源代碼,示例,單詞距離圖 | LGPL | Kobkrit V. |
問答(機器理解)
| 服務 | 描述 | 執照 | 作者和鏈接 |
|---|
| 泰國機器理解(thaimc) | 雙向注意流 | 版權(作為服務) | iapp-ai |
情緒化
| 服務 | 描述 | 執照 | 作者和鏈接 |
|---|
| 泰國情緒化 | LSTM | GPL | iApp-ai的演示和github的來源 |
語料庫和數據集
字典 /翻譯對
| 圖書館 | 描述 | 尺寸 | 特徵 | 執照 | 關聯 |
|---|
| Lexitron | 泰語<->英語詞典 | | th-> en, - > th | Lexitron許可證 | Nectec |
| 音譯語料庫 | | 31k對 | 泰語翻譯對 | CC BY-NC-SA 3.0 th | Nectec |
| Yaitron | 機器可讀格式(XML)中的Lexitron | | th-> en, - > th | Lexitron許可證 | VEER66模式,數據和轉換代碼 |
可下載的文本語料庫
| 圖書館 | 描述 | 尺寸 | 特徵 | 執照 | 關聯 |
|---|
| 單擊誘餌句子 | 泰語點擊誘餌句子 | 330發送。 (90.7KB) | | 麻省理工學院 | Wannaphongcom |
| Interbest 2009/2010 | | 5M單詞 | 單詞seg。 | CC BY-NC-SA 3.0 th | Nectec |
| 蘭花 | | 發送了30k。 | 單詞seg。 ,pos標記。 | CC BY-NC-SA 3.0 th | Nectec |
| 總理29 | 總理29的講話 | 338kb | 單詞segged,名稱實體標記 | 麻省理工學院 | Wannaphongcom |
| 泰國笑話 | 清潔泰國笑話語料庫 | 457個笑話 | | GPLV3 | IAPP技術 |
| 泰國命名實體語料庫 | Wirote Aroonmanakun的學生指定實體語料庫 | 266KB-1.5MB | 音節seg。 ,單詞seg。 ,命名為標記的實體 | GPLV3(不確定,但是TLTK正在使用此許可證) | นัชชา數據 ศศิวิมล數據 ณัฐดาพร數據 |
| 泰國 | 泰國:泰國命名實體標記規範和工具 | 45K+名稱實體令牌 | 名稱實體標記 | LGPL | Kindml |
| 泰國情感單詞清單 | 泰國情感詞列表 | 52kb | 分開的單詞為adj,v | 麻省理工學院 | Wannaphongcom |
| 泰國維基百科 | 正式文章 | 1.49GB(〜213.1 MB壓縮) | XML | GFDL | 維基百科 |
| 泰國Wordnet | 使用雙向翻譯方法和不同編譯方法的字典(ธนนท์ธนนท์)的泰式實體的泰國wordnet共同基礎概念的構建
使用雙向翻譯方法的第二階實體的泰語WordNet共同基礎概念:研究影響翻譯準確性的含義多樣性(ปริศนาปริศนา) | | WordNet | N/A。 | 2008年 ปริศนา數據2008 |
| TNC前5000個單詞 | 單詞頻率 | 5,000個字 | 泰語在各種流派中的頻率,Excel | 版權所有 | Chula |
| 泰國推文語料庫中的毒性 | 東京都會大學自然語言處理小組 | | 每條推文都標記為有毒或無毒 | CC BY-NC 4.0 | TMU-NLP |
| 明智的情感語料庫 | 帶有情感標籤的社交媒體信息(積極,中性,負面,問題)。 | 〜26,700條消息 | 情感標籤,問題標籤 | 公共領域 | pythainlp |
網絡查詢文本語料庫
| 圖書館 | 描述 | 尺寸 | 特徵 | 執照 | 關聯 |
|---|
| 泰國國家語料庫2 | | 32M單詞 | 查詢文本由類型,域名 | 版權所有 | Chula |
| 泰國醫療文件 | | 3,594個文檔 | 文檔和動態關鍵字圖 | 版權所有 | Kindml,Siit |
| 東南亞語言圖書館 | 泰語新聞,網絡文字,流行音樂,文學,toponyms | 20m炭 | 圍繞搜索文本的階段 | | Sealang |
| HSE泰國語料庫 | 用泰語寫的現代文本(主要是新聞網站) | 50m令牌 | 通過單詞形式,詞彙,翻譯,語法屬性,詞彙屬性查詢 | | HSE語言學學校 |
平行語料庫
| 圖書館 | 描述 | 尺寸 | 特徵 | 執照 | 關聯 |
|---|
| 塔普科 | TUFS亞洲語言平行語料庫 | 1327發送 | 開放的平行語料庫由日本句子及其翻譯成緬甸(緬甸;緬甸共和國共和國的官方語言),馬來語(馬來西亞,新加坡和文萊的民族語言),印尼,泰國,越南和英語 | CC由4.0 | 塔普科 |
預訓練的語言模型
| 預訓練模型 | 描述 | 尺寸 | 方面 | 執照 | 關聯 |
|---|
| fastText | 使用FastText在Wikipedia上訓練的Skip-gram模型 | | 300 | CC BY-SA 3.0 | Facebook + bin&text +僅文字 |
| 泰國2FIT | Wikipedia上的Ulmfit。 46.80959的困惑,嵌入60,002。 | 70MB | 300 | 麻省理工學院 | thai2vec / pythainlp |
| Thbert | 另一個預先訓練的伯特,特別是在泰國 | | | Apache 2.0 | tchayintr |
基準
泰語文本分類基準
- Wongnai-Corpus
- Prachathai-67k
- 明智的選擇
- TrueVoice-Intent:目的地
工具
語料庫提取器
| 圖書館 | 描述 | 程式設計語言 | 特徵 | 執照 | 作者和鏈接 |
|---|
| Best2010 Cooker | 從泰語分割的最佳2010年語料庫中提取分段單詞的工具 | python3 | 提取分段的單詞,功能和數據劃分 | Apache 2.0 | tchayintr |
未找到?嘗試查看另一個泰國NLP很棒的列表/資源(如這個)
https://resources.aiat.or.th/
致謝
- BACT-有關許可詞的建議。
- C4N
- Veer66
- BI89
- tchayintr
- Pureexe
- CSTORM125
- Wannaphongcom
- ekapolc