タイNLPリソース
タイ自然言語処理(NLP)ソフトウェアライブラリ、辞書、およびコーパスのコレクション。プルリクエストを常に歓迎します。
ライブラリ/サービス
タイ文字クラスター
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| JTCC | タイ文字クラスター | Java | | GPL-3.0 | ウィトワット |
| TCC | タイ文字クラスター | Python | | Apache 2.0 | ワナフォン |
感情分析
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| Sentiment_analysis_thai | | | | | jagerv3 |
soundex
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| pythainlp | Python 3 | LK82 + UDOM83 | Apache 2.0 | コラコット、github | |
単語セグメンテーション
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| チャムホー | ラオス/タイ語のセグメンテーション | さび | LGPL | github | |
| cutkum | Tensorflowの深い学習を伴うタイ語のセグメンテーション。 RNN。 | Python | 93%f-measure。 | mit | Pucktada、Github |
| カットタイ | コーヒースクリプトの編集で書かれたタイ語のセグメンテーション | コーヒースクリプト | | mit | Pureexe/Cutthai Github |
| ディープカット | ディープニューラルネットワークを使用したタイ語のトークン化ライブラリ。 CNN。 | Python | 98.8%f-measure。 | mit | rkcosmos、github |
| Lexto:タイ語の語彙測定トークネザー | Java | | LGPL | ネクタック | |
| lexto | Python 2 | | LGPL | github | |
| lexto | Python 3 | | LGPL | github | |
| マルチキャンディデートワードセグメンテーション | タイ語のマルチ候補の単語セグメンテーション | Python、RNN、LSTM | 97.0%f-measure(単語レベル)、98.95%f-measure(境界レベル) | mit | 紙、github |
| pythainlp | Python 3 | 最大マッチングおよび他のさまざまなエンジン | Apache 2.0 | github | |
| スワス | swath(タイのスマートワード分析)はタイの単語セグメンテーションです | c | 最長のマッチング、最大マッチング、スピーチの一部のBigram。 | gpl | Paisarn Charoenpornsawat、CMU |
| シナイ | タイ語のセグメンテーションと、深い学習を伴うスピーチの一部のタグ付け。 RNN。 LSTM。 | Python | 99.2%f-measure | mit | ケンジロイ、github |
| タイ語のツールキット(TLTK) | 2002年のWirote Aronmanakunの論文に基づいています。単語セグメンテーションは、最大のコロケーションアプローチに基づいています。音節セグメンテーションは、3グラムの統計に基づいています。 (データセットが含まれています) | Python | 97.86%f-measure。 (別のテストセットでテストされました。他のモデルと比較することは公平ではありません。) | GPLV3 | ピピ |
| ワードカット | node.jsのタイ語ブレーカー | JavaScript、node.js | | LGPL-3.0 | veer66、github |
| wordcutpy | 1つのPythonファイルに記述されたシンプルなタイ語のトークナー | Python 3 | | LGPL-3.0 | veer66、github |
音声タグ付けの一部(POSタグ付け)
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| チャートpos | タイポスタガー | c | | 無断転載を禁じます | Aiat、Kindml、Thanaruk T.([email protected])、tchayintr、iappのデモ |
| jitar+naist | シンプルなトリグラムHMMの一部のスピーチタガー | Java | | | Ver66、jitar + naist、1 + naist、2 |
| シナイ | タイ語のセグメンテーションと、深い学習を伴うスピーチの一部のタグ付け。 RNN。 LSTM。 | Python | 0.9163 F-Measure。 RNN。 LSTM | mit | ケンジロイ、github |
名前エンティティ認識
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| 名前付きエンティティタグ付け(タイネスト) | Thaiという名前のエンティティタグ付け仕様とツール | | | gpl | Kindml、siit、aiat |
| thainer | ThaiはPythainlpのエンティティ認識という名前を付けました | Python | | Apache 2.0(code)&cc by 3.0(dataset) | thainer |
ニュース構造のタグ付け
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| ニュース構造タグ付けプログラム | タイニュース構造タグ付けプログラム | | メタデータのタグ付け、構造タグ付け、自動ニュースタイトル生成 | gpl | aiat |
構文解析とツール
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| チャートパーサー | POSタグ付き文から構文構造を抽出します。 | c | | 無断転載を禁じます | Aiat、Kindml、Thanaruk T.([email protected])、tchayintr、iappのデモ |
| 文法処理 | ラベル付きブラケット - >コンテキストフリーグラマー(CFG) | Python | 確率を変換して計算します | | Tchayintr |
単語埋め込み
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| kobkrit-word-dembeding | タイ語の埋め込みのTensorflow実装 | Python | ソースコード、例、単語距離グラフ | LGPL | Kobkrit V. |
質問の回答(機械的理解)
| サービス | 説明 | ライセンス | 著者とリンク |
|---|
| タイの機械理解(Thaimc) | 双方向の注意の流れ | 著作権(サービスとして) | iapp-ai |
絵文字
| サービス | 説明 | ライセンス | 著者とリンク |
|---|
| タイの感情 | LSTM | gpl | iapp-aiおよびsourceのデモ、Github |
コーパスとデータセット
辞書 /翻訳ペア
| 図書館 | 説明 | サイズ | 特徴 | ライセンス | リンク |
|---|
| レキシトロン | タイ<->英語辞書 | | th-> en、en-> th | レキシトロンライセンス | ネクタック |
| 音訳コーパス | | 31kペア | タイの翻訳ペア | CC by-nc-sa 3.0 th | ネクタック |
| ヤイトロン | 機械の読み取り可能な形式(XML)のレキシトロン | | th-> en、en-> th | レキシトロンライセンス | VEER66スキーマ、データおよび変換コード |
ダウンロード可能なテキストコーパス
| 図書館 | 説明 | サイズ | 特徴 | ライセンス | リンク |
|---|
| 餌の文をクリックします | タイのクリックベイト文 | 330送信。 (90.7kb) | | mit | ワナフォンコム |
| Interbest 2009/2010 | | 5mの言葉 | 単語セグ。 | CC by-nc-sa 3.0 th | ネクタック |
| 蘭 | | 30K送信。 | Word Seg。、POSタグ付き。 | CC by-nc-sa 3.0 th | ネクタック |
| 首相29 | 首相29のスピーチ判決 | 338kb | 単語が区切られた、名前のエンティティがタグ付けされています | mit | ワナフォンコム |
| タイジョークコルパス | タイジョークスコーパスを掃除しました | 457ジョーク | | GPLV3 | IAPPテクノロジー |
| タイの名前のエンティティコーパス | Wirote Aronmanakunの学生による名前のエンティティコーパス | 266KB-1.5MB | 音節セグ、ワードセグ、名前付きエンティティタグ付き | GPLV3(確かではありませんが、TLTKはこのライセンスを使用しています) | นัชชาデータ ศศิวิมลデータ ณัฐดาพรデータ |
| タイネスト | タイネスト:タイの名前付きエンティティタグ付け仕様とツール | 45k+名前エンティティトークン | タグ付けされた名前のエンティティ | LGPL | Kindml |
| タイの感傷的な単語リスト | タイの感傷的な言葉リスト | 52kb | adj、vとして分離された単語 | mit | ワナフォンコム |
| タイウィキペディア | 正式な記事 | 1.49GB(〜213.1 MB圧縮) | XML | GFDL | ウィキペディア |
| タイのワードネット | 双方向の翻訳方法を使用した、さまざまな編集アプローチの辞書を使用した1番目のエンティティエンティティ共通のベース概念のタイワードネットの構築(ธนนท์)
双方向の翻訳方法を使用した2番目のオーダーエンティティエンティティ共通のベース概念のタイワードネットの構築:翻訳の精度に影響する意味の多様性の研究(ปริศนาอัครพุทธิพร) | | wordnet | n/a | ธนนท์2008年 ปริศนาデータ2008 |
| TNCトップ5000ワード | 単語頻度 | 5,000語 | さまざまなジャンルのタイ語の頻度、Excel | 無断転載を禁じます | chula |
| タイのツイートコーパスの毒性 | 東京メトロポリタン大学自然言語加工グループ | | 各ツイートには、有毒または非毒性としてラベル付けされています | CC BY-NC 4.0 | TMU-NLP |
| Wisesight Sentiment Corpus | センチメントラベルを使用したソーシャルメディアメッセージ(ポジティブ、ニュートラル、ネガティブ、質問)。 | 〜26,700メッセージ | センチメントラベル、質問ラベル | パブリックドメイン | pythainlp |
Webクエリテキストコーパス
| 図書館 | 説明 | サイズ | 特徴 | ライセンス | リンク |
|---|
| タイ国立コーパス2 | | 32mの言葉 | ジャンル、ドメインによるクエリテキスト | 無断転載を禁じます | chula |
| タイの医療文書 | | 3,594ドキュメント | ドキュメントと動的キーワードマップ | 無断転載を禁じます | Kindml、siit |
| 東南アジア言語図書館 | タイのニュース、ウェブテキスト、ポップミュージック、文学、トポニム | 20Mチャー | 検索テキストの周りのフェーズ | | シーラン |
| HSEタイのコーパス | タイ語で書かれた現代のテキスト(主にニュースWebサイト) | 50mトークン | 単語形式、語彙、翻訳、文法属性、語彙属性ごとのクエリ | | HSE School of Linguistics |
平行コーパス
| 図書館 | 説明 | サイズ | 特徴 | ライセンス | リンク |
|---|
| タルプコ | TUFSアジア語の平行コーパス | 1327送信 | 日本の文章とその翻訳で構成されるオープンパラレルコーパスとビルマ(ミャンマー、ミャンマー連合の公用語)、マレー(マレーシア、シンガポール、ブルネイの国語)、インドネシア、タイ、ベトナム、英語 | CC by 4.0 | タルプコ |
事前に訓練された言語モデル
| 事前に訓練されたモデル | 説明 | サイズ | 寸法 | ライセンス | リンク |
|---|
| fastText | FastTextを使用してWikipediaでトレーニングされたSkip-Gramモデル | | 300 | CC by-sa 3.0 | Facebook + Bin&Text + Textのみ |
| thai2fit | ウィキペディアのulmfit。 60,002の埋め込みを備えた46.80959の困惑。 | 70MB | 300 | mit | thai2vec / pythainlp |
| thbert | 特にタイの別の事前に訓練されたバート | | | Apache 2.0 | Tchayintr |
ベンチマーク
タイのテキスト分類ベンチマーク
- Wongnai-Corpus
- Prachathai-67k
- Wisesight-sentiment
- TrueVoice-Intent:目的地
ツール
コーパス抽出器
| 図書館 | 説明 | プログラミング言語 | 特徴 | ライセンス | 著者とリンク |
|---|
| Best2010クッカー | タイセグメント化されたBest2010コーパスからセグメント化された単語を抽出するためのツール | Python3 | セグメント化された単語、機能、およびデータ部門の抽出 | Apache 2.0 | Tchayintr |
見つかりません?別のタイNLPの素晴らしいリスト/リソース(このようなもの)を見てみてください
https://resources.aiat.or.th/
謝辞
- BACT-ライセンスワードに関する提案について。
- C4N
- veer66
- BI89
- Tchayintr
- Pureexe
- CSTORM125
- ワナフォンコム
- エカポルク