nlp_thai_resourcesダウンロードnlp_thai_resourcesソースコードダウンロード

日本語

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

ホーム>プログラミング関連>その他のソースコード

nlp_thai_resources

その他のソースコード

1.0.0

ダウンロード

タイNLPリソース

タイ自然言語処理（NLP）ソフトウェアライブラリ、辞書、およびコーパスのコレクション。プルリクエストを常に歓迎します。

ライブラリ/サービス

タイ文字クラスター

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
JTCC	タイ文字クラスター	Java		GPL-3.0	ウィトワット
TCC	タイ文字クラスター	Python		Apache 2.0	ワナフォン

感情分析

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
Sentiment_analysis_thai					jagerv3

soundex

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
pythainlp	Python 3	LK82 + UDOM83	Apache 2.0	コラコット、github

単語セグメンテーション

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
チャムホー	ラオス/タイ語のセグメンテーション	さび	LGPL	github
cutkum	Tensorflowの深い学習を伴うタイ語のセグメンテーション。 RNN。	Python	93％f-measure。	mit	Pucktada、Github
カットタイ	コーヒースクリプトの編集で書かれたタイ語のセグメンテーション	コーヒースクリプト		mit	Pureexe/Cutthai Github
ディープカット	ディープニューラルネットワークを使用したタイ語のトークン化ライブラリ。 CNN。	Python	98.8％f-measure。	mit	rkcosmos、github
Lexto：タイ語の語彙測定トークネザー	Java		LGPL	ネクタック
lexto	Python 2		LGPL	github
lexto	Python 3		LGPL	github
マルチキャンディデートワードセグメンテーション	タイ語のマルチ候補の単語セグメンテーション	Python、RNN、LSTM	97.0％f-measure（単語レベル）、98.95％f-measure（境界レベル）	mit	紙、github
pythainlp	Python 3	最大マッチングおよび他のさまざまなエンジン	Apache 2.0	github
スワス	swath（タイのスマートワード分析）はタイの単語セグメンテーションです	c	最長のマッチング、最大マッチング、スピーチの一部のBigram。	gpl	Paisarn Charoenpornsawat、CMU
シナイ	タイ語のセグメンテーションと、深い学習を伴うスピーチの一部のタグ付け。 RNN。 LSTM。	Python	99.2％f-measure	mit	ケンジロイ、github
タイ語のツールキット（TLTK）	2002年のWirote Aronmanakunの論文に基づいています。単語セグメンテーションは、最大のコロケーションアプローチに基づいています。音節セグメンテーションは、3グラムの統計に基づいています。（データセットが含まれています）	Python	97.86％f-measure。（別のテストセットでテストされました。他のモデルと比較することは公平ではありません。）	GPLV3	ピピ
ワードカット	node.jsのタイ語ブレーカー	JavaScript、node.js		LGPL-3.0	veer66、github
wordcutpy	1つのPythonファイルに記述されたシンプルなタイ語のトークナー	Python 3		LGPL-3.0	veer66、github

音声タグ付けの一部（POSタグ付け）

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
チャートpos	タイポスタガー	c		無断転載を禁じます	Aiat、Kindml、Thanaruk T.（[email protected]）、tchayintr、iappのデモ
jitar+naist	シンプルなトリグラムHMMの一部のスピーチタガー	Java			Ver66、jitar + naist、1 + naist、2
シナイ	タイ語のセグメンテーションと、深い学習を伴うスピーチの一部のタグ付け。 RNN。 LSTM。	Python	0.9163 F-Measure。 RNN。 LSTM	mit	ケンジロイ、github

名前エンティティ認識

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
名前付きエンティティタグ付け（タイネスト）	Thaiという名前のエンティティタグ付け仕様とツール			gpl	Kindml、siit、aiat
thainer	ThaiはPythainlpのエンティティ認識という名前を付けました	Python		Apache 2.0（code）＆cc by 3.0（dataset）	thainer

ニュース構造のタグ付け

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
ニュース構造タグ付けプログラム	タイニュース構造タグ付けプログラム		メタデータのタグ付け、構造タグ付け、自動ニュースタイトル生成	gpl	aiat

構文解析とツール

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
チャートパーサー	POSタグ付き文から構文構造を抽出します。	c		無断転載を禁じます	Aiat、Kindml、Thanaruk T.（[email protected]）、tchayintr、iappのデモ
文法処理	ラベル付きブラケット - >コンテキストフリーグラマー（CFG）	Python	確率を変換して計算します		Tchayintr

単語埋め込み

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
kobkrit-word-dembeding	タイ語の埋め込みのTensorflow実装	Python	ソースコード、例、単語距離グラフ	LGPL	Kobkrit V.

質問の回答（機械的理解）

サービス	説明	ライセンス	著者とリンク
タイの機械理解（Thaimc）	双方向の注意の流れ	著作権（サービスとして）	iapp-ai

絵文字

サービス	説明	ライセンス	著者とリンク
タイの感情	LSTM	gpl	iapp-aiおよびsourceのデモ、Github

コーパスとデータセット

辞書 /翻訳ペア

図書館	説明	サイズ	特徴	ライセンス	リンク
レキシトロン	タイ<->英語辞書		th-> en、en-> th	レキシトロンライセンス	ネクタック
音訳コーパス		31kペア	タイの翻訳ペア	CC by-nc-sa 3.0 th	ネクタック
ヤイトロン	機械の読み取り可能な形式（XML）のレキシトロン		th-> en、en-> th	レキシトロンライセンス	VEER66スキーマ、データおよび変換コード

ダウンロード可能なテキストコーパス

図書館	説明	サイズ	特徴	ライセンス	リンク
餌の文をクリックします	タイのクリックベイト文	330送信。（90.7kb）		mit	ワナフォンコム
Interbest 2009/2010		5mの言葉	単語セグ。	CC by-nc-sa 3.0 th	ネクタック
蘭		30K送信。	Word Seg。、POSタグ付き。	CC by-nc-sa 3.0 th	ネクタック
首相29	首相29のスピーチ判決	338kb	単語が区切られた、名前のエンティティがタグ付けされています	mit	ワナフォンコム
タイジョークコルパス	タイジョークスコーパスを掃除しました	457ジョーク		GPLV3	IAPPテクノロジー
タイの名前のエンティティコーパス	Wirote Aronmanakunの学生による名前のエンティティコーパス	266KB-1.5MB	音節セグ、ワードセグ、名前付きエンティティタグ付き	GPLV3（確かではありませんが、TLTKはこのライセンスを使用しています）	นัชชาデータ ศศิวิมลデータ ณัฐดาพรデータ
タイネスト	タイネスト：タイの名前付きエンティティタグ付け仕様とツール	45k+名前エンティティトークン	タグ付けされた名前のエンティティ	LGPL	Kindml
タイの感傷的な単語リスト	タイの感傷的な言葉リスト	52kb	adj、vとして分離された単語	mit	ワナフォンコム
タイウィキペディア	正式な記事	1.49GB（〜213.1 MB圧縮）	XML	GFDL	ウィキペディア
タイのワードネット	双方向の翻訳方法を使用した、さまざまな編集アプローチの辞書を使用した1番目のエンティティエンティティ共通のベース概念のタイワードネットの構築（ธนนท์）双方向の翻訳方法を使用した2番目のオーダーエンティティエンティティ共通のベース概念のタイワードネットの構築：翻訳の精度に影響する意味の多様性の研究（ปริศนาอัครพุทธิพร）		wordnet	n/a	ธนนท์2008年 ปริศนาデータ2008
TNCトップ5000ワード	単語頻度	5,000語	さまざまなジャンルのタイ語の頻度、Excel	無断転載を禁じます	chula
タイのツイートコーパスの毒性	東京メトロポリタン大学自然言語加工グループ		各ツイートには、有毒または非毒性としてラベル付けされています	CC BY-NC 4.0	TMU-NLP
Wisesight Sentiment Corpus	センチメントラベルを使用したソーシャルメディアメッセージ（ポジティブ、ニュートラル、ネガティブ、質問）。	〜26,700メッセージ	センチメントラベル、質問ラベル	パブリックドメイン	pythainlp

Webクエリテキストコーパス

図書館	説明	サイズ	特徴	ライセンス	リンク
タイ国立コーパス2		32mの言葉	ジャンル、ドメインによるクエリテキスト	無断転載を禁じます	chula
タイの医療文書		3,594ドキュメント	ドキュメントと動的キーワードマップ	無断転載を禁じます	Kindml、siit
東南アジア言語図書館	タイのニュース、ウェブテキスト、ポップミュージック、文学、トポニム	20Mチャー	検索テキストの周りのフェーズ		シーラン
HSEタイのコーパス	タイ語で書かれた現代のテキスト（主にニュースWebサイト）	50mトークン	単語形式、語彙、翻訳、文法属性、語彙属性ごとのクエリ		HSE School of Linguistics

平行コーパス

図書館	説明	サイズ	特徴	ライセンス	リンク
タルプコ	TUFSアジア語の平行コーパス	1327送信	日本の文章とその翻訳で構成されるオープンパラレルコーパスとビルマ（ミャンマー、ミャンマー連合の公用語）、マレー（マレーシア、シンガポール、ブルネイの国語）、インドネシア、タイ、ベトナム、英語	CC by 4.0	タルプコ

事前に訓練された言語モデル

事前に訓練されたモデル	説明	サイズ	寸法	ライセンス	リンク
fastText	FastTextを使用してWikipediaでトレーニングされたSkip-Gramモデル		300	CC by-sa 3.0	Facebook + Bin＆Text + Textのみ
thai2fit	ウィキペディアのulmfit。 60,002の埋め込みを備えた46.80959の困惑。	70MB	300	mit	thai2vec / pythainlp
thbert	特にタイの別の事前に訓練されたバート			Apache 2.0	Tchayintr

ベンチマーク

タイのテキスト分類ベンチマーク

Wongnai-Corpus
Prachathai-67k
Wisesight-sentiment
TrueVoice-Intent：目的地

ツール

コーパス抽出器

図書館	説明	プログラミング言語	特徴	ライセンス	著者とリンク
Best2010クッカー	タイセグメント化されたBest2010コーパスからセグメント化された単語を抽出するためのツール	Python3	セグメント化された単語、機能、およびデータ部門の抽出	Apache 2.0	Tchayintr

見つかりません？別のタイNLPの素晴らしいリスト/リソース（このようなもの）を見てみてください

https://resources.aiat.or.th/

謝辞

BACT-ライセンスワードに関する提案について。
C4N
veer66
BI89
Tchayintr
Pureexe
CSTORM125
ワナフォンコム
エカポルク

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-17
サイズ 5.28KB
から Github

関連アプリ

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

2022-06-28

おすすめ

chat.petals.dev

その他のソースコード

1.0.0
GPT Prompt Templates

その他のソースコード

1.0.0
GPTyped

その他のソースコード

GPTyped 1.0.5
Google Dorks

その他のソースコード

1.0
shepherd

その他のソースコード

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

その他のソースコード

v1.1.0-rc-3
Google Dorks

その他のソースコード

1.0
shepherd

その他のソースコード

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

その他のソースコード

v1.1.0-rc-3

関連情報すべて