Awesome-nlp
自然言語処理に特化したリソースのキュレーションリスト

これを英語の伝統的な中国語で読んでください
貢献する前に、貢献ガイドラインをお読みください。プルリクエストを上げてお気に入りのNLPリソースを追加してください
コンテンツ
- 研究の要約と傾向
- 著名なNLPリサーチラボ
- チュートリアル
- ライブラリ
- node.js
- Python
- C ++
- Java
- コトリン
- スカラ
- r
- Clojure
- ルビー
- さび
- NLP ++
- ジュリア
- サービス
- 注釈ツール
- データセット
- 韓国語のNLP
- アラビア語のNLP
- 中国語のNLP
- ドイツ語のNLP
- ポーランド語のNLP
- スペイン語のNLP
- インド言語のNLP
- タイのnlp
- デンマーク語のNLP
- ベトナム語のNLP
- オランダ語のNLP
- インドネシア語のNLP
- ウルドゥー語のNLP
- ペルシャ語のNLP
- ウクライナ語のNLP
- ハンガリー語のNLP
- ポルトガル語のNLP
- 他の言語
- クレジット
研究の要約と傾向
- NLP-overviewは、理論、実装、アプリケーション、最先端の結果を含むNLPに適用される深い学習手法の最新の概要です。これは、研究者にとって素晴らしいNLPの紹介です。
- NLP-Progressは、データセットや最も一般的なNLPタスクの現在の最先端を含む自然言語処理の進捗を追跡します
- NLPのイメージネットの瞬間が到来しました
- ACL 2018ハイライト:より挑戦的な設定での表現と評価の理解
- ACL 2017からの4つの深い学習トレンド。パート1:言語構造と単語埋め込み
- ACL 2017からの4つの深い学習トレンド。パート2:解釈可能性と注意
- EMNLP 2017のハイライト:エキサイティングなデータセット、クラスターの返品など!
- 自然言語加工のための深い学習(NLP):進歩とトレンド
- 自然言語生成における最新技術の調査
著名なNLPリサーチラボ
トップに戻ります
- Berkeley NLP Group-顕著な貢献には、ここで参照されている長い死んだ言語を再構築するツールが含まれ、現在アジアと太平洋で話されている637の言語を採取し、子孫を再現します。
- カーネギー・メロン大学の言語技術研究所 - 注目すべきプロジェクトには、QuechuaやAymaraなどの絶滅危edanceされた言語の構文駆動型機械翻訳システムであるAvenue Project、以前はアラビア語のNLPツールを改善するAQMARを作成したNoah's Arkが含まれます。
- コロンビア大学のNLP Research Group-ボルト(音声翻訳システムのインタラクティブエラー処理)と対話の笑い声を特徴付ける名前のないプロジェクトの作成を担当しています。
- ジョン・ホプキンス大学のセンターまたは言語と音声処理 - 最近、診断テストまたはパーキンソン病を作成するための音声認識ソフトウェアを開発するニュースで、こちら。
- メリーランド大学の計算言語学および情報処理グループ - 注目すべき貢献には、人間コンピューターの協力または音声表現の対処とモデリングの開発とモデリングの単語ごとの質問が含まれます。
- ペンシルベニア大学ペン自然言語加工 - ペンツリーバンクの作成で有名です。
- Stanford Noutral Language Processing Group-世界のトップNLPリサーチラボの1つであり、スタンフォードCorenlpとそのコアファレンス解像度システムを作成するために有名です
チュートリアル
トップに戻ります
コンテンツを読む
一般的な機械学習
- Googleのシニアクリエイティブエンジニアからの機械学習101エンジニアとエグゼクティブのための機械学習について説明します
- AI Playbook -A16Z AI Playbookは、プレゼンテーションのためにマネージャーやコンテンツに転送するための素晴らしいリンクです
- NLPの最高の研究に関する解説については、セバスチャン・ルーダーによるルーダーのブログ
- 大規模な言語アノテーションプロジェクトを管理するためのデータガイドにラベルを付ける方法
- 詳細な実装を備えた幅広いNLPトピックをカバーするブログ投稿の定義コレクションに依存します
NLPへの紹介とガイド
- 自然言語処理を理解して実装します
- PythonのNLP- Githubノートブックのコレクション
- 自然言語処理:はじめに - オックスフォード
- Pytorchを使用したNLPの深い学習
- ハンズオンNLTKチュートリアル-NLTKチュートリアル、Jupyterノートブック
- Pythonを使用した自然言語処理 - Natural Language Toolkitを使用したテキストの分析 - NLTKを使用したNLPの概念を紹介するオンラインおよび印刷本。本の著者は、NLTKライブラリも書いています。
- ゼロから新しい言語モデルを訓練します - 顔を抱き締めますか?
- Super Duper NLP Repo(SDNLPR):幅広いNLPタスクの実装をカバーするコラブノートブックのコレクション。
ブログとニュースレター
- ディープラーニング、NLP、および表現
- イラスト入りのバート、エルモ、co。 (NLPが転写学習を割った方法)とイラスト付きトランス
- HalDauméIIIによる自然言語処理
- arxiv:自然言語処理(ほぼ)ゼロから
- Karpathyは、再発性ニューラルネットワークの不合理な有効性です
- 機械学習の習得:自然言語処理のための深い学習
- ビジュアルNLPペーパーの要約
ビデオとオンラインコース
トップに戻ります
- 高度な自然言語処理-CS 685、UMass Amherst CS
- Deep Natural Language Processing -Oxfordの講義シリーズ
- 自然言語加工のためのディープラーニング(CS224 -N) - リチャードソーチャーとクリストファーマニングのスタンフォードコース
- NLPのニューラルネットワーク-Carnegie Mellon Language Technology Institute
- Yandex Data SchoolによるディープNLPコース。テキストの埋め込みからシーケンスモデリング、言語モデルなどを含む機械翻訳までの重要なアイデアをカバーしています。
- Fast.aiコードファーストイントロの自然言語処理 - これは、従来のNLPトピック(Regex、SVD、Naive Bayes、Tokenizationを含む)および最近のニューラルネットワークアプローチ(RNNS、SEQ2SEQ、GRUS、トランスを含む)のブレンドをカバーし、緊急の倫理的問題などの緊急の倫理的問題に対処します。ここでJupyterノートブックを見つけてください
- Machine Learning University-加速自然言語処理 - 講義は、NLPの紹介からテキスト処理から再発性ニューラルネットワークと変圧器に移行します。素材はここにあります。
- Applied Natural Language Processing- IIT Madrasの講義シリーズは、基本から自動エンコーダーなどに至るまで。このコースのgithubノートブックもこちらでご利用いただけます
本
- 音声と言語の処理 - 無料、ダン・ジュラフィー教授
- 自然言語処理 - ジョージアテックのジェイコブ・アイゼンシュタイン博士によるNLPノート無料
- PytorchとNLP -Brian&Delip Rao
- rのテキストマイニング
- Pythonによる自然言語処理
- 実用的な自然言語処理
- Spark NLPによる自然言語処理
- Stephan Raaijmakersによる自然言語処理のための深い学習
- 現実世界の自然言語処理-Masato Hagiwaraによる
- 自然言語処理中の作用、第2版-Hobson LaneとMaria Dyshel
ライブラリ
トップに戻ります
C ++ -C ++ライブラリ|トップに戻ります
- INSNET-パディングフリーダイナミックバッチを備えたインスタンス依存性NLPモデルを構築するためのニューラルネットワークライブラリ。
- MIT情報抽出ツールキット-C、C ++、および指名されたエンティティ認識と関係抽出用のPythonツール
- CRF ++ - セグメント化/ラベル付けのシーケンシャルデータおよびその他の自然言語処理タスクの条件付きランダムフィールド(CRF)のオープンソース実装。
- CRFSUITE -CRFSUITEは、シーケンシャルデータをラベル付けするための条件付きランダムフィールド(CRF)の実装です。
- Bllip Parser -Bllip Natural Language Parser(Charniak -Johnsonパーサーとも呼ばれます)
- Colibri-Core-C ++ライブラリ、コマンドラインツール、およびPythonバインディングのためのPythonバインディングは、n-GramsやSkipgramsなどの基本的な言語構造を迅速かつメモリ効率の高い方法で使用します。
- UCTO-さまざまな言語用のUnicode-Awareの定期発現ベースのトークネザー。ツールおよびC ++ライブラリ。 Folia形式をサポートします。
- Libfolia -folia形式用のC ++ライブラリ
- カエル - オランダ向けに開発されたメモリベースのNLPスイート:POSタガー、レマティザー、依存関係パーサー、NER、浅いパーサー、形態学的分析装置。
- メタ - メタ:最新のテキスト分析は、マイニングの大きなテキストデータを容易にするC ++データサイエンスツールキットです。
- メカブ(日本語)
- モーセ
- Starspace-単語レベル、段落レベル、ドキュメントレベル、およびテキスト分類の埋め込みを作成するためのFacebookからのライブラリ
Java -Java NLPライブラリ|トップに戻ります
- スタンフォードNLP
- opennlp
- NLP4J
- Javaのword2vec
- リバーブWebスケールのオープン情報抽出
- OpenRegex効率的で柔軟なトークンベースの正規表現言語とエンジン。
- cogcompnlp-イリノイ州の認知計算グループで開発されたコアライブラリ。
- Mallet-言語ツールキットの機械学習 - 統計的自然言語処理、ドキュメント分類、クラスタリング、トピックモデリング、情報抽出、およびテキストへのその他の機械学習アプリケーションのパッケージ。
- rdrpostagger -40以上の言語の事前トレーニングモデルとともに、堅牢なPOSタグ付けツールキット(JavaとPythonの両方)と使用可能です。
Kotlin -Kotlin NLPライブラリ|トップに戻ります
- Lingua KotlinとJavaの言語検出ライブラリ、長いテキストと短いテキストに適しています
- Kotidgy - コトリンで書かれたインデックスベースのテキストデータジェネレーター
SCALA -SCALA NLPライブラリ|トップに戻ります
- Saul- SRL、POSなどの組み込みモジュールを含むNLPシステムを開発するためのライブラリ。
- ATR4S-最先端の自動ターム認識方法を備えたツールキット。
- TM-正規化された多言語PLSAに基づくトピックモデリングの実装。
- word2vec -scala -word2vecモデルへのScalaインターフェイス。単語距離や単語アナロジーなどのベクトルの操作が含まれます。
- EPIC -EPICは、Scalaで書かれた高性能統計パーサーであり、複雑な構造化された予測モデルを構築するためのフレームワークです。
- Spark NLP -Spark NLPは、Apache Spark MLの上に構築された自然言語加工ライブラリで、分散環境で簡単にスケーリングする機械学習パイプラインにシンプルでパフォーマンス&正確なNLPアノテーションを提供します。
R -R NLPライブラリ|トップに戻ります
- text2vec- R.の高速ベクトル化、トピックモデリング、距離、グローブワード埋め込み
- wordvectors -word2vecおよびその他の単語埋め込みモデルを作成および探索するためのRパッケージ
- rmallet -r java機械学習ツールマレットとインターフェイスするパッケージ
- DFR -Browser -Webブラウザーでテキストのトピックモデルを閲覧するためのD3視覚化を作成します。
- DFRTOPICS -Rテキストのトピックモデルを探索するためのRパッケージ。
- sentiment_classifier-ワードセンスの曖昧性とワードネットリーダーを使用したセンチメント分類
- jprocessing-日本のセンチメント分類を備えた日本の自然なランゴージ処理ライブラリ
- CorporaExplorer -Textコレクションの動的探索のためのRパッケージ
- TidyText- Tidyツールを使用したテキストマイニング
- Spacyr -rラッパーからSpacy NLPへ
- CRANタスクビュー:自然言語処理
Clojure |トップに戻ります
- clojure -opennlp- clojureの自然言語処理(opennlp)
- Infections-CLJ-ClojureおよびClojureScriptのためのRails-Clike Fefneftrablic Library
- postagga- clojureとclojurescriptで自然言語を解析するライブラリ
ルビー|トップに戻ります
- Kevin Diasの自然言語処理のコレクション(NLP)Rubyライブラリ、ツール、ソフトウェア
- Rubyで行われる実用的な自然言語処理
さび|トップに戻ります
- Whatlang - トリグラムに基づく自然言語認識ライブラリ
- Snips-NLU-RS-意図的な解析のための制作準備完了ライブラリ
- Rust-Bert-すぐに使用できるNLPパイプラインとトランスベースのモデル
NLP ++ -NLP ++言語|トップに戻ります
- VSCODE言語拡張機能-VSCODE用のNLP ++言語拡張機能
- NLP-エンジン-NLP ++エンジンフル英語パーサーを含むLinuxでNLP ++コードを実行する
- VisualText-NLP ++言語のホームページ
- NLP ++ wiki -NLP ++言語のwikiエントリ
ジュリア|トップに戻ります
- corpusloaders-さまざまなNLPコーパス用のさまざまなローダー
- 言語 - 人間の言語を操作するためのパッケージ
- テキストアナリシス - テキスト分析用のジュリアパッケージ
- TextModels-自然言語処理のためのニューラルネットワークベースのモデル
- WordTokenizers-自然言語処理やその他の関連するタスクのための高性能トークナー
- word2vec -word2vecへのジュリアインターフェイス
サービス
NER、トピックタグなどの高レベル機能を持つAPIとしてのNLP |トップに戻ります
- wit -ai-アプリとデバイスの自然言語インターフェイス
- IBMワトソンの自然言語の理解 - APIとGithubデモ
- Amazon comprehend -NLPおよびMLスイートは、NER、タグ付け、センチメント分析などの最も一般的なタスクをカバーしています
- Google Cloud Natural Language API -Syntax Analysis、NER、Sentiment Analysis、およびContent Taggingが少なくとも9言語で、英語と中国語(簡素化された伝統的)が含まれます。
- ParallelDots-感情分析から意図分析に至るまでの高レベルテキスト分析APIサービス
- マイクロソフト認知サービス
- Textrazor
- ロゼット
- Textalytic-センチメント分析を備えたブラウザの自然言語処理、エンティティ抽出、POSタグ付け、単語頻度、トピックモデリング、ワードクラウドなど
- NLPクラウド-SpacyNLPモデル(カスタムおよび事前訓練されたモデル)は、名前付きエンティティ認識(NER)、POSタグなどのRESTFUL APIを通じて提供されます。
- CloudMersive-音声タグ付け、テキストのrephrasing、言語翻訳/検出、文の解析などのアクションを実行する統一された無料のNLP API
注釈ツール
- ゲート - 一般的なアーキテクチャとテキストエンジニアリングは15歳以上、無料でオープンソースです
- Anaforaは無料でオープンソースのWebベースの生のテキスト注釈ツールです
- BRAT -Brat Rapid Annotation Toolは、共同テキスト注釈のためのオンライン環境です
- Doccano -Doccanoは無料でオープンソースで、テキスト分類、シーケンスラベル付け、シーケンスの注釈機能をシーケンスに提供します
- インセプション - インテリジェントな支援とナレッジマネジメントを提供するセマンティックアノテーションプラットフォーム
- TagTog、チームファーストWebツールを見つけ、作成、保守、共有するためのThe Team -First Webツール - コスト$
- Prodigyは、アクティブな学習を搭載した注釈ツールです、コスト$
- LIGHTTAG-チーム向けのホストおよび管理されたテキスト注釈ツール、コスト$
- rstweb-談話のためのオープンソースローカルまたはオンラインツールツリーアノテーション
- GitDox- XMLデータとコラボレーションスプレッドシートグリッドのGitHubバージョン制御と検証を備えたオープンソースサーバーアノテーションツール
- ラベルスタジオ - フリーミアムベース、コスト$を対象とするテキスト注釈ツールをホストおよび管理しました。
- DataSaurは、個人またはチームのさまざまなNLPタスクをサポートし、フリーミアムベース
- KONFUZIO-アクティブな学習、フリーミアムベース、コスト$を搭載した、チームファーストホストおよびオンプレムテキスト、画像、PDFアノテーションツール
- Ubiai-最も包括的な自動目標機能を備えたチーム向けの使いやすいテキスト注釈ツール。 NER、関係、ドキュメント分類、および請求書ラベルのOCRアノテーションをサポートします。
- SHOONYA -SHOONYAは、幅広い組織とワークスペースレベルの管理システムを備えた無料のオープンソースデータアノテーションプラットフォームです。 Shoonyaはデータ不可欠なデータであり、チームが使用して、さまざまなレベルの検証段階でデータを注釈できます。
- アノテーションラボ - テキスト注釈とDLモデルのトレーニング/チューニングのための無料のエンドツーエンドのノーコードプラットフォーム。名前付きエンティティ認識、分類、関係抽出、アサーションステータススパークNLPモデルのためのすぐに使用できるサポート。ユーザー、チーム、プロジェクト、ドキュメントに対する無制限のサポート。フォスではありません。
- フラット - フラットは、言語注釈のための豊富なXMLベースの形式であるFolia形式に基づいたWebベースの言語注釈環境です。無料でオープンソース。
テクニック
テキスト埋め込み
単語埋め込み
文および言語モデルベースの単語埋め込み
トップに戻ります
- Elmo-深い文脈化された単語表現 - Pytorchの実装-TF実装
- ulmfit-ジェレミー・ハワードとセバスチャン・ルーダーによるテキスト分類のためのユニバーサル言語モデル微調整
- Erersent- Facebookによる自然言語の推論データからの普遍的な文の表現の監督された学習
- コーブ - 翻訳で学んだ:コンテキスト化された単語ベクトル
- パルグラフベクター - 文章と文書の分散表現から。 Gensimのdoc2vecチュートリアルを参照してください
- SENSE2VEC -Word Sense dismbiguation
- 思考ベクトル - 単語表現方法をスキップします
- 適応スキップグラム - 適応特性を備えた同様のアプローチ
- シーケンスのシーケンス学習 - 機械翻訳の単語ベクトル
質問の回答と知識抽出
トップに戻ります
- drqa-ウィキペディアデータに関するFacebookの調査によるオープンドメインの質問回答作業
- Document-QA-アレナイによるシンプルで効果的なマルチパラグラフ読解
- テンプレートなしのテンプレートベースの情報抽出
- Privee:Webプライバシーポリシーを自動的に分析するためのアーキテクチャ
データセット
トップに戻ります
- NLP-Datasets NLPデータセットの素晴らしいコレクション
- Gensim -Data-事前に処理されたNLPモデルおよびNLPコーパスのデータリポジトリ。
多言語NLPフレームワーク
トップに戻ります
- udpipeは、普遍的なツリーバンクやその他のconll-uファイルをトークン化、タグ付け、レンマ化、解析するためのトレーニング可能なパイプラインです。主にC ++で書かれているため、多言語NLP処理のための高速で信頼できるソリューションを提供します。
- NLP-Cube:自然言語処理パイプライン - 文の分割、トークン化、整数化、スピーチの一部のタグ付け、依存関係解析。 PythonでDynet 2.0で書かれた新しいプラットフォーム。スタンドアロン(CLI/Pythonバインディング)とサーバー機能(REST API)を提供します。
- uralicnlpは、主にSami言語、Mordvin Languages、Mari Languages、Komi Languagesなどの多くの絶滅危ed種のウラリック言語向けのNLPライブラリです。また、フィンランド語など、スウェーデン語やアラビア語などの非存在する言語など、一部の非登場言語がサポートされています。 uralicnlpは、形態学的分析、生成、lemmatization、および曖昧性を除去することができます。
韓国語のNLP
トップに戻ります
ライブラリ
- Konlpy-韓国の自然言語処理のためのPythonパッケージ。
- Mecab(韓国)-KoreanNLPのC ++ライブラリ
- Koalanlp-韓国の自然言語処理のためのScala Library。
- KONLP -R韓国の自然言語処理のためのパッケージ
ブログとチュートリアル
- dsindexのブログ
- 韓国語のカンウォン大学のNLPコース
データセット
- Kaist Corpus-韓国の韓国高等科学技術研究所のコーパス。
- 韓国語のNaver Sentiment Movie Corpus
- Chosun Ilbo Archive-韓国のデータセット韓国の主要な新聞の1つであるChosun Ilboから。
- チャットデータ - 韓国語のチャットボットデータ
- 請願 - ブルーハウス国立請願サイトから期限切れの請願データを収集します。
- 韓国の並列コーパス -韓国から英語への韓国からのニューラル機械翻訳(NMT)データセット
- Korquad-Wiki HTMLソースを備えた韓国の分隊データセット。素晴らしいNLPに追加する時点でv1.0とv2.1の両方に言及します
アラビア語のNLP
トップに戻ります
ライブラリ
- Goarabic-アラビア語のテキスト処理のためのGOパッケージ
- JSastem -Arabic StemmingのJavaScript
- Pyarabic-アラビア語のPythonライブラリ
- rftokenizer-アラビア語、ヘブライ語、コプトのためのトレーニング可能なPythonセグメントター
データセット
- マルチドメインデータセット - アラビア語感情分析のための最大の利用可能なマルチドメインリソース
- labr-アラビア語の大規模な本レビューデータセット
- アラビア語のストップワード - さまざまなリソースからのアラビア語のストップワードのリスト
中国語のNLP
トップに戻ります
ライブラリ
- Jieba-中国語の単語セグメンテーションユーティリティ用のPythonパッケージ
- Snownlp-中国のNLP用のPythonパッケージ
- fudannlp-中国のテキスト処理のためのJavaライブラリ
- HANLP-多言語NLPライブラリ
アンソロジー
- funnlp-主に中国語向けのNLPツールとリソースのコレクション
ドイツ語のNLP
- ドイツ-NLP-オープンアクセス/オープンソース/既製のリソースとツールのキュレーションリストは、ドイツ語に特に焦点を当てて開発しました
ポーランド語のNLP
- ポーランド-NLP-ポリッシュの自然言語処理(NLP)に特化したリソースのキュレーションリスト。モデル、ツール、データセット。
スペイン語のNLP
トップに戻ります
ライブラリ
- SPANLP-スペイン語で書かれたテキストで、冒とく、下品な言葉、憎悪な言葉、人種差別、外国人嫌悪、いじめを検出、検閲し、きれいなものにするPythonライブラリ。スペイン語を話す21の国のデータが含まれています。
データ
- コロンビアの政治的スピーチ
- コペンハーゲンツリーバンク
- Word2vec埋め込みを備えたスペインの10億語のコーパス
- 発表されていないcorporaの編集
単語と文の埋め込み
- 異なる方法で、異なるコーパスから計算されたスペイン語の単語埋め込み
- FastTextを使用して、大きなコーパスとさまざまなサイズから計算されたスペイン語の単語埋め込み
- Sent2Vecを使用して大企業から計算されたスペイン文の埋め込み
- beto-スペイン語のバート
インド言語のNLP
トップに戻ります
データ、コーパス、ツリーバンク
- ヒンディー語の依存関係ツリーバンク - ヒンディー語とウルドゥー語のための多代表的な多層ツリーバンク
- ヒンディー語の普遍的な依存関係
- ヒンディー語の平行普遍的な依存関係 - 上記のツリーバンクの小さな部分。
- ISI Fire Stopwordsリスト(ヒンディー語とバングラ)
- ピーター・グラハムのストップワードリスト
- NLTKコーパス60KワードPOSタグ付け、バングラ、ヒンディー語、マラーティー語、テルグ
- ヒンディー語映画レビューデータセット〜1Kサンプル、3つの極性クラス
- BBCニュースヒンディー語データセット4.3kサンプル、14クラス
- IIT PATNA HINDI ABSA DATASET 5.4Kサンプル、12ドメイン、4Kアスペクト用語、アスペクト、文レベルの4つのクラスの極性
- Bangla Absa 5.5Kサンプル、2つのドメイン、10のアスペクト用語
- IIT Patna Movie Review Sentiment Dataset 2Kサンプル、3つの極性ラベル
ログイン/アクセスが必要なコーパス/データセットは、電子メールで得ることができます
- Sail 2015 TwitterとFacebookは、ヒンディー語、ベンガル語、タミル語、テルグ語での感情サンプルとラベル付けされていました。
- IIT Bombay NLP Resources sentiwordnet、映画と観光並列ラベルのcorpora、極性ラベルのある感覚注釈付きコーパス、マラーティー極性ラベルのコーパス。
- TDIL-ICは多くの有用なリソースを集計し、それ以外の場合はゲートデータセットへのアクセスを提供します
言語モデルと単語の埋め込み
- Hindi2VecおよびNLP-For-Hindi Ulmfitスタイルの言語モデル
- IIT PATNA BILINGUAL WORD EMBEDDINGS HI-EN
- 一般的なクロールで訓練された言語全体にfasttext単語の埋め込み
- ヒンディー語とベンガル語word2vec
- ヒンディー語とウルドゥー語のエルモモデル
- サンスクリットアルバートは、サンスクリットのウィキペディアとオスカーコーパスで訓練を受けました
ライブラリとツール
- ヒンディー語とウルドゥー語のためのマルチタスクディープ形態分析装置ディープネットワークベースの形態学的パーサー
- anoop kunchukuttan 18言語、トークン化から翻訳までの機能全体
- カンナダ、ヒンディー語、テルグ語のSivareddyの依存関係パーサー依存関係パーサーとPOSタガー。 Python3ポート
- INLTK- Pytorch/Fastaiの上に構築されたインド言語(インド亜大陸言語)の自然言語ツールキット。これは、一般的なNLPタスクのボックスからサポートを提供することを目的としています。
タイのnlp
トップに戻ります
ライブラリ
- Pythainlp -PythonパッケージのタイNLP
- JTCC -Javaのキャラクタークラスターライブラリ
- Cutkum -Tensorflowの深い学習を伴う単語セグメンテーション
- タイ語のツールキット - 2002年にWirote Aronmanakunによる論文に基づいて、データセットが含まれています
- Synthai -Pythonでディープラーニングを使用した単語セグメンテーションとPOSタグ付け
データ
- インターベスト - 単語セグメンテーションのある500万語のテキストコーパス
- 首相29-タイの現在の首相のスピーチを含むデータセット
デンマーク語のNLP
- デンマーク語のエンティティ認識という名前
- DANLP -NLPリソースのデンマーク語
- 素晴らしいデンマーク語 - デンマーク語技術のための素晴らしいリソースのキュレーションリスト
ベトナム語のNLP
ライブラリ
- underthesea-ベトナムNLPツールキット
- vn.vitk-ベトナムのテキスト処理ツールキット
- vncorenlp-ベトナムの自然言語処理ツールキット
- Phobert-ベトナム語の事前に訓練された言語モデル
- Pyvi -PythonベトナムコアNLPツールキット
データ
- ベトナムのツリーバンク - 選挙区の解析タスクのための10,000文
- Bktreebank-ベトナムの依存性ツリーバンク
- ud_vietnamese-ベトナムの普遍的な依存性ツリーバンク
- vivos-アイラブによる15時間の録音スピーチで構成される無料のベトナムのスピーチコーパス
- vntqcorpus(big).txt -1.75百万のニュース
- Vitext2SQL-Vietnamese Text-to-SQLセマンティック解析のデータセット(EMNLP-2020調査結果)
- EVBコーパス-15個のバイリンガルブックから20,000,000語(2000万語)、100個の並行英国とベトナム - 英語テキスト、250個の並行法と条例テキスト、5,000回のニュース記事、2,000個の映画字幕。
オランダ語のNLP
トップに戻ります
- Python -frog-オランダ語のNLPスイートであるFrogへのPythonバインディング。 (POSタグ付け、lemmatation、依存関係解析、ner)
- Simplenlg_nl-英語とフランス語のSimpleNLGの実装に基づいて、オランダ語での自然言語生成に使用されるオランダの表面リレージャー。
- Alpino-オランダの依存関係パーサー(POSタグ付けとレンマティゼーションもあります)。
- Kaldi NL-カルディに基づくオランダ語の音声認識モデル。
- スペイシー - オランダのモデルが利用可能。 -PythonとCythonを使用した産業強度NLP。
インドネシア語のNLP
データセット
- ILPSのKompasとTempoコレクション
- PANL10N POSタグ付け:39K文と900Kワードトークン
- POSタグ付けのIDN:このコーパスには10k文と250kワードトークンが含まれています
- インドネシアのツリーバンクと普遍的な依存関係 - インドネシア
- テキストの要約と分類の両方のためのインドサム
- WordNet -Bahasa-大、無料、セマンティック辞書
- Indobenckmark Indonluには、事前に訓練された言語モデル(Indobert)、FastText Model、Indo4B Corpus、およびいくつかのNLUベンチマークデータセットが含まれています
ライブラリと埋め込み
- Natural Language Toolkit Bahasa
- インドネシア語の埋め込み
- ウィキペディアで訓練された前提条件のインドネシアの高速テキスト埋め込み
- Indobenckmark Indonluには、前提条件の言語モデル(Indobert)、FastTextモデル、Indo4Bコーパス、およびいくつかのNLUベンチマークデータセットが含まれます
ウルドゥー語のNLP
データセット
- POS、NER、およびNLPタスクのウルドゥー語データセットのコレクション
ライブラリ
ペルシャ語のNLP
トップに戻ります
ライブラリ
- HAZM -PERSIAN NLP Toolkit。
- Parsivar:ペルシャ語の言語処理ツールキット
- Perke:Perkeは、ペルシャ語用のPythonキーフレーズ抽出パッケージです。各コンポーネントを簡単に変更または拡張して新しいモデルを開発できるエンドツーエンドのキーフレーズ抽出パイプラインを提供します。
- PERSTEM:ペルシャ語のステムマー、形態学的分析器、音楽師、および部分的な品物の部分タガー
- Parsianalyzer:Elasticsearchのペルシャアナライザー
- ViraStar:ペルシャ語のテキストの掃除!
データセット
- Bijankhan Corpus:Bijankhan Corpusは、ペルシア語(Farsi)言語の自然言語処理研究に適したタグ付きコーパスです。このコレクションは、毎日のニュースと一般的なテキストの形を集めています。このコレクションでは、すべての文書は、政治的、文化的などのさまざまなテーマに分類されています。完全に、4300の異なる科目があります。 Bijankhanコレクションには、40のペルシャ語のPOSタグを含むタグセットを備えた約260万の手動でタグ付けされた単語が含まれています。
- Uppsala Persian Corpus(UPC):Uppsala Persian Corpus(UPC)は、自由に自由に利用可能なペルシャのコーパスです。コーパスは、追加の文のセグメンテーションと2,704,028トークンを含む一貫したトークン化を備えたBijankhan Corpusの修正バージョンで、31個の部分的なスピーチタグが注釈されています。スピーチの一部のタグは、この表に説明が記載されています。
- 大規模な口語ペルシャ語:大規模な口語ペルシャデータセット(LSCP)は、包括的な問題としてマルチタスクの非公式のペルシャ語の理解に焦点を当てたアセマンな分類法で階層的に編成されています。 LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
トップに戻ります
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
トップに戻ります
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
トップに戻ります
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
他の言語
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
トップに戻ります
Credits for initial curators and sources
ライセンス
License - CC0