中国語のNLP(自然言語処理)のリソースのキュレーションリスト
中国の自然言語処理関連情報
写真は、フーダン大学のQiu Xipeng教授からのものです

Tsinghuaによる中国の語彙分析ツールキット(C ++/Java/Python)
中国科学アカデミーによるNLPIR(Java)
Harbin Institute of Technology(C ++)Pylyp LTP Python EncapsulationによるLTP言語技術プラットフォーム
fudan(java)によるfudannlp
Baidulac by Baiduの中国語のオープンソースの語彙分析ツール、単語のセグメンテーション、スピーチの一部、名前付きエンティティ認識など。
hanlp(java)
FASTNLP(Python)軽量NLP処理スイート。
中国のテキストを処理するためのSnownlp(Python)Pythonライブラリ
Yayanlp(Python)「Yaya Language」という名前の純粋なPythonで書かれた中国の自然言語処理パッケージ
Xiao MingNLP(Python)軽量中国語自然言語処理ツール
Deepnlp(Python)Deep Learning NLP Pipelineは、前処理された中国モデルを使用してTensorflowに実装されています。
中国語_nlp(C ++&Python)中国の自然言語処理ツールと例
lightnlp(python)自然言語処理pytorchとtorchtextに基づく深い学習フレームワーク
中国語アノテーター(Python)中国のテキストコーパスのアノテーター中国語テキストアノテーターツール
Poplar(TypeScript)自然言語処理のためのWebベースの注釈ツール(NLP)
Jiagu(Python)JiaguはBilstmおよびその他のモデルに基づいており、大規模なコーパスで訓練されています。中国語の単語のセグメンテーション、一部のスピーチの解決、命名エンティティの認識、センチメント分析、知識グラフ関係抽出、キーワード抽出、テキストの概要、新しい単語の発見などの一般的な自然言語処理機能を提供します。
SmoothNLP(Python&Java)は、解釈可能なNLPテクノロジーに焦点を当てています
Foolnltk(Python&Java)中国の自然言語ツールキット
Stanford(Java)によるCorenlpコアNLPツールのJavaスイート。
スタンザによるスタンザ(Python)多くの人間のためのPython NLPライブラリ
NLTK(Python)Natural Language Toolkit
スパシー(Python)オンラインコース付きの産業強度自然言語処理
テキスタシー(Python)NLP、スペイシーの前後
OpenNLP(Java)自然言語テキストの処理のための機械学習ベースのツールキット。
Gensim(Python)Gensimは、トピックモデリング、ドキュメントインデックス作成、および大企業との類似性の検索のためのPythonライブラリです。
Kashgari-シンプルで強力なNLPフレームワークは、名前付きエンティティ認識(NER)、一部のスピーチタグ付け(POS)、およびテキスト分類タスクについて5分で最先端のモデルを構築します。 bertおよびword2vecが埋め込まれています。
Jieba Chinese Word分詞(Pythonによって導出され、他の多数のプログラミング言語)が最高のPython中国語分詞コンポーネントです
北京大学中国語の単語セグメンテーションツール(Python)は、非常に正確な中国語の単語セグメンテーションツールで、簡単で使いやすいです。既存のオープンソースツールと比較して、単語セグメンテーションの精度を大幅に改善します。
KCWSディープラーニングチャイニーズワード分詞(Python)bilstm+crfおよびidcnn+crf
ID-CNN-CWS(Python)は、中国語の単語セグメンテーションのために拡張畳み込みを繰り返しました
天才中国語ワード分詞(Python)の天才は、CRF(条件付きランダムフィールド)条件付きランダムフィールドアルゴリズムを使用するオープンソースPython中国語分詞コンポーネントです。
中国語分詞(Python)
yaha "口"中国分詞(python)
中国語のセグメンテーション(Python)コーパスなしの中国語単語セグメンテーションアルゴリズム
効率的なテキストセグメンテーションに進みます。英語、中国語、日本語、その他をサポートします。
ANSJ中国語ワード分詞(Java)n-gram+crf+hmmに基づく中国語の分詞のJavaの実装
MITIE(C ++)ライブラリと情報抽出のためのツール
入力文字列の構成可能な言語ルールを表現、テスト、評価するためのアヒル(Haskell)言語、エンジン、およびツール。
IEPY(Python)Iepyは、関係抽出に焦点を当てた情報抽出のためのオープンソースツールです。
シュノーケル情報抽出に焦点を当てたトレーニングデータ作成と管理システム
TensorflowでLSTMを使用して実装された神経関係抽出
中国の名前付きエンティティ認識のニューラルネットワークモデル
bert-chinese-nerは、訓練を受けた事前に訓練された言語モデルを使用して中国のnerを行う
IDCNN/BILSTM+CRFを使用した情報抽出 - 中国語の名前付きエンティティ認識、およびBigru+2attの中国語エンティティ認識と関係抽出による関係抽出
ファミリアbaiduが制作した産業トピックモデリングのためのツールキット
テキスト分類、あらゆる種類のテキスト分類モデルなど、深い学習を伴うもの。 Zhihu Q&Aをテストデータとして使用します。
ComplexEventExtraction条件付きイベント、因果イベント、フォローアップイベント、反転イベント、その他のイベント抽出など、中国の複合イベントの概念と明示的なパターン、および合理的なマップを形成します。
textrank4zhは、中国のテキストからキーワードと要約を自動的に抽出します
Rasa NLU(Python)自然言語を構造化されたデータに変え、Rasa NLU Chiの中国のフォーク
Rasa Core(Python)会話ソフトウェア用の機械学習ベースのダイアログエンジン
チャットスタック中国のNLUシステムを構築するためのフルパイプラインUI
Snips NLU(Python)Snips NLUは、自然言語で書かれた文を解析し、構造化された情報を抽出できるPythonライブラリです。
Deeppavlov(Python)エンドツーエンドのダイアログシステムとトレーニングチャットボットを構築するためのオープンソースライブラリ。
チャットスクリプト自然言語ツール/ダイアログマネージャー、ルールベースのチャットボットエンジン。
Chatterbot(Python)Chatterbotは、チャットボットを作成するための機械学習、会話のダイアログエンジンです。
チャットボット(Python)ベクトルマッチングに基づく状況チャットボット
Tipask(PHP)は、Laravelフレームワークに基づいて開発されたオープンソースのPHP質問および回答システムであり、強力な負荷容量と安定性を備えた拡張が簡単です。
QuestionAnsweringsystem(Java)質問を自動的に分析して候補者の回答を与えることができるJavaが実装した人間コンピューターの質問と回答システム。
QA-SNAKE(Python)マルチ検索エンジンとディープラーニングテクノロジーに基づく自動Q&A
Tensorflow(Python)を使用して実装されたシーケンスへのシーケンスのチャットボットモデル
ディープラーニングアルゴリズムによって実装された中国の読解質問と回答システム(Python)
BaiduによるAnyqには、主にFAQコレクションの質疑応答システムフレームワークとテキストセマンティックマッチングツールSimnetが含まれています。
Dureader ChineseReadhelling Baseline Code(Python)
SmartQQ(Python)に基づく自動ロボットフレームワーク
QASYSTEMONMEDICALKG(Python)医療分野の疾患中心の知識グラフであり、この知識グラフを使用して自動Q&Aおよび分析サービスを完了します。
GPT2-Chitchat(Python)中国のチャット用GPT2モデル
CDIAL-GPT(Python)は、大規模な中国のダイアログデータセットを提供し、このデータセットで中国の対話事前訓練モデル(中国のGPTモデル)を提供します
openkg.cn
中国の知識マップスキーマを開きます
大規模な中国の概念マップCN-Probase公式アカウントの紹介
1億4000万の中国語知識グラフの大規模なオープンソースダウンロード
農業知識グラフ情報検索、名前付きエンティティ認識、関係抽出、分類ツリーの構築、農業分野でのデータマイニング
CLDC中国語リソースアライアンス
中国のウィキペディアダンプ
さまざまなコーパスとさまざまなモデル(BERTやGPTなど)に基づいた中国の事前訓練のモデルフレームワークは、異なるコーパス、エンコーダー、ターゲットタスクの事前訓練モデル(RUCおよびTencentから)をサポートしています。
openclapマルチドメインオープンソース中国の事前訓練を受けた言語モデルリポジトリ(Tsinghuaから)
1998年の毎日の部分注釈図書館@baidupan
Sogou 20061127 News Corpus(カテゴリを含む) @ Baidu Pan
udchinese(スパシーPOSのトレーニング用)
中国語Word2Vecモデル
何百もの事前に訓練された中国語の単語ベクトル
中国語の単語やフレーズのためにコーパスを埋め込むTencentAIラボ埋め込み
単語のマスキング全体を備えた中国の事前トレーニングバート
中国のGPT2トレーニングコードは、詩、ニュース、小説、または一般的な言語モデルを訓練することができます。
中国語理解評価ベンチマーク中国の接着剤には、代表的なデータセット、ベンチマーク(前)モデル、コーパス、ランキングが含まれます。
中国の新華辞典データベースには、イディオム、イディオム、単語、漢字が含まれています。
同義語:中国の同義語ツールキットは、ウィキペディアの中国語とWord2VECトレーニングの同義語に基づいており、Pythonパッケージファイルとしてカプセル化されています。
中国語conversation_sentiment中国の感情データセットは、感情分析に役立つ場合があります。
中国の緊急コーパス
DGK_LOST_CONV中国語の対話コーパス
チャットボットシステムをトレーニングするためのデータセット
中国の答えのバグア版
中国のパブリックチャットコーパス
中国の株式市場の発表情報は、Pythonスクリプト(上場企業および規制機関)を介して、Juchaoネットワークのサーバーから中国株式市場(SZ、SH)の発表を取得するためにクローリングしています
Tushare Financial Data Interface Tushareは、無料でオープンソースのPython Financial Data Interfaceパッケージです。
金融テキストデータセットSmoothNLP金融テキストデータセット(公開)NLP研究の公的金融データセット
保険業界のコーパス[52NLPブログの紹介]機械学習タスクの保険エリアのOpendata
古代の中国の詩と歌詞の最も完全なデータベース。 Tang and Song Dynastiesのほぼ14,000人の詩人、55,000人近くのTang詩と260,000人の歌の詩。歌王朝には1,564人の詩人と21,050の詩がありました。
デュリーダー中国の読解データ
中国のコーパスの小さなデータには、中国の名前付きエンティティ認識、中国の関係認識、中国の読解などの小さなデータが含まれています。
中国のリテラチュア - le-dataset中国文献のテキストのための談話レベルのエンティティ認識と関係抽出データセット
ChineseTextualinference中国のテキスト推論プロジェクト。880,000個のテキストを含む中国のテキスト含有データセットの翻訳と構築、および深い学習に基づくテキスト含有判断モデルを含む。
大規模な中国の自然言語処理コーパスウィキペディア(WIKI2019ZH)、News Corpus(News2016ZH)、Encyclopedia Q&A(baike2018qa)
中国語のコーパス中国語名、姓、名前、名前、名前、日本語名、翻訳名、英語名。
会社名、組織名Corpus Companyの略語、略語、ブランドワード、エンタープライズ名。
中国の敏感な単語データベース +特定の1W単語敏感な単語データベースにおける敏感な単語フィルタリングのいくつかの実装
中国の略語ネガティブフルフォームを含む中国の略語のコーパス。
中国のデータ前処理材料中国語分詞辞書と中国語の停止語
Han Chinese Dictionary
Sentibridge:中国の団体感情知識ベースは、人々がニュース、観光、ケータリングなど、合計300,000ペアを含むエンティティをどのように説明するかを説明しています。
OpenCorpus自由に利用可能な(中国語)企業のコレクション。
Chinesenlpcorpus感情/視点/コメント前解析、中国の命名エンティティ認識、推奨システム
FinancialDatasets SmoothNLP Financial Text Datasets(Public)NLP研究のための公的金融データセットのみ
People's Daily&Children's Fairy Tale PD&CFT:中国の読解データセット
中国のwiki 230,000高品質のエントリ - 7月23日に更新 - フィルタリングされた敏感または物議を醸す情報
Tsinghua Universityの自然言語加工と人文科学コンピューティング研究所
教育省の主要な研究所、計算言語学、北京大学
自然言語加工研究グループ、コンピューティング研究所、中国科学アカデミー
Harbin Institute of Technology Intelligent Technology and Natural Language Processing Laboratory
Harbin Institute of Technology Social Computing and Information Retrieval Research Center
Fudan University Natural Language Processing Group
Soochow Universityの自然言語加工グループ
南京大学の自然言語加工研究グループ
北東大学の自然言語加工研究所
自然言語加工研究所、Xiamen大学のインテリジェント科学技術学科
Zhengzhou Universityの自然言語加工研究所
アジアのマイクロソフト研究所自然言語加工
Huawei Noah's Ark Laboratory
CUHKテキストマイニンググループ
PolyUソーシャルメディアマイニンググループ
Hkust Human Language Technology Center
国立台湾大学NLPラボ
中国情報協会
NLP Calenderのメイン会議、ジャーナル、ワークショップ、NLPコミュニティでの共有タスク。
2017年最初の「イファリンカップ」中国の機械の読解評価評価
2017 AI-Challenger画像中国語の説明は、特定の画像の主な情報を1つの文で説明し、中国の文脈での画像理解の問題に挑戦しています。
2017 AI-Challenger English-Cinese Machine Text Translationは、大規模なデータを使用して、英語と中国のテキスト機械翻訳モデルの機能を改善します。
2017年のZhihu Kanshan Cup Machine Learning Challengeは、Zhihuによって与えられた問題の拘束力のある関係のトレーニングデータとトピックタグのトレーニングデータに基づいて自動的にラベル付けされるモデルをトレーニングしています。
2018年の中国のQ&Aタスク特定の中国の質問について、Q&Aシステムは、質問に対する答えとして、特定の知識ベースからいくつかのエンティティまたは属性値を選択します。
2018 Webank Intelligent Customer Serviceの質問マッチング競争は、中国語のReal Customer Service Corpusでの質問と一致します。 2つの文を考えると、2つの意図が類似しているかどうかを判断します。
Huawei Cloud NLPは、さまざまな企業や開発者が提供するテキスト分析とマイニングのためのクラウドサービスであり、ユーザーがテキストを効率的に処理できるようにすることを目指しています。
Baidu Cloud NLPは、業界をリードする自然言語処理テクノロジーを提供し、高品質のテキスト処理と理解を提供します
Alibaba Cloud NLPは、あらゆる種類の企業や開発者向けにテキスト分析とマイニングのためのコアツールを提供します
Tencent Cloud NLPは、並行コンピューティングと分散クロールシステムに基づいており、独自のセマンティック分析テクノロジーと組み合わせて、NLP、トランスコーディング、抽出、データクローリング、その他のニーズを1回も満たしています。
コア人工知能のオープンプラットフォームとして音声相互作用を備えたiflytekオープンプラットフォーム
Sogou Laboratory Word分詞と一部の語り方
ボセンデータShanghai Bosen Data Technology Co.、Ltd。
Yunfu Technology NLP Toolkit、知識グラフ、テキストマイニング、対話システム、世論分析など。
Zhiyanテクノロジーは、深い学習と知識グラフテクノロジーのブレークスルーに焦点を当てています
Zhuiyiテクノロジーは、深い学習と自然言語処理に焦点を当てています
中国の深い学習本
Stanford CS224N Deep Learning 2017を使用した自然言語処理
Oxford CS Deepnlp 2017
[ジョージア工科大学CS 4650および7650のコース資料、「自然言語」](https://github.com/jacobeisenstein/gt-nlp-class)
ダンジュラフスキーとジェームズH.マーティンによる音声と言語の処理
52NLP私は自然言語加工が大好きです
HANKCSコードファーム
テキスト処理の実用的なコース教材テキスト処理実践的なコースの資料には、テキスト機能抽出(TF-IDF)、テキスト分類、テキストクラスタリング、Word2VECトレーニングワードベクトル、単語森林中国語の類似性計算、自動ドキュメントの要約、情報抽出、感情分析、意見マイニングおよびその他の実験が含まれます。
NLP_TASKS自然言語処理タスクと選択された参照
Tsinghua Universityの教師Liu ZhiyuanからのNLP研究の紹介
中国のNLP共有タスク、データセット、および中国の自然言語処理の最先端の結果