
このパンダクト(πανδέκτηςは百科事典の古代ギリシャ語です)は、オンラインで入手可能な自然言語処理に関連するほとんどすべてのものを見つけるのに役立つために作成されました。
使用可能なリソースタイプに関するクイックレジェンドに注意してください:
- オープンソースプロジェクト、通常は星の数のGitHubリポジトリ
? - 読むことができるリソース、通常はブログ投稿または論文
- 追加のリソースのコレクション
? - オープンしていないソースツール、フレームワーク、または有料サービス
?§-あなたが見ることができるリソース
?§-聞くことができるリソース
| ?メインセクション | ?ショ和サブセクションサンプル |
|---|
| NLPリソース | 論文の概要、会議の要約、NLPデータセット |
| NLPポッドキャスト | NLPのみのポッドキャスト、多くのNLPエピソードを備えたポッドキャスト |
| NLPニュースレター | - |
| NLPミートアップ | - |
| NLP YouTubeチャンネル | - |
| NLPベンチマーク | NLU将軍、質問の回答、多言語 |
| 研究リソース | トランスモデル、蒸留と剪定、自動化された要約に関するリソース |
| 業界リソース | NLPシステムのベストプラクティス、NLPのMLOPS |
| 音声認識 | 一般的なリソース、テキストからスピーチ、テキストへのスピーチ、データセット |
| トピックモデリング | ブログ、フレームワーク、リポジトリ、プロジェクト |
| キーワード抽出 | テキストランク、レーキ、その他のアプローチ |
| 責任あるNLP | NLPの解釈可能性、倫理、バイアス、およびNLPの平等、NLPの敵対的攻撃 |
| NLPフレームワーク | 汎用、データ増強、機械翻訳、敵対的攻撃、対話システムと音声、エンティティとストリングマッチング、非英語フレームワーク、テキストアノテーション |
| 学習NLP | コース、書籍、チュートリアル |
| NLPコミュニティ | - |
| 他のNLPトピック | トークン化、データ増強、名前付きエンティティ認識、エラー修正、automl/autonlp、テキスト生成 |
注意セクションキーワード:紙の概要、大要、素晴らしいリスト
NLPのトピックに関する大要と素晴らしいリスト:
- NLPインデックス - 量子STAT / NLP CYPHERによるNLPペーパーの検索可能なインデックス
- Keonによる素晴らしいNLP [Github、16528 Stars]
- Elaboshira [Github、2189 Stars]による音声および自然言語処理素晴らしいリスト
- 自然言語加工のための素晴らしい深い学習(NLP)[Github、1274 Stars]
- 継子によるテキストマイニングと自然言語処理リソース[Github、557 Stars]
- Philip Volletによる#NLP愛好家向けのBrainsources
- 素晴らしいAI/ML/DL -NLPセクション[Github、1473 Stars]
- DevopediaによるNLP記事
NLP会議、紙の要約、紙の大要:
論文と紙の要約
- 100個の必見のNLPペーパー100必見のNLPペーパー[Github、3732 Stars]
- Dair-Ai [Github、1475 Stars]によるNLPペーパーの要約
- NLP開業医向けの論文のキュレーションコレクション[Github、1075 Stars]
- テキストの敵対的攻撃と防御に関する論文[Github、1501 Stars]
- Valentin MalykhによるNLUおよびRLの最近の深い学習論文[Github、296 Stars]
- 調査の調査(NLP&ML):NLP調査論文のコレクション[Github、1997 Stars]
- テキストでのスタイル転送のためのペーパーリスト[Github、1609 Stars]
- ?論文のビデオ録画インデックス
会議の概要
- NLPトップ10会議概要Soulbliss [Github、459 Stars]
- ? ICLR 2020トレンド
- ? Spacyirl 2019会議の概要
- ?ペーパーダイジェスト - 概要の会議と論文
NLPの進捗状況とNLPタスク:
- SebastianruderによるNLP進捗[Github、22568 Stars]
- KyubyongによるNLPタスク[Github、3017 Stars]
NLPデータセット:
- NiderhoffによるNLPデータセット[Github、5741 Stars]
- Huggingface [Github、19096 Stars]によるデータセット
- 大きな悪いNLPデータベース
- UWA明確な単語アノテーション - 単語センスの曖昧性除去データセット
- MLDOC -8言語での多言語文書分類のためのコーパス[Github、152 Stars]
単語と文の埋め込み:
- Hironsanによる素晴らしい埋め込みモデル[Github、1752 Stars]
- Separiusによる文の埋め込みの素晴らしいリスト[Github、2219 Stars]
- Jiakuiの素晴らしいBert [Github、1846 Stars]
ノート、スクリプト、リポジトリ
- スーパーデュパーNLPリポジトリ[Webサイト、2020]
英語以外のリソースと大要
- Bahasa IndonesianのNLPリソース[Github、480 Stars]
- インドNLPカタログ[Github、552 Stars]
- ベトナムの事前に訓練された言語モデル[Github、653 Stars]
- インド言語用の自然言語ツールキット(inltk)[github、814星]
- Indic NLPライブラリ[Github、550 Stars]
- ai4bharat-indicnlpポータル
- ARBML-多くのアラビア語NLPおよびMLプロジェクトの実装[Github、387 Stars]
- Zemberek -NLP -Turkish用のNLPツール[Github、1146 Stars]
- TDD AI-すべてのトルコのデータセット、言語モデル、およびNLPツールのオープンソースプラットフォーム。
- Klue-韓国語理解評価[Github、560 Stars]
- ペルシャ語NLPベンチマーク - ペルシャ語でのさまざまなNLPタスクの評価と比較のためのベンチマーク[Github、73 Stars]
- NLP -GREEK-ギリシャ語ソース[Github、5つ星]
- ハンガリーのための素晴らしいNLPリソース[Github、221 Stars]
事前に訓練されたNLPモデル
- 事前に訓練されたNLPモデルのリスト[Github、170 Stars]
- Huawei Noah's Ark Lab [Github、3019 Stars]によって開発された事前に保護された言語モデル
- スペイン語モデルとリソース[Github、251 Stars]
NLPの歴史
一般的な
- 自然言語処理に適用される最新の深い学習技術[Github、1328 Stars]
- ?自然言語処理の神経史のレビュー[ブログ、2018年10月]
2020年のレビュー
- ? 2020年の自然言語処理:レビューの年[ブログ、2020年12月]
- ? 2020年のMLおよびNLPの研究ハイライト[ブログ、2021年1月]
?目次に戻ります
NLPのみのポッドキャスト
- ?️NLPハイライト[年:2017-今、ステータス:アクティブ]
- ?️NLPゾーンエピソード[年:2021-今、ステータス:アクティブ]
多くのNLPエピソード
- ?€twiml ai [years:2016-今、ステータス:アクティブ]
- ?€実用的なai [年:2018-今、ステータス:アクティブ]
- ?♥データ交換[年:2019-今、ステータス:アクティブ]
- ?§グラデーション異議[年:2020年 - 今、ステータス:アクティブ]
- ?️マシンラーニングストリートトーク[年:2020-今、ステータス:アクティブ]
- ?€データフレーム - 組織におけるデータサイエンスの影響を拡大する方法に関する最新のトレンドと洞察[年:2019-今、ステータス:アクティブ]
いくつかのNLPエピソード
- ?️スーパーデータサイエンスポッドキャスト[年:2016-今、ステータス:アクティブ]
- ?️データハックラジオ[年:2018-今、ステータス:アクティブ]
- ?️AIゲームチェンジャー[年:2020年、ステータス:アクティブ]
- ?️分析が示す[年:2019-今、ステータス:アクティブ]
- ? Sebastian RuderによるNLPニュース
- ?今週はロバート・デールによるNLPで
- ?コード付きの論文
- ? deeplearning.aiによるバッチ
- ? PaperDigestによる紙ダイジェスト
- ? QuantumStatによるNLP Cypher
- ? NLPチューリッヒ[YouTube録音]
- ?ハッキングマシンラーニング[YouTube録音]
- ? NY-NLP(ニューヨーク)
- ?ヤニック・キルチャー
- ?ハギングフェイス
- ? Kaggle Reading Group
- ? Rasa Paper Reading
- ?スタンフォードCS224N:深い学習を備えたNLP
- ? nlpxing
- ? ML説明-AIソクラテスサークル-AISC
- ? deeplearning.ai
- ?機械学習ストリートトーク
?目次に戻ります
NLU将軍
- 接着剤 - 一般的な言語理解評価(接着剤)ベンチマーク
- スーパーグルー - より困難な言語理解タスクの新しいセットを備えた接着剤の後にスタイルを整えるベンチマーク
- decanlp-一般的なNLPモデルを研究するための自然言語デカスロン(decanlp)
- 対話 - 対話:タスク指向の対話のための自然言語理解ベンチマーク[Github、280 Stars]
- Dynabench -Dynabenchは、動的なデータ収集とベンチマークのための研究プラットフォームです
- Big -Bench -言語モデルの機能を測定および外挿するための共同ベンチマーク[Github、2835 Stars]
要約
- wikiasp-wikiasp:マルチドキュメントアスペクトベースの要約データセット
- Wikilingua-多言語の抽象的要約データセット
質問に答える
- 分隊 - スタンフォード質問データセットの回答(分隊)
- XQUAD-XQUAD(横断的質問データセットの回答)と言語間質問応答のための
- Grailqa-強く一般化可能な質問応答(Grailqa)
- CSQA-複雑な連続した質問応答
多言語と非英語のベンチマーク
- ? Xtreme-大規模な多言語マルチタスクベンチマーク
- Gluecos -Code -Switched NLPのベンチマーク
- インディアン - インド言語の自然言語理解ベンチマーク
- Lince-言語コードスイッチング評価ベンチマーク
- ロシアのスーパーグルー - ロシアのスーパーグルーベンチマーク
バイオ、法律、およびその他の科学的領域
- 宣伝文句 - 生物医学的言語の理解と推論ベンチマーク
- 青 - 生物医学言語理解評価ベンチマーク
- lexglue-英語での法的言語理解のためのベンチマークデータセット
トランス効率
- 長距離アリーナ - ベンチマーク効率の高い変圧器のための長距離アリーナ(プリプリント)[Github、716 Stars]
音声処理
- SUPERB-音声処理ユニバーサルパフォーマンスベンチマーク
他の
- Codexglue-コードインテリジェンス用のベンチマークデータセット
- クロスナー - クロスナー:エンティティ認識という名前のクロスドメインの評価
- Multinli-マルチジャンル自然言語推論コーパス
- isarcasm:意図された皮肉のデータセット - 等耳はツイートのデータセットであり、それぞれが皮肉または非皮膚のいずれかとしてラベル付けされています
?目次に戻ります
一般的な
- ? Andrej Karpathyによるニューラルネットワークのトレーニングのレシピ[キーワード:研究、トレーニング、2019]
- ?大規模な訓練を受けた言語モデルを介したNLPの最近の進歩:調査[紙、2021年11月]
埋め込み
リポジトリ
- 多くの言語の事前に訓練されたELMO表現[Github、1458 Stars]
- SENSE2VEC-文脈的にキーのある単語ベクトル[Github、1617 Stars]
- wikipedia2vec [github、935星]
- Starspace [Github、3938 Stars]
- fastText [github、25871星]
ブログ
- ? David S. Batistaによる言語モデルと文脈化された単語埋め込み[ブログ、2018]
- ? AnalyticsVidhya [ブログ、2020]によるNLP実践者向けの事前処理された単語埋め込みの本質的なガイド
- ?ポリグロットワード埋め込み言語クラスターを発見[ブログ、2020]
- ? Jay Alammarによる図解Word2vec [ブログ、2019]
横断的な言葉と文の埋め込み
- vecmap -vecmap(横断的単語埋め込みマッピング)[Github、644 Stars]
- 文と変換者 - 多言語の文と画像埋め込みbert [github、14981 Stars]
バイトペアエンコーディング
- BPEMB-バイトペアエンコーディング(BPE)に基づく275言語の事前訓練を受けたサブワード埋め込み[Github、1179 Stars]
- Subword -NMT-神経機械の翻訳とテキスト生成のための監視なしの単語セグメンテーション[Github、2185 Stars]
- python -bpe -pythonのバイトペアエンコード[Github、223 Stars]
トランスベースのアーキテクチャ
一般的な
- ? Lilian Wengによるトランスファミリー[ブログ、2020]
- ?報酬と複数の言語で宝くじを再生する - ランダム初期化の効果について[ICLR 2020 Paper]
- ?注意?注意!リリアン・ウェン著[ブログ、2018]
- ?トランス…「説明」? [ブログ、2019]
- ?§注意が必要です。 ukasz kaiserによる注意ニューラルネットワークモデル[Talk、2017]
- ?注意は1つではありません[2023年7月]
- ?§NLPの自己告発の理解と適用[Talk、2018]
- ? NLPクックブック:トランスベースのディープラーニングアーキテクチャのためのモダンなレシピ[Paper、2021年4月]
- ?事前訓練を受けたモデル:過去、現在、未来[紙、2021年6月]
- ?トランスフォーマーの調査[紙、2021年6月]
トランス
- ?ハーバードNLPによる注釈付き変圧器[ブログ、2018]
- ? Jay Alammarによるイラスト付きトランス[ブログ、2018]
- ? Hong Jingによるトランスフォーマーのイラストガイド[ブログ、2020]
- ? Facebookによる適応的な注意スパンを備えたシーケンシャルトランス。ブログ[ブログ、2019]
- ? Lena Voitaによるトランスの表現の進化[ブログ、2019]
- ?改革者:効率的なトランス[ブログ、2020]
- ? Longformer - Viktor Karlssonによる長い文書トランス
- ?ゼロからの変圧器[ブログ、2019]
- ?自然言語処理の変圧器 - ジョージ・ホーによる簡単な調査[ブログ、2020年5月]
- Lite Transformer-長い範囲の注意を払うライトトランス[Github、596 Stars]
- ?ゼロからの変圧器[ブログ、2021年10月]
バート
- ? Jay Alammarが初めてBertを使用するための視覚ガイド[ブログ、2019]
- ?アンナ・ロジャースによるバートの暗い秘密[ブログ、2020]
- ?これまで以上に検索をよく理解する[ブログ、2019]
- ? Demystifing Bert:画期的なNLPフレームワークの包括的なガイド[Blog、2019]
- SEMBERT-言語理解のためのセマンティクス認識バート[Github、286 Stars]
- bertweet -bertweet:英語のツイートの事前に訓練された言語モデル[Github、574 Stars]
- Bertの最適なサブアーキテクチャ抽出[Github、470 Stars]
- キャラクターバート:エルモとバートの和解[Github、195 Stars]
- ?バートが宝くじを演奏すると、すべてのチケットが勝っています[ブログ、2020年12月]
- Bert関連の論文Bert関連の紙のリスト[Github、2032 Stars]
その他の変圧器バリアント
T5
- ? T5トランスベースの自己監視アーキテクチャの理解[ブログ、2020年8月]
- ? T5:テキストからテキストへの転送トランス[ブログ、2020]
- 多言語T5-多言語T5(MT5)は、大規模な多言語のテキストからテキストのトランスモデルです[Github、1245 Stars]
ビッグバード
- ? Big Bird:長いシーケンスのための変圧器Google Researchによるオリジナルペーパー[Paper、2020年7月]
Reformer / Linformer / Longformer / Performers
- ?§改革者:効率的な変圧器 - [紙、2020年2月] [ビデオ、2020年10月]
- ?§長いフォーカー:ロングドキュメントトランス - [紙、2020年4月] [ビデオ、2020年4月]
- ?ショ和:線形の複雑さによる自己attention- [紙、2020年6月] [ビデオ、2020年6月]
- ?§パフォーマーとの注意の再考 - [紙、2020年9月] [ビデオ、2020年9月]
- パフォーマー-Pytorch- Pytorch [Github、1084 Stars]のパフォーマー、線形注意ベースの変圧器の実装
スイッチトランス
- ?スイッチトランス:Google Researchによるオリジナルペーパーへのスケーリング[Paper、2021年]
gpt-family
一般的な
- ? Jay Alammarによる図解GPT-2 [ブログ、2019]
- ?アマン・アロラによる注釈付きGPT-2
- ? OpenaiのGPT-2:モデル、誇大広告、およびライアンロウによる論争[ブログ、2019]
- ? Patrick Von Platenによるテキストの生成方法[ブログ、2020]
GPT-3
学習リソース
- ? Amit Chaudharyによるテキスト分類のためのゼロショット学習[ブログ、2020]
- ? GPT-3レオガオによる簡単な要約[ブログ、2020]
- ? GPT-3、深い学習のための巨大なステップとYoel ZeldesによるNLP [ブログ、2020年6月]
- ? GPT-3言語モデル:Chuan Li [ブログ、2020年6月]による技術的な概要
- ?言語モデルが言語理解を達成することは可能ですか?クリストファー・ポッツによる
アプリケーション
- Awesome GPT-3-GPT-3に関連するすべてのリソースのリスト[Github、4589 Stars]
- GPT-3プロジェクト - すべてのGPT-3スタートアップと商業プロジェクトのマップ
- GPT-3デモショーケース-GPT-3デモショーケース、180+アプリ、例、およびリソース
- ? Openai API -APIデモ商用アプリケーションにOpenai GPTを使用する
オープンソースの取り組み
- ? GPT-Neo-進行中のGPT-3オープンソースレプリケーションハグFaceハブ
- GPT -J-パイルで訓練された60億パラメーター、オートレーフレフなテキスト生成モデル
- ?いくつかのショット学習でGPT-Jを効果的に使用する[ブログ、2021年7月]
他の
- ? Xu LiangによるXLNETでの2ストリームの自己attentionとは何ですか[ブログ、2019]
- ?ビジュアルペーパーの概要:Amit Chaudhary [ブログ、2020]によるアルバート(ライトバート)
- ? MicrosoftによるチューリングNLG
- ? Josh Xin Jie LeeによるXLNETによるマルチラベルテキスト分類[ブログ、2019]
- Electra [Github、2326 Stars]
- Pytorch [Github、1084 Stars]での線形注意ベースのトランスのパフォーマーのパフォーマー実装
蒸留、剪定、量子化
読み物
- ? Neural Networksからの知識を蒸留して、Floydhubによる小さくて高速なモデルを構築する[ブログ、2019]
- ?テキストの深い学習モデルの圧縮:調査[紙、2021年4月]
ツール
- Bert-Squeeze-変圧器ベースのモデルのサイズを縮小するか、推論時間でレイテンシを減らすコード[Github、79 Stars]
- Xtremedistil-巨大な多言語ニューラルネットワークを蒸留するためのXtremedistilTransformers [Github、153 Stars]
自動要約
- ? Pegasus:Google AIによる抽象的なテキスト要約のための最先端のモデル[ブログ、2020年6月]
- Ctrlsum -Ctrlsum:一般的な制御可能なテキスト要約に向け[Github、146 Stars]
- XL-Sum-XL-Sum:44言語の大規模な多言語抽象的な要約[Github、252 Stars]
- サマータイム - 非専門家向けのオープンソーステキスト要約ツールキット[Github、265 Stars]
- プライマー - プライマー:マルチドキュメント要約のためのピラミッドベースのマスクされた文章事前トレーニング[Github、151 Stars]
- summarus-自動抽象的要約のモデル[Github、170 Stars]
知識グラフとNLP
- ?知識を言語モデルに融合する[プレゼンテーション、2021年10月]
注意セクションキーワード:ベストプラクティス、mlops
?目次に戻ります
NLPプロジェクトを構築するためのベストプラクティス
- ? NLPプロジェクトのベストプラクティスを探して[2020年12月、スライド]
- ? EMNLP 2020:Google Research、録音、2020年11月の高性能自然言語処理]
- ?実用的な自然言語処理 - 実世界のNLPシステムを構築するための包括的なガイド[Book、2020年6月]
- ? NLPプロジェクトの構造と管理方法[ブログ、2021年5月]
- ?応用NLP思考 - 応用NLP思考:問題をソリューションに変換する方法[ブログ、2021年6月]
- ?産業用のNLPの紹介-DataTalksClub業界使用のためのNLPの紹介に関するDataTalksClubプレゼンテーション[記録、2021年12月]
- ?埋め込みドリフトの測定-NLPモデルのドリフトを監視するためのベストプラクティス[ブログ、2022年12月]
NLPのMLOPS
MLOPSは、特にNLPに適用される場合、NLPパイプラインを構築および展開する際に、ワークフローのさまざまな部分を自動化することに関する一連のベストプラクティスです。
一般に、NLPのMLOPSには、次のプロセスを導入することが含まれます。
- データバージョン化- トレーニング、注釈、その他の種類のデータがバージョンおよび追跡されていることを確認してください
- 実験追跡- すべての実験が自動的に追跡され、簡単に複製またはリトレースされる可能性があることを確認してください
- モデルレジストリ- トレーニングするニューラルモデルがバージョンと追跡されていることを確認してください。
- 自動テストと行動テスト- 通常のユニットおよび統合テストに加えて、バイアスまたは潜在的な敵対的攻撃をチェックする行動テストが必要です
- モデルの展開とサービング- モデルの展開を自動化します。理想的には、ブルー/グリーン、カナリアの展開などのゼロダウンタイムデプロイを備えています。
- データとモデルの観測可能性- データドリフト、モデルの精度ドリフトなどを追跡します。
さらに、NLPにはそれほど一般的ではなく、ほとんどがコンピュータービジョンやAIの他のサブフィールドに使用される2つのコンポーネントがあります。
- 機能ストア- 他のMLプロジェクトで簡単に再利用できるよりも、MLモデル用に開発されたすべての機能の集中ストレージ
- メタデータ管理- 主に展開されたMLモデル、アーティファクトトラッキングなどの動作を再現するためのMLモデルの使用に関連するすべての情報のストレージ。
mlopsコンピレーションと素晴らしいリスト
- Awesome-Mlops [Github、12526 Stars]
- Best-of-ml-python [github、16309 Stars]
- mlops.toys- MLOPSプロジェクトのキュレーションリスト
読み物
- ?機械学習操作(MLOPS):概要、定義、アーキテクチャ[Paper、5月2022年]
- ? MLOPSの要件と参照アーキテクチャ:業界からの洞察[紙、2022年10月]
- ? MLOPS:それが何なのか、なぜそれが重要なのか、そしてNeptune AIによるそれを実装する方法[ブログ、2021年7月]
- ? Neptune AIによるデータサイエンティストとして知っておくべき最高のMLOPSツール[ブログ、2021年7月]
- ?ヴァロハイによるMLOPS 2021の状態[ブログ、2021年8月]
- ?ヴァロハイによるMLOPSスタック[ブログ、2020年10月]
- ? Megagon AIによる機械学習アプリケーションのデータバージョン制御[ブログ、2021年7月]
- ?機械学習のための標準的なスタックの急速な進化[ブログ、2021年7月]
- ? MLOPS:包括的な初心者ガイド[ブログ、2021年3月]
- ? MLOPについて100人以上のMLプラクティショナーと話すことから学んだこと[ブログ、2021年5月]
- ? Datarobot Challengerモデル-MLOPSチャンピオン/チャレンジャーモデル
- ? Ori Cohen博士によるMLOPSブログの状態
- ? MLOPSエコシステムの概要[ブログ、2021]
学習資料
- ? mlで作られたmlopsコース
- ? github mlops- githubで機械学習opsを促進する方法に関するリソースのコレクション
- ? ML観測可能性の基礎コース生産NLPモデルで問題を監視およびルート原因の問題を学ぶ
MLOPSコミュニティ
- MLOPSコミュニティ - ブログ、Slackグループ、ニュースレターなど、MLOPSのすべて
データバージョン化
- DVC-データバージョンコントロール(DVC)MLモデルとデータセットを追跡します[フリーおよびオープンソース] GitHubへのリンク
- ?ウェイトとバイアス - 実験追跡とデータセットバージョンのツール[有料サービス]
- ? pachyderm-スケーラブルなエンドツーエンドML/AIパイプラインを構築するためのツールを使用したデータのバージョンコントロール[無料層で有料サービス]
実験追跡
- MLFLOW-機械学習ライフサイクルのオープンソースプラットフォーム[無料およびオープンソース] Githubへのリンク
- ?ウェイトとバイアス - 実験追跡とデータセットバージョンのツール[有料サービス]
- ? Neptune AI-研究および生産チーム向けに構築された実験追跡とモデルレジストリ[有料サービス]
- ? Comet ML-データサイエンティストとチームが実験とモデルを追跡、比較、説明、最適化できるようにします[有料サービス]
- ? SIGOPT-トレーニングとチューニングを自動化し、視覚化と比較実行[有料サービス]
- Optuna -HyperParameter Optimization Framework [Github、10650 Stars]
- Clear ML-すべての場所[フリーおよびオープンソース] Githubへのリンクをすべて1か所で実験、編成、展開、および構築
- Metaflow-科学者とエンジニアが実際のデータサイエンスプロジェクトを構築および管理するのに役立つ人間に優しいPython/Rライブラリ[Github、8093 Stars]
モデルレジストリ
- DVC-データバージョンコントロール(DVC)MLモデルとデータセットを追跡します[フリーおよびオープンソース] GitHubへのリンク
- MLFLOW-機械学習ライフサイクルのオープンソースプラットフォーム[無料およびオープンソース] Githubへのリンク
- ModelDB-機械学習モデルバージョン、メタデータ、および実験管理のためのオープンソースシステム[Github、1696 Stars]
- ? Neptune AI-研究および生産チーム向けに構築された実験追跡とモデルレジストリ[有料サービス]
- ? Valohai-エンドツーエンドMLパイプライン[有料サービス]
- ? pachyderm-スケーラブルなエンドツーエンドML/AIパイプラインを構築するためのツールを使用したデータのバージョンコントロール[無料層で有料サービス]
- ? Polyaxon-生産グレードのMLOPSツールでデータサイエンスワークフローを複製、自動化、および拡張する[有料サービス]
- ? Comet ML-データサイエンティストとチームが実験とモデルを追跡、比較、説明、最適化できるようにします[有料サービス]
自動テストと行動テスト
- チェックリスト - 精度を超えて:NLPモデルの行動テスト[Github、2003 Stars]
- TextAttack- NLPでの敵対的な攻撃、データ増強、モデルトレーニングのためのフレームワーク[Github、2922 Stars]
- wildnlp- NLPモデルの堅牢性をテストするための入力テキストを破壊します[Github、76 Stars]
- 大きな期待 - データのテストを書く[Github、9874 Stars]
- DeepChecks-機械学習モデルとデータを包括的に検証するためのPythonパッケージ[Github、3582 Stars]
モデルの展開性とサービング
- MLFLOW-機械学習ライフサイクルのオープンソースプラットフォーム[無料およびオープンソース] Githubへのリンク
- ? Amazon Sagemaker [有料サービス]
- ? Valohai-エンドツーエンドMLパイプライン[有料サービス]
- ? NLPクラウド - プロダクション対応NLP API [有料サービス]
- ?土星クラウド[有料サービス]
- ?セルドン - エンタープライズ向けの機械学習展開[有料サービス]
- ? Comet ML-データサイエンティストとチームが実験とモデルを追跡、比較、説明、最適化できるようにします[有料サービス]
- ? Polyaxon-生産グレードのMLOPSツールでデータサイエンスワークフローを複製、自動化、および拡張する[有料サービス]
- Torchserve- Pytorchモデルを提供するための柔軟で使いやすいツール[Github、4174 Stars]
- ? Kubeflow -Kubernetes用の機械学習ツールキット[Github、10600 Stars]
- kfserving- kubernetesのサーバーレス推論[Github、3504 Stars]
- ? TFX -TensorFlow拡張 - 生産MLパイプラインを展開するためのエンドツーエンドプラットフォーム[有料サービス]
- ? pachyderm-スケーラブルなエンドツーエンドML/AIパイプラインを構築するためのツールを使用したデータのバージョンコントロール[無料層で有料サービス]
- ?皮質 - AWSのサービスとしてのコンテナ[有料サービス]
- ? Azure Machine Learning-エンドツーエンドの機械学習ライフサイクル[有料サービス]
- AWSラムダのEnd2Endサーバーレストランス
- NLP -Service -FastapiとHugging Face [Github、13 Stars]を使用して構築されたサービスプラットフォームとしてのNLPのサンプルデモ
- ? Dagster-機械学習用のデータオーケストレーター[無料およびオープンソース]
- ? VERTA -AIおよび機械学習の展開と運用[有料サービス]
- Metaflow-科学者とエンジニアが実際のデータサイエンスプロジェクトを構築および管理するのに役立つ人間に優しいPython/Rライブラリ[Github、8093 Stars]
- flyte-規模の複雑でミッションクリティカルなデータおよびMLプロセス用のワークフローオートメーションプラットフォーム[Github、5525 Stars]
- Mlrun-機械学習の自動化と追跡[Github、1425 Stars]
- ? Datarobot Mlops -Datarobot Mlopsは、あなたの生産aiの卓越性の中心を提供します
モデルデバッグ
- imodels-簡潔で透明性の、正確な予測モデリングのパッケージ[Github、1375 Stars]
- コックピット - 深いニューラルネットワークをトレーニングするための実用的なデバッグツール[Github、474 Stars]
モデル精度予測
- ウェイトウォッチャー - 深いニューラルネットワークの精度を予測するためのウェイトウォッチャーツール[Github、1453 Stars]
データとモデルの観測可能性
一般的な
- Arize AI- NLPモデルのドリフト監視を埋め込みます
- ARIZE -PHOENIX -ML LLMS、ビジョン、言語、表形式モデルの観測可能性
- Whylogs-データとMLロギングのオープンソース標準[Github、2636 Stars]
- ルーブリックス - 人工知能プロジェクトのデータを探索して反復するためのオープンソースツール[Github、3843 Stars]
- Mlrun-機械学習の自動化と追跡[Github、1425 Stars]
- ? Datarobot Mlops -Datarobot Mlopsは、あなたの生産aiの卓越性の中心を提供します
- ?皮質 - AWSのサービスとしてのコンテナ[有料サービス]
モデル中心
- ?アルゴリズム - すべてのデータ、モデル、およびインフラストラクチャ[有料サービス]にわたる高度なレポートとエンタープライズグレードのセキュリティとガバナンスによるリスクを最小限に抑える
- ? dataiku -dataikuは、ビッグデータスケールの最新の手法を使用して高度な分析を提供したいチーム向けです[有料サービス]
- 明らかにai-機械学習モデルを分析および監視するツール[フリーおよびオープンソース] Githubへのリンク
- ?フィドラー-MLモデルパフォーマンス管理ツール[有料サービス]
- ? Hydrosphere -MLモデルを管理するためのオープンソースプラットフォーム[有料サービス]
- ? VERTA -AIおよび機械学習の展開と運用[有料サービス]
- ? Domino Model Ops-ビジネスインパクトを促進するモデルを展開および管理[有料サービス]
データ中心
- ? DataFold- DIFF、プロファイリング、および異常検出によるデータ品質[有料サービス]
- ? acceldata-信頼性を向上させ、スケールを加速し、すべてのデータパイプラインのコストを削減します[有料サービス]
- ? Bigeye-数分でデータセットの監視とアラート[有料サービス]
- ? Datakin-エンドツーエンド、リアルタイムデータ系統ソリューション[有料サービス]
- ?モンテカルロ - データの整合性、ドリフト、スキーマ、系統[有料サービス]
- ?ソーダ - データの監視、テスト、検証[有料サービス]
機能ストア
- ? Tecton-機械学習用のエンタープライズ機能ストア[有料サービス]
- FEAST-機械学習ウェブサイトのオープンソース機能ストア[Github、5525 Stars]
- ? Hopsworks機能ストア - 機械学習機能を管理するためのデータ管理システム[有料サービス]
メタデータ管理
- MLメタデータ - ML開発者およびデータサイエンティストワークフローに関連するメタデータを記録および取得するためのライブラリ[Github、617 Stars]
- ? Neptune AI-研究および生産チーム向けに構築された実験追跡とモデルレジストリ[有料サービス]
mlopsフレームワーク
- Metaflow-科学者とエンジニアが実際のデータサイエンスプロジェクトを構築および管理するのに役立つ人間に優しいPython/Rライブラリ[Github、8093 Stars]
- Kedro-再現可能で保守可能なモジュール式データサイエンスコードを作成するためのPythonフレームワーク[Github、9883 Stars]
- セルドンコア-MLOPSフレームワークで何千もの生産機械学習モデルをパッケージ化、展開、監視、監視、管理します[Github、4353 Stars]
- ZenML -MLOPSフレームワーク生産機械学習のための再現可能なMLパイプラインを作成する[Github、3972 Stars]
- ? Google Vertex AI-統合されたAIプラットフォーム内で事前訓練とカスタムツールを使用して、MLモデルをより高速に構築、展開、およびスケールします[有料サービス]
- diffgram-単一のアプリケーションとして配信される機械学習のための完全なトレーニングデータプラットフォーム[Github、1834 Stars]
- ? Continual.ai- Snowflake、Bigquery、Redshift、Databricksなどのクラウドデータウェアハウスの宣言的インターフェイスを使用して、MLモデルをより簡単かつ高速化します。 [有料サービス]
トランスベースのアーキテクチャ
?目次に戻ります
一般的な
- ? BertがIntel Aiによって商業環境で失敗する理由[ブログ、2020]
- ? Sebastian Guggisbergによる農場とのテキスト分類のための微調整バート[ブログ、2020]
- ハグするフェイストランスを使用して、Pytorchのプレトランストランスモデル[Github、254 Stars]
- ?§現実世界の実用的なNLP [プレゼンテーション、2019]
- ?§ペーパーから製品へ - クリストフヘンケルマンによるバートの実装方法[トーク、2020]
マルチGPUトランス
- Parallelformers:展開用の効率的なモデル並列化ツールキット[Github、776 Stars]
トランスを効果的にトレーニングします
- コンピューティング/時間(アカデミック)予算でバートをトレーニングする[Github、309 Stars]
サービスとしての埋め込み
- 埋め込み - サービスとして[Github、204 Stars]
- Bert-as-Service [Github、12399 Stars]
NLPレシピ産業用途:
- MicrosoftによるNLPレシピ[Github、6367 Stars]
- susanli2016によるpython付きNLP [Github、2721 Stars]
- PetrochukmによるPytorch NLPの基本ユーティリティ[Github、2210 Stars]
バイオ、ファイナンス、リーガルおよびその他の業界のNLPアプリケーション
- Blackstone-構造化されていない法的テキストのNLPのスペイシーパイプラインとモデル[Github、636 Stars]
- SCI SPACY -SPACYパイプラインと科学/生物医学文書のモデル[Github、1688 Stars]
- Finbert:財務NLPタスクのSECファイリングの事前訓練[Github、197 Stars]
- lexnlp-実際の非構造化された法的テキストのための情報検索と抽出[Github、692 Stars]
- NERDLおよびNERCRF- sparknlpを使用したヘルスケアの名前付きエンティティ認識に関するチュートリアル
- 法的テキスト分析 - 法的テキスト分析専用の選択されたリソースのリスト[Github、613 Stars]
- Bioie-生物医学的情報抽出の実施に関連するリソースのキュレーションリスト[Github、338 Stars]
注意セクションキーワード:音声認識
?目次に戻ります
一般的な音声認識
- Wav2letter-自動音声認識ツールキット[Github、6370 Stars]
- Deepspeech -BaiduのDeepspeechアーキテクチャ[Github、25166 Stars]
- ?マリア・オベドコバによるアコースティックワード埋め込み[ブログ、2020]
- Kaldi -Kaldiは音声認識のためのツールキットです[Github、14177 Stars]
- Awesome -Kaldi -Kaldi [Github、532 Stars]を使用するためのリソース
- ESPNET-エンドツーエンドの音声処理ツールキット[Github、8355 Stars]
- ? Hubert-音声認識、生成、および圧縮のための自己科学の表現学習[ブログ、2021年6月]
テキストからスピーチ /音声生成
- FastSpeech -Pytorch [Github、857 Stars]に基づくFastSpeechの実装
- TTS-テキストからスピーチのための深い学習ツールキット[Github、34356 Stars]
- ? Notebooklm -GoogleGemini Powered Personal Assistant / Podcastジェネレーター
テキストへのスピーチ
- ささやき - Openai [Github、68884 Stars]による大規模な弱い監督による堅牢な音声認識
- バイブ-GUIツールウィスパー、多言語、CUDAサポートを使用するためのツール[Github、931 Stars]が含まれています
データセット
- Voxpopuli-表現学習のための大規模な多言語音声コーパス[Github、507 Stars]
メモセクションキーワード:トピックモデリング
?目次に戻ります
ブログ
- ? Maria ObedkovaによるPysparkおよびSpark NLPによるトピックモデリング[Spark、Blog、2020]
- ? Brittany Bowersによる短いテキストクラスタリング(アルゴリズム理論)へのユニークなアプローチ[ブログ、2020]
トピックモデリングのフレームワーク
- Gensim-トピックモデリングのフレームワーク[Github、15597 Stars]
- Spark NLP [Github、3826 Stars]
リポジトリ
- Top2vec [github、2924星]
- 固定相関説明トピックモデリング[Github、303 Stars]
- 埋め込みスペースのトピックモデリング[Github、540 Stars]紙
- トピックネット - bigartmライブラリのためのハイレベルインターフェイス[Github、140 Stars]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
Further Reading
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
一般的な
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
汎用
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
Phonetics
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
Morphology
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
機械翻訳
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
日本語
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
タイ
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
中国語
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
Ukrainian
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
他の
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
一般的な
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
Courses
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
本
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
チュートリアル
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
関係抽出
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
Coreference Resolution
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
感情分析
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
Text Generation
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Attributions
リソース
- All linked resources belong to original authors
Icons
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
Fonts
The Pandect Series also includes