text_mining_resourcesダウンロードtext_mining_resourcesソースコードダウンロード

text_mining_resources

その他のソースコード

1.0.0

ダウンロード

スティーブおじさんのテキスト分析とNLPリソースの大きなリスト

 ____ ____ ____ ____ _________ ____ ____ ____ ____ ____ ____ 
||t |||e |||x |||t |||       |||m |||i |||n |||i |||n |||g ||
||__|||__|||__|||__|||_______|||__|||__|||__|||__|||__|||__||
|/__|/__|/__|/__|/_______|/__|/__|/__|/__|/__|/__|

自然言語処理、テキスト分析、および非構造化データについて学習するためのリソースのキュレーションリスト。

本
- r
- Python
- 一般的な
ブログ
ブログ記事、論文、ケーススタディ
- 一般的な
- NLPのバイアス
- スクレイピング
- クリーニング
- 茎
- 次元削減
- 皮肉検出
- ドキュメント分類
- エンティティと情報抽出
- クラスタリングとドキュメントの類似性を文書化します
- コンセプト分析/トピックモデリング
- 感情分析
- テキストの要約
- 機械翻訳
- Q＆Aシステム、チャットボット
- ファジーマッチング、確率的マッチング、レコードリンケージなど。
- 単語と文書の埋め込み
- トランスと言語モデル
- 深い学習
- 知識グラフ
主要なNLP会議
ベンチマーク
オンラインコース
APIとライブラリ
製品
オンラインデモとツール
データセット
その他
その他のキュレーションされたリスト

本

r

rを使用したテキストマイニング
rを使用したテキストマイニングのマスター
rを使用した実際のテキストマイニング

Python

変圧器による自然言語処理、改訂版
自然言語処理を始めます
Pythonを使用したテキスト分析用の青写真：Common Real World（NLP）アプリケーション向けの機械学習ベースのソリューション
実用的な自然言語処理
Pythonによる自然言語処理
Pytorchを使用した自然言語処理
Python自然言語処理
Pythonを使用した自然言語処理の習得
自然言語処理：PythonとNLTK
Pythonを使用した適用テキスト分析：機械学習で言語を認識しているデータ製品を有効にする
Pythonで適用された自然言語処理。 2018年。
テキストを使用した深い学習

一般的な

テキストの飼い主：それを見つけ、整理し、操作する方法。構造化されていないテキストを見つけ、整理し、操作するための革新的なツールと技術を学ぶための実践的なガイド。
音声および言語処理
統計的自然言語処理の基礎
PerlとPrologを使用した言語処理：理論、実装、およびアプリケーション（認知技術）
情報検索の紹介
自然言語処理のハンドブック
非構造化されたテキストデータアプリケーションの実用的なテキストマイニングと統計分析
予測テキストマイニングの基礎
ソーシャルWebのマイニング：データマイニングFacebook、Twitter、LinkedIn、Google+、Githubなど
自然言語処理のためのニューラルネットワーク方法
テキストマイニング：社会科学のガイドブック
実用的なテキスト分析：ビジネスインテリジェンスのテキストと非構造化データの解釈
自然言語処理におけるニューラルネットワーク方法
テキストの機械学習（2018）
スペイン語での自然言語処理
自然言語における計算言語学の人間コンピューターコミュニケーションの基礎。話すロボットを構築する方法に関する洞察を提供します。
音声認識のための統計的方法。重要な研究と音声認識のための統計的方法を強調しています。
大規模なテキスト注釈プロジェクトの管理に関するデータ拡張ガイドにラベルを付ける方法

ブログ

おそらくほぼ科学的なブログでしょう
セバスチャン・ルーダー
NLP-PROGRESS
自然言語処理ブログ

ブログ記事、論文、ケーススタディ

一般的な

ヘルスケアのNLP。 NLPを医療費とプロバイダーがどのように使用できるか。
AIハーバードビジネスレビュー。 NLPの改善がマシンとの人間の相互作用に及ぼす影響。
自然言語処理の精度が小売業のAIの将来にとって重要である理由
自然言語加工は楽しいです！コンピューターが人間の言語をどのように理解しているか。 2018年。
WEFライブキャンペーン - Twitter Fed Global News Topics＆Sentiment Tracker -Live 2019
自然言語処理に適用される最新の深い学習技術
自然言語処理の決定的なガイド。 Monkeylearn。技術以外の概要。
自然言語からカレンダーエントリまで、Clojure。 2015年3月。NLP、Clojure
HNに尋ねる：どうすればNLP（自然言語処理）に入ることができますか？
HNに尋ねる：テキストの大きな体を分析するのに最適なツールは何ですか？
Quora：自然言語処理を学ぶにはどうすればよいですか？タイム推定の内訳とスタンフォードCSコースへのリンクを備えた初心者のための良いイントロ。
Quoraトピック：自然言語処理
自然言語処理の決定的なガイド2015年10月。
2015年2月のテキストの先物。媒体としてのテキストにおける現在のすべてのイノベーションの調査。
テキストマイニングのRまたはPython 2015年8月。テキストマイニングの分野でのRとPythonの効率の比較。
2012年8月のテキストマイニングの開始場所。
RおよびPythonでのテキストマイニング：始めるための8つのヒント。 2016年10月
Pythonを使用したテキスト分析の紹介、パート1 2012年4月。Pythonのセンチメント分析の基本的なアイデアに関する初心者のウォークスルー。
Pythonを使用したTwitterデータのマイニング（パート1：データの収集）
なぜテキストマイニングが次の大きなものであるのか。 2012年3月。
SAS CEOはBIをめぐる分析を提供しており、2011年6月にテキスト分析のユースケースを明らかにしています。
テキストマイニングの価値と利点。 2015年9月。
テキストマイニングサウスパーク2016年2月 - さまざまなトピックをカバーするテキストマイニングブログ。
自然言語処理：はじめに
自然言語処理チュートリアル。 2013年6月。
自然言語処理ブログ。
TwitterストリーミングAPIとPythonを使用したテキストマイニングの紹介
- コード付きGithub Repo：https：//github.com/adilmoujahid/twitter_analytics
自然言語処理に入る方法」。 NLPの基本的な非技術的イントロ。
ベティ：コマンドラインのフレンドリーな英語のようなインターフェイス。
スタートアップニュースを分析するための機械学習モデルの作成-PART1。パート2。パート3。
最も有用なテキスト処理APIの比較
100個の必見のNLPペーパー
テキストデータを扱うためのPythonガイド
医療関係の抽出のためのクラウドソーシンググラウンドトゥルース
自然言語ベースの財務予測：調査
自然言語ベースの財務予測：調査。自然言語の財務予測の範囲を明確にする記事。
自然言語処理のための5つの英雄ツール
自然言語処理は、隠されたデータのロックを解除して、医療効率、品質、コストを変換する
電子臨床文書から医学的問題を抽出します
機械学習用の自然言語処理（NLP）。基本的で理解しやすい前処理が含まれており、PythonのいくつかのML ClassificAiTnモデルを比較します。
スペル補正装置の書き方-PeterNorvig
AIを使用して、構造化されていない政府データの力を解き放ちます：（W。Eggers、N。Malik、＆M。Gracie、2019年1月）。「非構造化されたテキストは、物理的および仮想ファイルキャビネットに「閉じ込められている」と考えてください。約束は明確です。政府は有効性を改善し、「ドットを接続する」能力を向上させ、利用可能なデータのパターンを特定することで多くの大惨事を防ぐことができます。」このDeloitteの記事は、NLPの理解しやすい入門書と背景を提供し、NLPを構造化されていない政府のテキストデータで使用できます。この記事には、NLPが現在さまざまなドメインに展開されている方法に関する米国政府の多くの例（例えば、公的フィードバック/センチメント分析/トピックモデリングを分析し、法医学調査を改善し、政府の政策決定と規制のコンプライアンスを支援するため）。重要なポイントは、さまざまなNLPテクニックを適用して、政府の重要なintelligence報機関を探求し、明らかにすることです。
エンターテイメント製品の特徴の抽出：メディア消費の心理学によって通知されるガイド付き潜在ディリクレの割り当てアプローチ：（O。Toubia、G。Iyengar、R。Bunnell、＆A。Lemaire、2019年2月）。「NLPの文献に依存して、自動化されたスケーラブルな方法でエンターテイメント製品にタグを付ける方法を開発します。映画の文脈では、提案された機能が個々のレベルでの消費を予測する能力を向上させることを示しています。また、ガイド付きLDA機能は、個人レベルの消費ではなくパフォーマンスの結果を予測するモデルのパフォーマンスを改善する可能性があることを示しています。」この学術記事は、従来のコンテンツベースの消費者行動モデル、およびメディアおよびエンターテインメント業界に適用される関連するマーケティングモデルを支援できるエンターテイメント製品の機能抽出にLDAとNLPを適用することを示唆するフレームワークと管理上の意味を提供します。
ヘルスケアにおける自然言語処理システムの構築を学んだ教訓
アルゴリズムが次に何を入力するかをどのように知るか

NLPのバイアス

AIバイアス：公平性を確保することは人間の責任です
VentureBeat BlogPost-データセットの性別バイアス - UCLA研究論文に基づく「ジェンダーニュートラルワード埋め込み」2018年8月。
200センチメント分析システムでの性別と人種のバイアスを調べます。 2018年
女性はホームメーカーにいるので、男性はコンピュータープログラマーにですか？単語の埋め込みを削除します。

スクレイピング

Scrapyチュートリアルを使用してHTMLを削り取り、PythonモジュールScrapyを使用して、厄介なHTML Webサイトからの簡単なデータ抽出を行います。
任意のドキュメントからテキストを抽出します。マスも大騒ぎもありません。 2014年7月。
SCRAPYを使用して、2017年9月に独自のデータセットを構築します。

クリーニング

NLPの問題の90％を解決する方法：2018年1月。
Pythonでのテキストの前処理：ステップ、ツール、および例。 2018年10月
Python 2017年10月に機械学習用のテキストをクリーニングする方法。テキストデータの前処理を実行する方法のステップバイステップガイド。
特徴抽出、基本的な前処理、および高度な処理

言葉を止めます

PythonでNLTKで停止単語を削除します
感情分析のためのテキスト分類 - ストップワードとコロケーション

茎

記事：テキストの幹：アプローチ、アプリケーション、および課題。 2016年12月。
茎とlemmatizationの違いは何ですか？ 2018年2月。さまざまな言語でのステム化とレンマ化の使用の違いと例。
Pythonでの茎と皮肉化。 2018年10月。ステムとレンマ化とアルゴリズムの背後にあるアルゴリズム、結果、長所と短所、使用するコンテキスト、およびコード構文の比較。
センチメントシンポジウムチュートリアル：STEMMING

次元削減

SVDを使用したテキストをタミングします。 SAS。 2004年1月。
ワードバッグモデルの次元削減：PCA対LSA
単語の袋の紹介とNLPのPythonでコーディングする方法
単語とTF-IDFの袋が説明しました

皮肉検出

自動皮肉検出：調査ACMコンピューター調査、2017年9月。
カスケード：オンラインディスカッションフォーラムでのコンテキスト皮肉検出第27回計算言語学に関する国際会議、2018年8月。
ディープコンボリューションニューラルネットワークを使用した皮肉なツイートをより深く検討します。
深い畳み込みニューラルネットワークで皮肉を検出します。 2018年4月30日。皮肉を効果的に検出するためのCNNを使用したコンテキスト学習。

ドキュメント分類

ナイーブベイズとテキスト分類、2014年。ナイーブベイズアルゴリズムの両方の詳細な概要と、ドキュメント分類プロセスでの使用方法。
効率的なテキスト分類のためのトリックのバッグ、2016年。Facebook研究者からの論文は、高速かつ効果的なドキュメント分類アルゴリズムであるFastTextを紹介します。
機械学習におけるテキスト分類器アルゴリズム、2017年。いくつかの深い学習アルゴリズムを適用して分類の問題を文書化する方法を示すブログ記事。
Reuters-21578 R8 Dataset、2016のドキュメントの分類。3つの異なるMLアルゴリズムを使用してニュース記事を分類する方法を示す素晴らしいチュートリアル。
整頓されたテキストマイニングビールレビュー、2018年。KNNアルゴリズムを使用して、クラフトビール製品のレビューをビールのスタイル（「ピルスナー」、「IPA」、または「ベルギー」）に分類します。
fastTextとcomet.mlを使用して知識グラフで関係を分類する
Scikit-Learnを使用したマルチクラスのテキスト分類、2018年。消費者の苦情を12のカテゴリのいずれかに分類するなど、マルチクラスの問題に対処する方法を示す記事。
Scikit-Learn（Pycon 2016）のテキストを使用した機械学習、2016年。ドキュメント分類プロセスでScikit-Learnを使用する方法について説明する素晴らしいビデオチュートリアル。
テキストデータを扱うための究極のガイド（Pythonを使用） - データサイエンティストとエンジニア向け、2018年。タイトルはすべてを述べています。
Scikit-Learn and NLTKを使用したPythonのテキスト分類、2017年。Scikit-Learnを使用してテキスト分類を実行する方法を示す別のチュートリアル。
Universal Language Modelsを使用した最先端のテキスト分類を紹介する2019年。ドキュメント分類のための画期的な転送学習方法を紹介します。
学習ドキュメント埋め込み長い映画レビューの感情分類のためのn -gramsを予測すること - githubにコードを含む紙
説明可能なNLPに向けて：テキスト分類のための生成的説明フレームワーク、2019年。テキスト分類モデルの内部の仕組みを説明するための新しいアプローチを説明する論文。

エンティティと情報抽出

エンティティの抽出とネットワーク分析。 Python、 StanfordCoreNLP
情報抽出のための自然言語処理
情報を抽出するためのNLP技術。 NLPデータマイニングツールとテクニックの7つのステップフレームワークの詳細な調査。

クラスタリングとドキュメントの類似性を文書化します

テキストクラスタリング：非構造化データから簡単な洞察を取得します。 2017年7月。
ドキュメントクラスタリング。修士論文。
ドキュメントクラスタリング：詳細なレビュー。シャーとマハジャン。 IJAIS 2012。
Pythonを使用したドキュメントクラスタリングIMDBムービーの説明をクラスターするGitHubリポジトリ。この元のチュートリアルに基づいて、GitHub Repoがここにあります。
SAS®EnterpriseMinerを使用したビデオゲームユーザーレビューに関するテキストマイニングとセンチメント分析
誰が反トランプニューヨークタイムズオペダを書いたのですか？ TidyTextを使用してドキュメントの類似性を見つけます

コンセプト分析/トピックモデリング

トピックモデル：過去、現在、未来
LSAを使用した単語ベクトル、パート-2
確率的トピックモデル
2017年9月のトピックモデルとしてのレゴカラーテーマ。
スタートアップが監視されていないLDAから半教師のGuidedldaに切り替えた方法
LSA、PLSA、LDA＆LDA2VECによるトピックモデリング2018年8月。
Text2Vecのトピックモデルの説明
トピックモデリングポータル
トピックモデル2017のアプリケーション。
Macs 30500：テキスト分析：トピックモデリング
Cota、Uberのトピックモデリングアプローチアプローチを改善するためのアプローチ
LDAトピックモデルを分類モデル入力として使用します
NLP：数分でLDAを使用してデータセットから主要なトピックを抽出する
オーストラリア高等裁判所の法的主題と司法活動のモデリング、1903〜2015

感情分析

方法

CACM：センチメント分析の手法とアプリケーション、2013年。ACMジャーナルの通信からの感情分析の素晴らしい概要。
署名されたソーシャルネットワークを使用した監視されていない感情分析、2017年。センチメント分析をソーシャルネットワークに適用することの課題を説明し、新しい監視なしの方法を提示する会議用紙。
センチメント分析のためのレキシコンベースの方法、2010年。SO-CAL（セマンティックオリエンテーション計算機）を使用します。これは、感傷分析の主観性と意見の尺度です。
その感傷的な感覚、2015年。RのSyezhetパッケージの結果を、一連の小説で人間のラベルと比較しています。 2016年の更新。
監視されていないセンチメントニューロン、2017年。Openaiのチームは、通常よりもはるかに少ないデータで、深いNNSを使用してセンチメント分析を実行する新しい方法を開発しました。
意見から感情採掘への現在のテキストセンチメント分析、2017年。センチメント分析の研究とツールの現在の状態を調査するジャーナル記事。
センチメント分析ツールの概要、パート1。ポジティブワードおよびネガティブワードデータベース、2017年。いくつかのレキシコンデータベースを概説するブログ記事。
感情分析、概念分析とアプリケーション、2018年。センチメント分析の概要、Uberに関するツイートの分析。
センチメント分析のための画期的な研究論文とモデル、2018年。
組み合わせたLSTM-CNNモデルを使用したTwitterセンチメント分析、2018年。深い学習を使用する感情分析の新しい方法について説明するブログ記事。
Vader：ソーシャルメディアテキストの感情分析のための普通のルールベースのモデル、2014年。センチメント分析の単純なルールベースのモデルであるVaderを提示する会議論文。
2014年、マイクロブログポストのセンチメント分析に対するレキシコンベースのアプローチの比較。SentiWordNetなどの語彙リソースに基づくTwitter投稿のセンチメント分析のための新しいレキシコンベースのアプローチを提示する会議用紙。

課題

Negativitivition of Negation、2011年。IMDB映画のレビューに関するケーススタディで、テキストの否定性に対処することの課題について議論する会議用紙。
センチメント分析における課題、2015年。センチメント分析の主な課題のいくつかを説明するカナダ国立Reseach評議会の実践的なガイド。
センチメント分析の課題に関する調査、2016年。47の論文の間で感情分析の課題を議論および比較するジャーナル記事。

政治

Pythonを使用したトランプのツイートに関するセンチメント分析、2017年。NLP処理のためにTweepyとTextBlobを使用したトランプのツイートに関するセンチメント分析。
ドナルド・トランプ対ヒラリー・クリントン：Twitter言及に関するセンチメント分析、2016年。2016年の米国大統領選挙に至るまでのトランプのつぶやきとヒラリーのツイートの感情を比較しています。
感情分析は機能しますか？ Yelp Reviewsの整頓された分析、2016年。レビューの予測結果と個々の単語を組み合わせて、センチメント分析がYelpレビューでうまく機能したことを示しています。
ツイートから世論調査まで：テキストの感情を世論時代の時系列にリンクします。2010年。Twitterでの感情分析が世論調査にどのように関連しているかを説明する会議論文。

株式市場

Twitter Moodは、2010年の株式市場を予測しています。毎日のTwitter Feedsaの「ムード」を測定し、ムードがDJIAを予測できることを示しています。
非線形の影響：ソーシャルメディアの市場価格に対する因果的影響の証拠、2016年。ソーシャルメディアとDJIAとの関係が非線形であることを示すジャーナル記事。
フォーブス：QUANT TRADERSがセンチメントを使用して市場で優位性を獲得する方法、2015年。10Quant Tradersがセンチメント分析を使用する方法を示す記事。
SentDex：定性的の定量化。さまざまな株式の全体的な感情を測定するオンラインツール。
Trump2Cash：トランプのツイートを搭載した株式取引ボット。ドナルド・トランプのTwitterアカウントを見て、彼が公開されている企業に言及するのを待つボット。関連するブログの記事では、トランプのツイートを計画親の寄付に変えるボットについて説明しています。

アプリケーション

Lost at Sea：ソーシャルメディアがクルーズラインがミレニアル世代を引き付けるのをどのように支援しているか、2016年。
ハリープロッター：2015年のTidyTextとTidyverseで20周年を祝う2015年。ハリーポッターシリーズのテキストに感情分析を適用する方法を示す技術記事。
データサイエンス101：Rチュートリアルのセンチメント分析、2017年。RでTidyTextパッケージを使用して米国の大統領スピーチを分析する方法を説明する技術記事。
カンヌライオンズ2017：Hungerithm、Mars Chocolate Australia（Clemenger BBDO、Melbourne）、2017年。インターネットのムードに基づいてSnickersバーの価格を変更するツールを開発する方法を示すビデオ。
センチメント分析：10アプリケーションと4サービス、2018年。センチメント分析の短いが簡潔な紹介、それはビジネスへの影響と、Google、Amazon、Microsoftを含む4つの感情分析クラウドサービスプロバイダーです。
会社全体のメールを読むことで上司が学ぶことができること、2018年。「レッスン：従業員が言うことの実体を盗聴することではなく、彼らがそれを言っていることを調べることによって、労働力がどのように感じているかについての真実を理解してください。」この記事は、大規模な内部非構造化テキストデータセット（従業員の電子メールなど）に感情分析を適用するトピックに集中しています。テキスト分析とNLPは、職場での従業員の関与のレベル、および組織とその倫理的意味合いによって特に注意を払うべき潜在的な「レッドフラッグ」を示す手がかりの検索に役立つますます人気のあるアプローチとなっています。
Amazon製品レビューのアスペクトベースの感情分析、2018年。Amazonの製品レビューのさまざまな側面に感情分析を適用する方法を示す記事。
2017年のスーパーボウル51からの220万のツイートのセンチメント分析。スーパーボウルに関するツイートに感情分析を適用する方法を示す記事。
感情と感情分析：NLPへの開業医ガイド、2018年。ニュース記事に適用される感情分析の概要。

ツールとテクノロジー

Azureのストリーミング分析チュートリアル。
Azureの感情を分析する方法。
ハウツーパフォーマンスセンチメント - アナリシス使用パイソン - チュートリアル/。
Twitterセンチメント分析の概要、2016年。センチメント分析の概要、およびTextBlobを使用したセンチメント分析の実行方法に関する段階的なウォークスルー。
Tensorflow Hubを使用してKerasにElmo Embeddings、2018年。TensorflowHubを使用してKerasモデルでGoogleのELMOを使用するガイド。
TextBlobを使用したPythonのTwitterセンチメント分析、2018年。

テキストの要約

Gensimによるテキストの要約
文の埋め込みを使用した監視されていないテキストの要約
テキスト要約の抽象化の改善改善のための2つの手法を提案する
Tensorflowを使用した科学的および健康関連データ - テキスト要約のテキストの要約と分類。 2016年。テキストの要約に関する基本研究。

機械翻訳

ブログ投稿：翻訳で見つかった：Googleのより正確で流fluentな文章翻訳2016年11月
NYTIMES：The Great AI Awakening 2016年。Googleが人工知能を使用してGoogle Translateを変換する方法、より人気のあるサービスの1つと、機械学習がコンピューティング自体を改革する態勢を整えています。
機械学習翻訳とGoogle翻訳アルゴリズム
ニューラルマシン翻訳（SEQ2SEQ）チュートリアル
解剖された論文：「注意が必要です」と2017年に「注意メカニズム」を最初に導入した重要な論文の説明が説明されています。
注釈付きトランスは、「注意が必要です」というラインごとの実装です。
BERT：言語を理解するための深い双方向変圧器の事前訓練2018年に公開された新しい言語表現モデル。実装コード。 Pytorchポート。
フレーズベースとニューラルの監視なし機械翻訳は、ニューラルとフレーズベースのモデルの2つのモデルバリアントを提案しました。 EMNLP 2018のベストペーパーアワードとして授与されました。実装コード。

Q＆Aシステム、チャットボット

ルーシーに会う：チャットボットのプロトタイプを作成します
マイクロソフトボットフレームワーク。
何百万人ものパーソナライズされた対話エージェントをトレーニングします
チャットボットのNLPと機械学習を活用するための究極のガイド。 2016年。
Python（NLTKを使用）でゼロからシンプルなチャットボットを構築します。 2018年9月
ダイアログシステムに関する調査：最近の進歩と新しいフロンティア2018年1月。
偶発的なL2学習のためのオンラインコラボレーションダイアログに対する自動翻訳チャットボットの影響を調べる
FAQの発見、怒りの検出、自然言語の理解を備えた銀行のチャットボットを作成する
生成モデルチャットボット - 2017年5月
Python- 2017年3月にマルチフィアリングされたスラックボットを構築するためのガイド
Python（NLTKを使用）でゼロからシンプルなチャットボットを構築する - 2018年9月
2019年2月から2月までの会話銀行への道
チャットボット - NLPモデルの意図とエンティティの設計2017年1月
自動診断のためのタスク指向のダイアログシステム。 2018年。MDPトレーニングされたデータセットとその医学的診断アプリケーションの使用について説明します。
AI FrontiersのLi Deng：3世代の音声対話システム（ボット）。 2017年。AIのMicrosoftチーフサイエンティストによるスライド。
NLP - 質問回答モデルの構築。 2018年3月

ファジーマッチング、確率的マッチング、レコードリンケージなど。

Rのアグレップ法
RのFuzzywuzzyパッケージ。
ファジーストリングマッチング - 構造化されていない情報に取り組むためのサバイバルスキル
RecordLinkageパッケージ：データのエラーの検出
RパッケージFastLink：高速確率的レコードリンク
ファジーマージr an r関数キーファイルを定義してファイルをマージする
シャムの再発ネットワークとのテキストの類似性を学習します
DEDUPE：正確でスケーラブルなファジーマッチング、レコード重複排除、エンティティ解像度のためのPythonライブラリ。
RecordLinkage：Pythonで書かれたレコードリンケージと重複排除のツールキット。

単語と文書の埋め込み

現在の最高の普遍的な単語の埋め込みと文の埋め込み
単語埋め込みの直感的な理解：カウントベクターからWord2vecまで
IBMからのドキュメントエンミングジェネレーション2016への実用的な洞察を伴うDoc2Vecの経験的評価。
Googleからのパラグラフベクター2015を埋め込むドキュメント。
Glove Word Embeddings Demo2017。Fastiから。
Word2vec 2016のテキスト分類。
ドキュメント埋め込み2017
Word EmbeddingsからDocument Distances 2015まで。
単語の埋め込み、MLのバイアス、あなたが数学が嫌いな理由、そしてAIがあなたを必要とする理由2017。レイチェル・トーマス（FastAi）
自然言語処理の単語ベクトル：グローバルベクター（グローブ）。 2018年8月。
LeeデータセットのDOC2VECチュートリアル
SPACYとGENSIMを備えたPythonの単語埋め込み
深い文脈化された単語表現。エルモ。 Pytorchの実装。 TF実装
テキスト分類のためのユニバーサル言語モデル微調整。実装コード。
自然言語の推論データからの普遍的な文の表現の監督された学習。
翻訳で学んだ：コンテキスト化された単語ベクトル。入り江。
文と文書の分散表現。段落ベクター。 Gensimのdoc2vecチュートリアルを参照してください
Sense2vec。単語感覚の乱雑さ。
思考ベクトルをスキップします。単語表現方法。
ニューラルネットワークを使用したシーケンス学習へのシーケンス
ワードベクトルの驚くべき力。 2016年。
シーケンスラベル付けのコンテキスト文字列埋め込み。 2018年。
相互に関連したNLPタスクのセットのマルチタスク学習アプローチを紹介するセマンティックタスクからの埋め込みを学習するための階層的なマルチタスクアプローチ。 2019年1月のAAAI会議で発表。実装コード。
Elmo Word Embeddings
Word2vec Natural Language Processingのバカのガイド
ワードエンミングで忙しくなります - はじめに（2018年2月）
NLPのイメージネットの瞬間が到来しました。 2018年7月。事前に訓練されたNLP言語モデルの概要、Imagenetのコンピュータービジョンへの貢献との類似点。
word2vec：fish + music = bass
視覚的に説明されたユニバーサルセンテンスエンコーダー。 2020年6月。

トランスと言語モデル

大きな言語モデルの理解。セバスチャン・ラシュカ。 2023年2月。
Bertologyの入門書：Bertがどのように機能するかについて私たちが知っていること。 2020年11月。
BERTベースのモデルのレビュー。 2019年7月。
BERT説明 - NLPの最先端の言語モデル。 Bertの仕組みの基礎の素晴らしい説明。
イラスト入りのバート、エルモ、co。（NLPが転送学習をクラックした方法）。 2018年12月。
マシンは読書テストで人間を倒します。しかし、彼らは理解していますか？
すべてのNLPエンジニアが事前に訓練された言語モデルについて知っておくべきこと。 2019年。
トランス…「説明」？
イラスト付き変圧器
トランスモデルに関する顔のコースを抱きしめます
Openai：より良い言語モデルとその意味：テキスト生成に焦点を当てて多くの言語ベンチマークで最先端を達成する、事前に訓練されたトランスベースの監視されていない言語モデル。物議を醸す限定リリース。 2019年2月14日。

chatgpt

ChatGptローンチブログ
素晴らしいchatgptプロンプト

...教育で

CHATGPTユーザーエクスペリエンス：教育への影響。 Xiaoming Zhai（ジョージア州の宇宙）。 2022年12月。
AIチャットボットによって有効になった新しい学習モード：3つの方法と課題MollickとMollick（ペンシルベニア大学）。 2022年12月。
学生の89％が宿題にOpenaiのChatGptを使用することを認めているため、教育者は盗作と戦います。フォーブス、2023年1月
ChatGpt：教育的な友人または敵？ Hirsh-PasekとBlinkoff（テンプル大学）。 2023年1月。
学校でchatgptを禁止しないでください。それを教えてください..ニューヨーク・タイムズ（2023年1月）。
ChatGptとビジネス教育の未来。 2023年2月。
ウデミーコース（2023年1月）。教育の教師向けのChatGpt。

深い学習

Keras LSTMチュートリアル - 強力な深い学習言語モデルを簡単に構築する方法。
- 記事の前半では、LSTMセルの解剖学であるLSTMネットワークのRNNSについて説明しています。後半は、データ入力にジェネレーターを使用したLSTM実装のためのKerasの機能のウォークスルーです。
自然言語処理のための深い学習：Jupyterノートブックを使用したチュートリアル。
- NLP問題へのDLアプローチのためのさらなるビデオチュートリアルへのリンクと説明を含む短い記事。他のトピックの中でも、前処理、単語表現、LSTMを含む合計5つのレッスンがあります。
自然言語処理における深い学習の使用に関する調査。
- NLP（2018年7月、コロラド大学）のDLの35ページの学術文献レビュー。ニューラルネットワークアーキテクチャの詳細な説明と、包括的なアプリケーションセットが続きます。
人間の注意を伴うシーケンス分類：視線追跡コーパスから派生した人間の注意を使用して、再発性ニューラルネットワーク（RNN）の注意を正規化します。実装コード。
PythonでULMFITとFastAiライブラリを使用したテキスト分類（NLP）に関するチュートリアル
自然言語理解のためのマルチタスクディープニューラルネットワーク。 2019年2月現在、Glue BenchmarkでBert、Elmo、Bilstmを上回ったMicrosoftのMtdnnアルゴリズムの詳細なアカデミック記事。
学習研究者向けの自然言語処理チュートリアル：TensorflowとPytorchを使用した2019 NLPチュートリアルリポジトリ。
感情分析のための深い学習：調査
神経読解と2018年12月以降のスタンフォード - 深いニューラルネットワークの上に構築された読解モデル。
Microsoft：Multi-Task Deep Neural Network（MT-DNN）：自然言語の理解に焦点を当てたGoogleのBertに対するMicrosoftの改善。リリースされるコード。 2019年1月31日。
構造化された自己完全な文の埋め込み

カプセルネットワーク

テキスト分類のための動的ルーティングを備えたカプセルネットワークの調査。 2018年。
関係抽出のための動的ルーティングを備えた注意ベースのカプセルネットワーク。 2018年。
カプセルネットとGRUを使用したTwitterセンチメント分析。 2018年。
カプセルネットワークを使用したコメントの攻撃性と毒性を特定します。 2018年。2017年にGeoffrey Hinton et al。によって導入されたCapsule Networksにとっては、古典CNNよりも優れたNNアーキテクチャを導入する試みとして導入されました。このアイデアは、ニューロンの「カプセル」間の動的なルーティングを通じて、入力層の階層関係をキャプチャすることを目的としています。階層的な複雑さに対処するというテーマの親和性により、NLP分野へのアイデアの拡張は、その後、上記の論文のように、積極的な研究の抑制となっています。
カプセル間の動的ルーティング。 2017年。
EMルーティングを備えたマトリックスカプセル。 2018年。

知識グラフ

fastTextとcomet.mlを使用して知識グラフで関係を分類する
WTFは知識グラフですか？
自然言語処理におけるグラフの調査。 Nastase et al、2015。

主要なNLP会議

ニューリップ
計算言語学会（ACL）
自然言語処理における経験的方法（EMNLP）
計算言語協会の北米支部（NAACL）
計算協会の欧州支部（EACL）
計算言語学に関する国際会議（コリング）

ベンチマーク

分隊リーダーボード。スタンフォードの質問データセット（分隊）に最も強力なNLPモデルのリスト。
- Squad 1.0 Paper（最終更新2016年10月）。 Squad V1.1には、ウィキペディアの記事に基づいた100,000を超える質問と回答のペアが含まれています。
- Squad 2.0紙（2018年10月）。第2世代の分隊には、NLPモデルがトレーニングデータから未回答であると特定しなければならない答えのない質問が含まれています。
接着剤リーダーボード。
- 接着剤ペーパー（2018年9月）。 A collection of nine NLP tasks including single-sentence tasks (eg check if grammar is correct, sentiment analysis), similarity and paraphrase tasks (eg determine if two questions are equivalent), and inference tasks (eg determine whether a premise contradicts a hypothesis).

Online courses

Udemy

Udemy: Deep Learning and NLP AZ™: How to create a ChatBot
Udemy: Natural Language Processing with Deep Learning in Python
Udemy: NLP - Natural Language Processing with Python
Udemy: Deep Learning: Advanced NLP and RNNs
Udemy: Natural Language Processing and Text Mining Without Coding

スタンフォード

Stanford CS 224N / Ling 284
- Website: http://cs224d.stanford.edu/
- Reddit: https://www.reddit.com/r/CS224d/comments/4n04ew/follow_along_with_cs224d_2015_or_2016/
Lecture Collection | Natural Language Processing with Deep Learning (Winter 2017)

Coursera

Courses for "natural language processing" on Coursera
Coursera: Applied Text Mining in Python
Coursera: Nartual Language Processing
Coursera: Sequence Models for Time Series and Natural Language Processing
Coursera: Coursera: Clinical Natural Language Processing

DataCamp

DataCamp: Natural Language Processing Fundamentals in Python
DataCamp: Sentiment Analysis in R: The Tidy Way
DataCamp: Text Mining: Bag of Words
DataCamp: Building Chatbots in Python
DataCamp: Advanced NLP with spaCy

その他

Deep Learning Drizzle : Drench yourself in Deep Learning, Reinforcement Learning, Machine Learning, Computer Vision, and NLP from this curated list of exciting lectures!
自然言語処理| Dan Jurafsky, Christopher Manning
Deep Learning for NLP. DeepMind and University of Oxford Department of Computer Science.
CMU CS 11-747: Neural Network for NLP
YSDA NLP course. Yandex School of data analysis.
CMU Language and Statistics II: (More) Empirical Methods in Natural Language Processing
UT CS 388: Natural Language Processing
Columbia: COMS W4705: Natural Language Processing
Columbia: COMS E6998: Machine Learning for Natural Language Processing (Spring 2012)
Machine Translation: Spring 2016
Commonlounge: Learn Natural Language Processing: From Beginner to Expert
Big Data University: Advanced Text Analytics – Getting Results with SystemT
Udacity: Natural Language Processing Nanodegree
edX: Natural Language Processing: An introduction to NLP, taught by Microsoft researchers

APIs and Libraries

R packages
- tm: Text Mining.
- lsa: Latent Semantic Analysis.
- lda: Collapsed Gibbs Sampling Methods for Topic Models.
- textir: Inverse Regression for Text Analysis.
- corpora: Statistics and data sets for corpus frequency data.
- tau: Text Analysis Utilities.
- tidytext: Text mining using dplyr, ggplot2, and other tidy tools.
- Sentiment140: Sentiment text analysis
- sentimentr: Lexicon-based sentiment analysis.
- cleanNLP: ML-based sentiment analysis.
- RSentiment: Lexicon-based sentiment analysis. Contains support for negation detection and sarcasm.
- text2vec: Fast and memory-friendly tools for text vectorization, topic modeling (LDA, LSA), word embeddings (GloVe), similarities.
- fastTextR: Interface to the fastText library.
- LDAvis: Interactive visualization of topic models.
- keras: Interface to Keras, a high-level neural networks 'API'. (RStudio Blog: TensorFlow for R)
- retweet: Client for accessing Twitter's REST and stream APIs. (21 Recipes for Mining Twitter Data with rtweet)
- topicmodels: Interface to the C code for Latent Dirichlet Allocation (LDA).
- textmineR: Aid for text mining in R, with a syntax that should be familiar to experienced R users.
- wordVectors: Creating and exploring word2vec and other word embedding models.
- gtrendsR: Interface for retrieving and displaying the information returned online by Google Trends.
  - Analyzing Google Trends Data in R
- textstem: Tools that stem and lemmatize text.
- NLPutils Utilities for Natural Language Processing.
- Udpipe Tokenization, Parts of Speech Tagging, Lemmatization and Dependency Parsing using UDPipe.
Python modules
- NLTK: Natural Language Toolkit.
  - Video: NLTK with Python 3 for Natural Language Processing
- scikit-learn: Machine Learning in Python
  - チュートリアル
- Spark NLP: Open source text processing library for Python, Java, and Scala. It provides production-grade, scalable, and trainable versions of the latest research in natural language processing.
- spaCy: Industrial-Strength Natural Language Processing in Python.
- textblob: Simplified Text processing.
  - Natural Language Basics with TextBlob
- Gensim: Topic Modeling for humans.
- Pattern.en: A fast part-of-speech tagger for English, sentiment analysis, tools for English verb conjugation and noun singularization & pluralization, and a WordNet interface.
- textmining: Python Text Mining utilities.
- Scrapy: Open source and collaborative framework for extracting the data you need from websites.
- lda2vec: Tools for interpreting natural language.
- PyText A deep-learning based NLP modeling framework built on PyTorch.
- sent2vec: General purpose unsupervised sentence representations.
- flair: A very simple framework for state-of-the-art Natural Language Processing (NLP)
- word_forms: Accurately generate all possible forms of an English word eg "election" --> "elect", "electoral", "electorate" etc.
- AllenNLP: Open-source NLP research library, built on PyTorch.
- Beautiful Soup: Parse HTML and XML documents. Useful for webscraping.
- BigARTM: Fast topic modeling platform.
- Scattertext: Beautiful visualizations of how language differs among document types.
- embeddings: Pretrained word embeddings in Python.
- fastText: Library for efficient learning of word representations and sentence classification.
- Google Seq2Seq: A general-purpose encoder-decoder framework for Tensorflow that can be used for Machine Translation, Text Summarization, Conversational Modeling, Image Captioning, and more.
- polyglot: A natural language pipeline that supports multilingual applications.
- textacy: NLP, before and after spaCy
- Glove-Python: A “toy” implementation of GloVe in Python. Includes a paragraph embedder.
- Bert As A Service: Client/Server package for sentence encoding, ie mapping a variable-length sentence to a fixed-length vector. Design intent to provide a scalable production ready service, also allowing researchers to apply BERT quickly.
- Keras-BERT: A Keras Implementation of BERT
- Paragraph embedding scripts and Pre-trained models: Scripts for training and testing paragraph vectors, with links to some pre-trained Doc2Vec and Word2Vec models
- Texthero Text preprocessing, representation and visualization from zero to hero.
Apache Tika: a content analysis tookilt.
Apache Spark: is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
- MLlib: MLlib is Spark's machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. Related to NLP there are methods available for LDA, Word2Vec, and TFIDF.
- LDA: latent Dirichlet allocation
- Word2Vec: is an Estimator which takes sequences of words representing documents and trains a Word2VecModel. The model maps each word to a unique fixed-size vector. The Word2VecModel transforms each document into a vector using the average of all words in the document
- TFIDF: term frequency-inverse document frequency
HDF5: an open source file format that supports large, complex, heterogeneous data. Requires no configuration.
- h5py: Python HDF5 package
Stanford CoreNLP: a suite of core NLP tools
- Also checkout http://corenlp.run for a hosted version of the CoreNLP server.
- Introduction to StanfordNLP: An Incredible State-of-the-Art NLP Library for 53 Languages (with Python code)
Stanford Parser: A probabilistic natural language parser.
Stanford POS Tagger: A Parts-of-Speech tagger.
Stanford Named Entity Recognizer: Recognizes proper nouns (things, places, organizations) and labels them as such.
Stanford Classifier: A softmax classifier.
Stanford OpenIE: Extracts relationships between words in a sentence (eg Mark Zuckerberg; founded; Facebook).
Stanford Topic Modeling Toolbox
MALLET: MAchine Learning for LanguagE Toolkit
- Github: https://github.com/mimno/Mallet
Apache OpenNLP: Machine learning based toolkit for text NLP.
Streamcrab: Real-Time, Twitter sentiment analyzer engine http:/www.streamcrab.com
TextRazor API: Extract Meaning from your Text.
fastText. Library for fast text representation and classification. Facebook.
Comparison of Top 6 Python NLP Libraries.
pyCaret's NLP Module. PyCaret is an open source, low-code machine learning library in Python that aims to reduce the cycle time from hypothesis to insights; also, PyCaret's Founder Moez Ali is a Smith Alumni - MMA 2020.

製品

Systran - Enterprise Translation Products
SAS Text Miner (Part of SAS Enterprise Miner)
SAS Sentiment Analysis
STATISTICA
- Text Mining (Big Data, Unstructured Data)
KNIME
RapidMiner
ゲート
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)
Crimson Hexagon
Stocktwits: Tap into the Pulse of Markets
Meltwater
CrowdFlower: AI for your business.
Lexalytics Sematria: API and Excel plugin.
Rosette Text Analytics: AI for Human Language
Alchemy API
Monkey Learn
LightTag Annotation Tool. Hosted annotation tool for teams.
UBIAI. Easy-to-use text annotation tool for teams with most comprehensive auto-annotation features. Supports NER, relations and document classification as well as OCR annotation for invoice labeling
Anafora: Free and open source web-based raw text annotation tool
brat: Rapid annotation tool.
Google's Colab: Ready-to-go Notebook environment that makes it easy to get up and running.
Lyrebird.ai: “Ultra-Realistic Voice Cloning and Text-to-Speech” recognition platform. This Canadian start-up has created a product/platform that syncs both voice cloning with text-to-speech. Lyrebird recognizes the intonations and voice patterns from audio recordings, and overlays text data input to recreate a text-to-speech audio file output from the selected voice pattern audio recording.
Ask Data by Tableau Software Inc.: In February 2019, Tableau released a new NLP feature service add-on to help assist existing Tableau platform users with retrieving quick and easy data visualizations to drive business intelligence insights. Similar to a search engine user interface, Tableau's Ask Data feature interface applies NLP from user text input to extract key words to find data analytics and business insights quickly on the Tableau Platform.
Dialogflow Google's Natural Language Platform used to integrate conversational user interfaces into mobile apps, web applications, bots, VRUs, etc.
Weka Easy-to-use, graphical Machine Learning Workbench including NLP capabilities.
Annotation Lab - Free End-to-End No-Code platform for text annotation and DL model training/tuning. Out-of-the-box support for Named Entity Recognition, Classification, Relation extraction and Assertion Status Spark NLP models. Unlimited support for users, teams, projects, documents.

雲

Microsoft Azure Text Analytics
Amazon Lex: A service for building conversational interfaces into any application using voice and text.
Amazon Comprehend
Google Cloud Natural Language
IBM Watson
- Video: How IBM Watson learns (3 minutes)
- Video: IBM Watson on Jeapardy! (10 minutes)
- Video: IBM Watson: The Science Behind an Answer (7 minutes)

Getting Data out of PDFs

Apache PDFBox
Tabula: A tool for liberating data tables locked inside PDF files.
PDFLayoutTextStripper: Converts a pdf file into a text file while keeping the layout of the original pdf.
pdftabextract: A set of tools for extracting tables from PDF files helping to do data mining on (OCR-processed) scanned documents.
SO: How to extract text from a PDF?
Tools for Extracting Data and Text from PDFs - A Review
How I used NLP (SpaCy) to screen Data Science Resumes
PyPDF2: PDF file manipulation (PDF to PDF).

Online Demos and Tools

MIT OpenNPT for neural machine translation and neural sequence modeling
Stanford Parser
Stanford CoreNLP
word2vec demo
Another word2vec demo
sense2vec: Semantic Analysis of the Reddit Hivemind
RegexPal: Great tool for testing out regular expressions.
AllenNLP Demo: Great demo using AllenNLP of everything from Named Entity Recognition to Textual Entailment.
Cognitive Computation Group - Part of Speech Tagging Demo These demos exhibit part-of-speech tagging, information extraction tasks etc.

データセット

UCI's Text Datasets. A collection of databases, domain theories, and data generators used by Machine Learning community.
data.world's Text Datasets
Awesome Public Datasets' Natural Languge
Insight Resources Datasets
Bing Sentiment Analysis
Consumer Complaint Database. From the Consumer Financial Protection Bureau.
Sentiment Labelled Sentences Data Set . Contains sentences labelled as "positive" or "negative", from imdb.com, amazon.com, and yelp.com.
Amazon product data
Data is Plural
FiveThirtyEight's datasets
r/datasets
Awesome public datasets
R's datasets package
200,000 Russian Troll Tweets - Released by Congress from Twitter suspended accounts and removed from public view.
Wikipedia: List of datasets for ML research
Google Dataset Search
Kaggle: UMICH SI650 - Sentiment Classification
Lee's Similarity Data Sets
Corpus of Presidential Speeches (CoPS) and a Clinton/Trump Corpus
15 Best Chatbot Datasets for Machine Learning
A Survey of Available Corpora for Building Data-Driven Dialogue Systems
nlp-datasets
Hate-speech-and-offensive-language
First Quora Dataset Release: Question Pairs
The Best 25 Datasets for Natural Language Processing
SWAG: A large-scale dataset created for Natural Language Inference (NLI) with common-sense reasoning.
MIMIC: an openly available dataset developed by the MIT Lab for Computational Physiology, comprising deidentified health data associated with ~40,000 critical care patients.
Clinical NLP Dataset Repository: A curated list of publicly-available clinical datasets for use in NLP research.
Million Song Lyrics
The Multi-Genre NLI Corpus
Twitter US Airline Sentiment
Million Song Lyrics: Dataset of song lyrics in Bag-Of-Words (BOW) format.
DuoRC – 186K unique question-answer pairs with evaluation script for Paraphrased Reading Comprehension
EDGAR Financial Statements: Reporting engine for financial and regulatory filings for companies worldwide. A huge repository of financial and company data for text mining.
American National Corpus Download
Santa Barbara Corpus of Spoken American English
Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
Awesome Twitter
The Big Bad NLP Database
CBC News Coronavirus articles
Huggingface

Lexicons for Sentiment Analysis

MPQA Lexicon
SentiWordNet
アフィン
Bing
nrc
vaderSentiment

その他

AskReddit: People with a mother tongue that isn't English, what are the most annoying things about the English language when you are trying to learn it?
Funny Video: Emotional Spell Check
How to win Kaggle competition based on NLP task, if you are not an NLP expert
Detecting Gang-Involved Escalation on Social Media Using Context Detecting Aggression and Loss in social media using CNN
Reasoning about Actions and State Changes by Injecting Commonsense Knowledge Incorporating global, commonsense constraints & biasing reading with preferences from large-scale corp
The Language of Hip Hop: A 2017 analysis by Matt Daniels of Pudding determining the popularity of various words in hip hop music and across artists.
Using Natural Language Processing for Automatic Detection of Plagiarism
Probabilistic Graphical Models: Lagrangian Relaxation Algorithms for Natural Language Processing
Human Emotion How to determine confidence level for manually labeled sentiment data?
A Complete Exploratory Data Analysis and Visualization for Text Data

Other Curated Lists

awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)
awesome-machine-learning
Awesome Deep Learning for Natural Language Processing (NLP)
Paper with Code: A fantastic list of recent machine learning papers on ArXiv, with links to code.
Chinese NLP Tools. 2019. List of tools for NLP in Chinese Language.
Association for Computational Linguistics Papers Anthology: The ACL Anthology currently hosts almost 50,000 papers on the study of computational linguistics and natural language processing. Includes all papers from recent conferences.
Over 150 of the Best Machine Learning, NLP, and Python Tutorials I've Found

貢献する

Contributions are more than welcome! Please read the contribution guidelines first.

ライセンス

To the extent possible under law, @stepthom has waived all copyright and related or neighboring rights to this work.

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-17
サイズ 31.39KB
から Github

text_mining_resources

スティーブおじさんのテキスト分析とNLPリソースの大きなリスト

目次

本

r

Python

一般的な

ブログ

ブログ記事、論文、ケーススタディ

一般的な

NLPのバイアス

スクレイピング

クリーニング

言葉を止めます

茎

次元削減

皮肉検出

ドキュメント分類

エンティティと情報抽出

クラスタリングとドキュメントの類似性を文書化します

コンセプト分析/トピックモデリング

感情分析

方法

課題

政治

株式市場

アプリケーション

ツールとテクノロジー

テキストの要約

機械翻訳

Q＆Aシステム、チャットボット

ファジーマッチング、確率的マッチング、レコードリンケージなど。

単語と文書の埋め込み

トランスと言語モデル

chatgpt

...教育で

深い学習

カプセルネットワーク

知識グラフ

主要なNLP会議

ベンチマーク

Online courses

Udemy

スタンフォード

Coursera

DataCamp

その他

APIs and Libraries

製品

雲

Getting Data out of PDFs

Online Demos and Tools

データセット

Lexicons for Sentiment Analysis

その他

Other Curated Lists

貢献する

ライセンス