nlp in practice
1.0.0
これらのNLP、テキストマイニング、機械学習コードサンプルとツールを使用して、実際のテキストデータの問題を解決します。
最初の列のリンクは、ソースコードを使用してサブフォルダー/リポジトリに移動します。
| タスク | 関連記事 | ソースタイプ | 説明 |
|---|---|---|---|
| 大規模なフレーズ抽出 | phrase2vecの記事 | Pythonスクリプト | Pysparkを使用して、大量のデータのフレーズを抽出します。これらのフレーズを使用してテキストに注釈を付けたり、他の下流タスクにフレーズを使用したりします。 |
| JupyterノートブックおよびPython Webアプリの単語クラウド | word_cloudの記事 | Pythonスクリプト +ノートブック | ワードカウントまたはTFIDFを使用して、トップキーワードを視覚化します |
| gensim word2vec(データセット付き) | word2vec記事 | ノート | 希望の結果を得るためにword2vecで正しく作業する方法 |
| Sparkでファイルと単語数を読み取ります | スパーク記事 | Pythonスクリプト | 単語数の例でpysparkを使用して、さまざまな形式のファイルを読み取る方法 |
| TF-IDFとSklearnを使用してキーワードを抽出する(データセット付き) | TFIDF記事 | ノート | TF-IDFとPythonのSklearnを使用してテキストから興味深いキーワードを抽出する方法 |
| テキストの前処理 | テキストの前処理記事 | ノート | テキストの前処理を実行する方法に関するいくつかのコードスニペット。ステム、ノイズの除去、lemmatization、および停止単語の除去が含まれます。 |
| tfidftransformer vs. tfidfvectorizer | tfidftransformerおよびtfidfvectorizerの使用記事 | ノート | tfidftransformerとtfidfvectorizerを正しく使用する方法と、2つの違いといつ使用するか。 |
| Gensimを使用した事前に訓練された単語埋め込みにアクセスします | 事前に訓練されたWord Embeddingsの記事 | ノート | Gensimを使用して事前に訓練されたグローブとWord2Vecエンミングにアクセスする方法と、テキストの類似性のためにこれらの埋め込みを活用する方法の例 |
| Pythonでのテキスト分類(ニュースデータセット付き) | ロジスティック回帰記事によるテキスト分類 | ノート | テキスト分類を始めましょう。ロジスティック回帰を使用して、ニュース分類のためにテキスト分類器を構築および評価する方法を学びます。 |
| CountVectorizerの使用例 | CountVectorizerを正しく使用する方法は?詳細な外観の記事 | ノート | CountVectorizerの使用を最大化する方法を学び、単語のカウントを計算するだけでなく、テキストデータを適切に前処理し、テキストデータセットから追加機能を抽出します。 |
| HashingVectorizerの例 | HashingVectorizer Vs. CountVectorizerの記事 | ノート | HashingVectorizerとCountVectionizerの違いと、いつ使用するかを学びます。 |
| Cbow vs. Skipgram | word2vec:Cbow、Skipgram、Skipgramsiの記事の比較 | ノート | 3つの埋め込みアーキテクチャの簡単な比較。 |
このリポジトリは、Kavita Ganesanによって維持されています。 LinkedInまたはTwitterで私とつながります。