nlp in practice
1.0.0
Utilisez ces échantillons et outils de code NLP, d'extraction de texte et d'apprentissage automatique pour résoudre les problèmes de données texte du monde réel.
Les liens de la première colonne vous emmènent au sous-dossier / référentiel avec le code source.
| Tâche | Article connexe | Type de source | Description |
|---|---|---|---|
| Extraction de phrases à grande échelle | Article de phrase2vec | script python | Extraire des phrases pour de grandes quantités de données à l'aide de Pyspark. Annotez du texte à l'aide de ces phrases ou utilisez les phrases pour d'autres tâches en aval. |
| Word Cloud pour Jupyter Notebook et Python Web Apps | Article Word_Cloud | script python + cahier | Visualisez les meilleurs mots clés en utilisant des comptes de mots ou TFIDF |
| Gensim word2vec (avec ensemble de données) | Article Word2Vec | carnet de notes | Comment travailler correctement avec Word2Vec pour obtenir les résultats souhaités |
| Lire des fichiers et le nombre de mots avec Spark | article d'étincelles | script python | Comment lire des fichiers de différents formats à l'aide de Pyspark avec un exemple de nombre de mots |
| Extraction de mots clés avec TF-IDF et Sklearn (avec ensemble de données) | Article TFIDF | carnet de notes | Comment extraire des mots clés intéressants à partir de texte à l'aide de TF-IDF et de Sklearn de Python |
| Prétraitement du texte | Article de prétraitement du texte | carnet de notes | Quelques extraits de code sur la façon d'effectuer le prétraitement du texte. Comprend la tige, l'élimination du bruit, la lemmatisation et la suppression des mots d'arrêt. |
| Tfidftransformateur vs tfidfvectorizer | TFIDFTRANSORGAGE ET TFIDFVEVERCICKINT UTILISATION ARTICLE | carnet de notes | Comment utiliser correctement TFIDFTransformateur et TFIDFVectorizer et la différence entre les deux et ce qu'il faut utiliser quand. |
| Accéder aux incorporations de mots pré-formées avec Gensim | Article d'intégration de mots pré-formé | carnet de notes | Comment accéder à des incorporations pré-formées sur les gants et Word2Vec à l'aide de Gensim et un exemple de la façon dont ces intérêts peuvent être exploités pour la similitude du texte |
| Classification du texte dans Python (avec un ensemble de données d'actualités) | Classification du texte avec article de régression logistique | carnet de notes | Commencez avec la classification du texte. Apprenez à construire et à évaluer un classificateur de texte pour la classification des nouvelles à l'aide de la régression logistique. |
| Exemples d'utilisation du countvectorizer | Comment utiliser correctement Countvectrizer? Un article de look approfondi | carnet de notes | Apprenez à maximiser l'utilisation de Countvectrizer de telle sorte que vous ne composez pas seulement le nombre de mots, mais aussi le prétraitement de vos données de texte de manière appropriée ainsi que l'extraction de fonctionnalités supplémentaires de votre ensemble de données de texte. |
| Exemples de Vectorizer Hashing | Hashingvectizer vs. Article de countvectriseur | carnet de notes | Apprenez les différences entre Hashingvectrizer et Countvectrizer et quand utiliser lequel. |
| Cbow vs skipgram | Word2Vec: une comparaison entre CBOW, Skipgram & Skipgramsi Article | carnet de notes | Une comparaison rapide de l'architecture des trois intégres. |
Ce référentiel est maintenu par Kavita Ganesan. Connectez-vous avec moi sur LinkedIn ou Twitter.