nlp in practice
1.0.0
Utilice estas muestras y herramientas de código NLP, minería de texto y código de aprendizaje automático para resolver problemas de datos de texto del mundo real.
Los enlaces en la primera columna lo llevan a la subcarpeta/repositorio con el código fuente.
| Tarea | Artículo relacionado | Tipo de fuente | Descripción |
|---|---|---|---|
| Extracción de frases a gran escala | Artículo de frase2Vec | guión de pitón | Extraiga frases para grandes cantidades de datos utilizando Pyspark. Anotar texto usando estas frases o use las frases para otras tareas aguas abajo. |
| Word Cloud para aplicaciones web de Jupyter y Python | Word_cloud Artículo | Python script + cuaderno | Visualice las mejores palabras clave utilizando recuentos de palabras o TFIDF |
| Gensim Word2Vec (con conjunto de datos) | Word2Vec Artículo | computadora portátil | Cómo trabajar correctamente con Word2Vec para obtener los resultados deseados |
| Leer archivos y contar palabras con Spark | artículo de chispa | guión de pitón | Cómo leer archivos de diferentes formatos usando Pyspark con un ejemplo de recuento de palabras |
| Extracción de palabras clave con TF-IDF y Sklearn (con conjunto de datos) | artículo de TFIDF | computadora portátil | Cómo extraer palabras clave interesantes del texto usando TF-IDF y Sklearn de Python |
| Preprocesamiento de texto | Artículo de preprocesamiento de texto | computadora portátil | Algunos fragmentos de código sobre cómo realizar el preprocesamiento de texto. Incluye derivación, eliminación de ruido, lemmatización y eliminación de palabras de parada. |
| Tfidftransformer vs. tfidfvectorizer | TFIDFTRANSFORSER y TFIDFVectorizer Artículo | computadora portátil | Cómo usar TFIDFTransformer y TFIDFVectorizer correctamente y la diferencia entre los dos y qué usar cuando. |
| Acceso a las incrustaciones de palabras previamente capacitadas con Gensim | Artículo de incrustaciones de palabras previas al entrenamiento | computadora portátil | Cómo acceder al guante previamente capacitado y las incrustaciones de Word2Vec utilizando Gensim y un ejemplo de cómo se pueden aprovechar estos incrustaciones para la similitud de texto |
| Clasificación de texto en Python (con un conjunto de datos de noticias) | Clasificación de texto con artículo de regresión logística | computadora portátil | Comience con la clasificación de texto. Aprenda a construir y evaluar un clasificador de texto para la clasificación de noticias utilizando la regresión logística. |
| Ejemplos de uso de CountVectorizer | ¿Cómo usar correctamente CountVectorizer? Un artículo de aspecto en profundidad | computadora portátil | Aprenda cómo maximizar el uso de CountVectorizer de manera que no solo esté calculando los recuentos de palabras, sino también preprocesando sus datos de texto de manera adecuada, así como extrayendo características adicionales de su conjunto de datos de texto. |
| Ejemplos de HashingVectorizer | HashingVectorizer vs. Artículo de CondVectorizer | computadora portátil | Aprenda las diferencias entre HashingVectorizer y CountVectorizer y cuándo usar cuál. |
| CBOW vs. Skipgram | Word2Vec: una comparación entre el artículo de CBOW, Skipgram y Skipgramsi | computadora portátil | Una comparación rápida de la arquitectura de tres incrustaciones. |
Este repositorio es mantenido por Kavita Ganesan. Conéctese conmigo en LinkedIn o Twitter.