nlp in practice
1.0.0
실제 세계 텍스트 데이터 문제를 해결하기 위해이 NLP, 텍스트 마이닝 및 머신 러닝 코드 샘플 및 도구를 사용하십시오.
첫 번째 열의 링크는 소스 코드와 함께 Subfolder/Repository로 이동합니다.
| 일 | 관련 기사 | 소스 유형 | 설명 |
|---|---|---|---|
| 대규모 문구 추출 | Phrase2Vec 기사 | 파이썬 스크립트 | PySpark를 사용하여 다량의 데이터에 대한 문구를 추출하십시오. 이 문구를 사용하여 텍스트에 주석을 달거나 다른 다운 스트림 작업에 문구를 사용하십시오. |
| Jupyter Notebook 및 Python Web Apps 용 Word Cloud | Word_cloud 기사 | 파이썬 스크립트 + 노트북 | Word Count 또는 TFIDF를 사용하여 최고 키워드를 시각화하십시오 |
| Gensim Word2Vec (데이터 세트 포함) | Word2Vec 기사 | 공책 | 원하는 결과를 얻으려면 Word2Vec으로 올바르게 작업하는 방법 |
| 파일과 단어 수를 스파크로 읽습니다 | 스파크 기사 | 파이썬 스크립트 | 단어 수 예를 들어 Pyspark를 사용하여 다른 형식의 파일을 읽는 방법 |
| TF-IDF 및 Sklearn으로 키워드 추출 (데이터 세트 포함) | TFIDF 기사 | 공책 | TF-IDF 및 Python 's Sklearn을 사용하여 텍스트에서 흥미로운 키워드를 추출하는 방법 |
| 텍스트 전처리 | 텍스트 전처리 기사 | 공책 | 텍스트 전처리를 수행하는 방법에 대한 몇 가지 코드 스 니펫. 줄기, 노이즈 제거, 레마 화 및 중지 단어 제거가 포함됩니다. |
| TFIDFTRANSFORMER 대 TFIDFVECTORIZER | TFIDFTRANSFORMER 및 TFIDFVECTORIZER 사용법 기사 | 공책 | tfidftransformer 및 tfidfvectorizer를 올바르게 사용하는 방법과 두 가지와 언제 사용 해야하는지의 차이. |
| 세대로 미리 훈련 된 단어 임베딩에 액세스합니다 | 미리 훈련 된 단어 임베딩 기사 | 공책 | Gensim을 사용하여 미리 훈련 된 장갑 및 Word2Vec 임베드에 액세스하는 방법 및 텍스트 유사성을 위해 이러한 임베딩을 어떻게 활용할 수 있는지에 대한 예 |
| 파이썬의 텍스트 분류 (뉴스 데이터 세트 포함) | 로지스틱 회귀 기사를 사용한 텍스트 분류 | 공책 | 텍스트 분류를 시작하십시오. 로지스틱 회귀를 사용하여 뉴스 분류를위한 텍스트 분류기를 구축하고 평가하는 방법을 배우십시오. |
| CountVectorizer 사용 예제 | CountVectorizer를 올바르게 사용하는 방법은 무엇입니까? 심층적 인 모습 기사 | 공책 | 단어 카운트 카운트를 컴퓨팅하는 것이 아니라 텍스트 데이터를 적절하게 전처리하고 텍스트 데이터 세트에서 추가 기능을 추출하도록 CountVectorizer 사용을 최대화하는 방법을 알아보십시오. |
| HashingVectorizer 예제 | HashingVectorizer 대 CountVectorizer 기사 | 공책 | HashingVectorizer와 CountVectorizer의 차이점과 사용시기를 배우십시오. |
| cbow vs. skipgram | Word2Vec : Cbow, Skipgram 및 Skipgramsi 기사의 비교 | 공책 | 세 가지 임베딩 아키텍처의 빠른 비교. |
이 저장소는 Kavita Ganesan에 의해 유지됩니다. LinkedIn 또는 Twitter에서 나와 연결하십시오.