nlp in practice
1.0.0
ใช้ NLP การขุดข้อความและตัวอย่างรหัสการเรียนรู้ของเครื่องและเครื่องมือเพื่อแก้ปัญหาข้อมูลข้อความในโลกแห่งความเป็นจริง
ลิงก์ในคอลัมน์แรกจะนำคุณไปยังโฟลเดอร์ย่อย/ที่เก็บด้วยซอร์สโค้ด
| งาน | บทความที่เกี่ยวข้อง | ประเภทต้นทาง | คำอธิบาย |
|---|---|---|---|
| การสกัดวลีขนาดใหญ่ | บทความ PHRASE2VEC | สคริปต์ Python | แยกวลีสำหรับข้อมูลจำนวนมากโดยใช้ pyspark ข้อความใส่คำอธิบายประกอบโดยใช้วลีเหล่านี้หรือใช้วลีสำหรับงานดาวน์สตรีมอื่น ๆ |
| Word Cloud สำหรับ Jupyter Notebook และ Python Web Apps | บทความ Word_Cloud | Python Script + Notebook | แสดงภาพคำหลักด้านบนโดยใช้จำนวนคำหรือ tFIDF |
| Gensim Word2vec (พร้อมชุดข้อมูล) | บทความ Word2Vec | สมุดบันทึก | วิธีการทำงานอย่างถูกต้องกับ Word2vec เพื่อให้ได้ผลลัพธ์ที่ต้องการ |
| การอ่านไฟล์และนับคำด้วย Spark | บทความประกาย | สคริปต์ Python | วิธีอ่านไฟล์ของรูปแบบต่าง ๆ โดยใช้ pyspark ด้วยตัวอย่างการนับคำ |
| การแยกคำหลักด้วย TF-IDF และ Sklearn (พร้อมชุดข้อมูล) | บทความ TFIDF | สมุดบันทึก | วิธีแยกคำหลักที่น่าสนใจจากข้อความโดยใช้ Sklearn ของ TF-IDF และ Python |
| การประมวลผลข้อความล่วงหน้า | บทความการประมวลผลข้อความล่วงหน้า | สมุดบันทึก | ตัวอย่างโค้ดสองสามตัวอย่างเกี่ยวกับวิธีการประมวลผลข้อความล่วงหน้า รวมถึงการถอนเสียงการกำจัดเสียงรบกวน lemmatization และหยุดการกำจัดคำ |
| TFIDFTransformer vs. TFIDFVectorizer | บทความการใช้งาน TFIDFTRANSFORMER และ TFIDFVECTIONIZER | สมุดบันทึก | วิธีใช้ TFIDFTransformer และ TFIDFVectorizer อย่างถูกต้องและความแตกต่างระหว่างสองและสิ่งที่จะใช้เมื่อ |
| การเข้าถึงการฝังคำที่ผ่านการฝึกอบรมมาก่อนด้วย gensim | บทความฝังคำที่ผ่านการฝึกอบรมมาก่อน | สมุดบันทึก | วิธีการเข้าถึงถุงมือที่ผ่านการฝึกอบรมมาก่อนและ Word2VEC Embedding |
| การจำแนกประเภทข้อความใน Python (พร้อมชุดข้อมูลข่าว) | การจำแนกประเภทข้อความด้วยบทความการถดถอยโลจิสติก | สมุดบันทึก | เริ่มต้นด้วยการจำแนกข้อความ เรียนรู้วิธีการสร้างและประเมินตัวจําแนกข้อความสำหรับการจำแนกข่าวโดยใช้การถดถอยโลจิสติก |
| ตัวอย่างการใช้งาน CountVectorizer | วิธีใช้ CountVectorizer อย่างถูกต้อง? บทความดูเชิงลึก | สมุดบันทึก | เรียนรู้วิธีเพิ่มการใช้ CountVectorizer ให้สูงสุดซึ่งคุณไม่ได้เป็นเพียงแค่การคำนวณจำนวนคำ แต่ยังประมวลผลข้อมูลข้อความของคุณล่วงหน้าอย่างเหมาะสมรวมถึงการแยกคุณสมบัติเพิ่มเติมจากชุดข้อมูลข้อความของคุณ |
| ตัวอย่าง HashingVectorizer | HashingVectorizer เทียบกับ บทความ CountVectorizer | สมุดบันทึก | เรียนรู้ความแตกต่างระหว่าง HashingVectorizer และ CountVectorizer และเมื่อใดที่ควรใช้ |
| cbow กับ skipgram | Word2vec: การเปรียบเทียบระหว่าง CBOW, SkipGram และ SkipGramsi บทความ | สมุดบันทึก | การเปรียบเทียบอย่างรวดเร็วของสถาปัตยกรรม Embeddings ทั้งสาม |
พื้นที่เก็บข้อมูลนี้ได้รับการดูแลโดย Kavita Ganesan เชื่อมต่อกับฉันบน LinkedIn หรือ Twitter