พื้นผิว: NLP ก่อนและหลัง Spacy
textacy เป็นไลบรารี Python สำหรับการดำเนินงานการประมวลผลภาษาธรรมชาติ (NLP) ที่หลากหลายซึ่งสร้างขึ้นบนห้องสมุด Spacy ที่มีประสิทธิภาพสูง ด้วยปัจจัยพื้นฐาน --- โทเค็นการติดแท็กส่วนหนึ่งของคำพูดการแยกวิเคราะห์การพึ่งพา ฯลฯ --- มอบหมายไปยังห้องสมุดอื่น textacy จะมุ่งเน้นไปที่งานที่มาก่อนและตามหลัง
คุณสมบัติ
- เข้าถึงและขยายฟังก์ชันหลักของ Spacy สำหรับการทำงานกับเอกสารหนึ่งหรือหลายฉบับด้วยวิธีการที่สะดวกและส่วนขยายที่กำหนดเอง
- โหลดชุดข้อมูลที่เตรียมไว้ด้วยเนื้อหาข้อความและข้อมูลเมตาตั้งแต่การกล่าวสุนทรพจน์ในรัฐสภาไปจนถึงวรรณกรรมประวัติศาสตร์ไปจนถึงความคิดเห็น Reddit
- ทำความสะอาดทำให้เป็นมาตรฐานและสำรวจข้อความดิบก่อนที่จะประมวลผลด้วยเครื่องราง
- แยกข้อมูลที่มีโครงสร้างจากเอกสารที่ประมวลผลรวมถึง N-GRAM, เอนทิตี, ตัวย่อ, keyterms และ SVO triples
- เปรียบเทียบสตริงและลำดับโดยใช้ตัวชี้วัดความคล้ายคลึงกันที่หลากหลาย
- โทเค็นและ vectorize เอกสารจากนั้นฝึกอบรมตีความและแสดงภาพโมเดลหัวข้อ
- คำนวณความสามารถในการอ่านข้อความและสถิติความหลากหลายของคำศัพท์รวมถึงระดับเกรด Flesch-Kincaid, ความสะดวกในการอ่านแบบหลายภาษา
... และอีกมากมาย!
ลิงค์
- ดาวน์โหลด: https://pypi.org/project/textacy
- เอกสาร: https://textacy.readthedocs.io
- ซอร์สโค้ด: https://github.com/chartbeat-labs/textacy
- Bug Tracker: https://github.com/chartbeat-labs/textacy/issues
ผู้ดูแล
Howdy, y'all