การใช้งาน Textrank สำหรับการสรุปข้อความและการแยกคำหลักใน Python 3 พร้อมการปรับให้เหมาะสมกับฟังก์ชั่นความคล้ายคลึงกัน
การสรุปข้อความ:
>>> text = "" "การสรุปอัตโนมัติเป็นกระบวนการลดเอกสารข้อความด้วย โปรแกรมคอมพิวเตอร์เพื่อสร้างบทสรุปที่รักษาจุดที่สำคัญที่สุด ของเอกสารต้นฉบับ เนื่องจากปัญหาของการโอเวอร์โหลดข้อมูลเพิ่มขึ้นและเป็น ปริมาณข้อมูลเพิ่มขึ้นดังนั้นจึงมีความสนใจในการสรุปอัตโนมัติ - เทคโนโลยีที่สามารถทำให้สรุปที่สอดคล้องกันคำนึงถึงตัวแปรเช่น ความยาวสไตล์การเขียนและไวยากรณ์ ตัวอย่างของการใช้เทคโนโลยีการสรุป เป็นเครื่องมือค้นหาเช่น Google การสรุปเอกสารเป็นอีกเรื่องหนึ่ง "" " >>> จาก Summa Import Summarizer >>> พิมพ์ (Summarizer.summarize (ข้อความ)) 'การสรุปอัตโนมัติเป็นกระบวนการลดเอกสารข้อความด้วยคอมพิวเตอร์ โปรแกรมเพื่อสร้างบทสรุปที่ยังคงรักษาจุดที่สำคัญที่สุดของไฟล์ เอกสารต้นฉบับ '
การสกัดคำหลัก:
>>> จากคำหลักนำเข้า Summa >>> พิมพ์ (คำหลักคำสำคัญ (ข้อความ)) เอกสาร การสรุป การเขียน บัญชี
โปรดทราบว่าการแบ่งบรรทัดในอินพุตจะถูกใช้เป็นตัวคั่นประโยคดังนั้นอย่าลืมประมวลผลข้อความของคุณล่วงหน้า
ซอฟต์แวร์นี้มีอยู่ใน PYPI มันขึ้นอยู่กับ numpy และ scipy ห้องสมุด Python สองห้องสำหรับการคำนวณทางวิทยาศาสตร์ PIP จะติดตั้งโดยอัตโนมัติพร้อมกับ Summa:
PIP ติดตั้ง SUMMA
เพื่อประสิทธิภาพที่ดีขึ้นของการแยกคำหลักให้ติดตั้งรูปแบบ
การใช้งานบรรทัดคำสั่ง:
ไฟล์ textrank -t
กำหนดความยาวของบทสรุปเป็นสัดส่วนของข้อความ (มีอยู่ใน keywords ):
>>> จาก Summa.summarizer นำเข้าสรุป >>> สรุป (ข้อความอัตราส่วน = 0.2)
กำหนดความยาวของบทสรุปด้วยจำนวนคำที่เป็นคำศัพท์ (มีอยู่ใน keywords ):
>>> สรุป (ข้อความ, คำ = 50)
กำหนดภาษาข้อความอินพุต (มีอยู่ใน keywords )
ภาษาที่มีอยู่คือภาษาอาหรับ, เดนมาร์ก, ดัตช์, อังกฤษ, ฟินแลนด์, ฝรั่งเศส, เยอรมัน, ฮังการี, อิตาลี, นอร์เวย์, โปแลนด์, พอร์เตอร์, โปรตุเกส, โรมาเนีย, รัสเซีย, สเปนและสวีเดน:
>>> สรุป (ข้อความ, ภาษา = 'สเปน')
รับผลลัพธ์เป็นรายการ (มีอยู่ใน keywords ):
>>> สรุป (ข้อความ, split = true) ['การสรุปอัตโนมัติเป็นกระบวนการลดเอกสารข้อความด้วยก โปรแกรมคอมพิวเตอร์เพื่อสร้างบทสรุปที่ยังคงสำคัญที่สุด คะแนนของเอกสารต้นฉบับ ']
เพื่ออ้างถึงงานนี้:
@article {dblp: วารสาร/corr/barrioslaw16,
ผู้แต่ง = {Federico Barrios และ
federico l { '{o}} pez และ
Luis Argerich และ
Rosa Wachenchauzer}
title = {รูปแบบของฟังก์ชันความคล้ายคลึงกันของ textrank สำหรับการสรุปอัตโนมัติ}
journal = {corr}
volume = {abs/1602.03606}
ปี = {2016}
url = {http://arxiv.org/abs/1602.03606}
ArchivePrefix = {arxiv}
eprint = {1602.03606}
timestamp = {Wed, 07 มิ.ย. 2017 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16}
bibSource = {DBLP ชีวประวัติวิทยาศาสตร์วิทยาศาสตร์, https://dblp.org}
-
Summa เป็นซอฟต์แวร์โอเพ่นซอร์สที่เปิดตัวภายใต้ใบอนุญาต MIT (MIT)
ลิขสิทธิ์ (c) 2014 - ตอนนี้ Summa NLP