สารบัญ
โฮเมอร์เป็นแพ็คเกจ Python ที่สามารถช่วยให้ข้อความของคุณชัดเจนขึ้นเรียบง่ายและมีประโยชน์มากขึ้นสำหรับผู้อ่าน มันให้ข้อมูลเกี่ยวกับข้อความโดยรวมเช่นเดียวกับแต่ละย่อหน้า มันให้ข้อมูลเชิงลึกเกี่ยวกับความสามารถในการอ่าน, ความยาวของวรรค, ความยาวของประโยค, ประโยคเฉลี่ยต่อวรรค, คำเฉลี่ยในประโยค ฯลฯ นอกจากนี้ยังพยายามระบุคำที่คลุมเครือบางชนิด นอกจากนี้ยังติดตามความถี่ของคำ "และ" ในข้อความ (ข้อมูลเพิ่มเติมเกี่ยวกับสิ่งเหล่านี้ทั้งหมดดังต่อไปนี้ในส่วนกิตติกรรมประกาศ)
แพ็คเกจซอฟต์แวร์นี้เติบโตขึ้นจากความต้องการส่วนตัว เนื่องจากฉันไม่ใช่เจ้าของภาษาอังกฤษ แต่สนใจเขียนฉันจึงออกแบบและใช้โฮเมอร์เพื่อปรับปรุงการเขียนของฉัน ฉันหวังว่าคนอื่นจะพบว่ามีประโยชน์
โปรดทราบว่านี่ไม่ใช่คู่มือที่เข้มงวดในการควบคุมการเขียนของคุณ อย่างน้อยฉันก็ไม่ได้ใช้อย่างนั้น ฉันใช้มันเป็นแนวทางในการทำให้การเขียนของฉันง่ายที่สุดเท่าที่จะทำได้ ฉันมุ่งมั่นที่จะเขียนย่อหน้าและประโยคที่รัดกุมรวมทั้งใช้คำที่ไม่ชัดเจนน้อยลงและโฮเมอร์ก็ช่วยฉัน
ฉันใช้มันเพื่อวิเคราะห์บล็อกและบทความของฉันเท่านั้นและไม่ใช่คลังข้อความขนาดใหญ่ เนื่องจากซอฟต์แวร์นี้เป็นของใหม่คุณอาจพบข้อบกพร่องได้ซึ่งในกรณีนี้โปรดเปิดปัญหา/คำตอบแบบดึง
คุณสามารถใช้โฮเมอร์เป็นแพ็คเกจแบบสแตนด์อโลนหรือในบรรทัดคำสั่ง หากคุณเรียกใช้ในบรรทัดคำสั่งคุณสามารถรับสถิติทั่วไปในบทความหรือเรียงความของคุณรวมถึงสถิติย่อหน้า
การรันโฮเมอร์จากบรรทัดคำสั่งให้ข้อมูลเชิงลึกต่อไปนี้เกี่ยวกับบทความ/เรียงความ:
สถิติย่อหน้าชี้ให้เห็นข้อมูลต่อไปนี้สำหรับแต่ละย่อหน้า:
ฉันสร้างสิ่งนี้บน Python 3.4.5 ดังนั้นก่อนอื่นเราต้องติดตั้ง Python
บน Mac ฉันใช้ homebrew เพื่อติดตั้ง Python เช่นหนึ่งสามารถใช้คำสั่งนี้:
ในการติดตั้งบน Windows คุณสามารถดาวน์โหลดตัวติดตั้งได้จากที่นี่ เมื่อดาวน์โหลดตัวติดตั้งนี้สามารถเรียกใช้เพื่อการติดตั้งของ Python ให้เสร็จสมบูรณ์
สำหรับ Ubuntu คุณอาจพบว่าทรัพยากรนี้มีประโยชน์
ตอนนี้ถึงเวลาที่จะสร้างสภาพแวดล้อมเสมือนจริง (สมมติว่าคุณโคลนรหัสภายใต้ ~/code/homer)
บรรทัดแรกในตัวอย่างด้านบนสร้างสภาพแวดล้อมเสมือนจริงชื่อ Venv ภายใต้ ~/code/homer คำสั่งที่สองเปิดใช้งานสภาพแวดล้อมเสมือนจริง
ในกรณีที่คุณต้องการความช่วยเหลือเพิ่มเติมเกี่ยวกับการสร้างสภาพแวดล้อมเสมือนจริงทรัพยากรนี้สามารถพิสูจน์ได้ว่ามีประโยชน์
ติดตั้งโดยใช้ PIP:
~ /code/homer $ pip install homer-textและนั่นคือ ควรติดตั้งทุกอย่างเช่นไลบรารีที่จำเป็นแพ็คเกจ NLTK และ Homer_Text เอง
ก่อนที่จะใช้เป็นครั้งแรกตรวจสอบให้แน่ใจว่าคุณมีไฟล์พจนานุกรม NLTK ทั้งหมด:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )มีการจัดทำยูทิลิตี้บรรทัดคำสั่งภายใต้ไดเรกทอรีโฮเมอร์ นี่คือตัวอย่างที่แสดงวิธีใช้:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txtทั้งสอง -ชื่อและ -ตัวเลือกเป็นทางเลือกในขณะที่ file_path เป็นสิ่งจำเป็น
คุณยังสามารถใช้โฮเมอร์ในรหัสของคุณ นี่คือตัวอย่าง:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()ใช้แบบนี้:
> python analyse.py text_to_analyse.mdการทดสอบสามารถเรียกใช้จากไดเรกทอรีการทดสอบ
ผู้เขียน:
ผู้มีส่วนร่วม:
The Sense of Style ของ Steven Pinker: คู่มือผู้คิดในการเขียนในศตวรรษที่ 21 หนังสือเล่มนี้ให้ข้อมูลเชิงลึกเล็กน้อยแก่ฉัน นอกจากนี้ยังกระตุ้นให้ฉันรวมการติดตามคำที่คลุมเครือพุ่มไม้ที่ซับซ้อนและความเข้มข้น
Bankspeak:
ภาษาของรายงานธนาคารโลก 2489-2555: https://litlab.stanford.edu/literarylabpamphlet9.pdf แหล่งที่มานี้ยังให้ความคิดเล็กน้อยแก่ฉัน ความคิดที่จะติดตาม "และ" และคำที่คลุมเครือในข้อความถูกนำมาจากที่นี่
- "และ" ความถี่: โดยทั่วไปคือจำนวนครั้งที่คำว่า "และ" ใช้ในข้อความ (กำหนดเป็นเปอร์เซ็นต์ของข้อความทั้งหมด) ฉันพยายามเก็บไว้ภายใต้ 3 %
- คำที่คลุมเครือเป็นรายการคำที่ฉันรวบรวมหลังจากอ่านรายงานข้างต้น การใช้คำเหล่านี้โดยไม่จำเป็นหรือไม่ให้บริบทที่เหมาะสมสามารถทำให้ข้อความเป็นนามธรรมมากขึ้น เหล่านี้เป็นคำเช่น _derivative, มูลค่ายุติธรรม, พอร์ตโฟลิโอ, การประเมิน, กลยุทธ์, ความสามารถในการแข่งขัน, การปฏิรูป, การเติบโต, กำลังการผลิต, ความก้าวหน้า, ความมั่นคง, การป้องกัน, การเข้าถึง, ยั่งยืน ฯลฯ etc
ยินดีต้อนรับคำขอดึง สำหรับการเปลี่ยนแปลงครั้งใหญ่โปรดเปิดปัญหาก่อนเพื่อหารือเกี่ยวกับสิ่งที่คุณต้องการเปลี่ยนแปลง
โปรดตรวจสอบให้แน่ใจว่าได้อัปเดตการทดสอบตามความเหมาะสม นอกจากนี้เพิ่มชื่อของคุณภายใต้ส่วนผู้เขียนของไฟล์ readme
มิกซ์