Isi
Homer adalah paket Python yang dapat membantu membuat teks Anda lebih jelas, sederhana dan bermanfaat bagi pembaca. Ini memberikan informasi tentang teks keseluruhan serta pada paragraf individu. Ini memberikan wawasan tentang keterbacaan, panjang paragraf, panjang kalimat, kalimat rata -rata per paragraf, kata -kata rata -rata dalam sebuah kalimat, dll. Ia juga mencoba mengidentifikasi jenis kata -kata yang tidak jelas tertentu. Ini juga melacak frekuensi "dan" kata -kata dalam teks. (Informasi lebih lanjut tentang semua ini berikut di bagian Ucapan Terima Kasih.)
Paket perangkat lunak ini tumbuh dari kebutuhan pribadi. Karena saya bukan penutur asli bahasa Inggris tetapi tertarik untuk menulis, saya merancang dan telah menggunakan Homer untuk meningkatkan tulisan saya. Saya berharap orang lain akan berguna.
Harap dicatat bahwa ini bukan panduan yang ketat untuk mengendalikan tulisan Anda. Setidaknya, saya tidak menggunakannya seperti itu. Saya menggunakannya sebagai panduan untuk membuat tulisan saya sesederhana mungkin. Saya berusaha untuk menulis paragraf dan kalimat yang ringkas serta menggunakan lebih sedikit kata yang tidak jelas, dan Homer telah membantu saya.
Saya hanya menggunakannya untuk menganalisis blog dan esai saya dan bukan kumpulan teks besar. Karena perangkat lunak ini baru, Anda mungkin menemukan bug, dalam hal ini jangan ragu untuk membuka masalah/permintaan pull.
Anda dapat menggunakan Homer sebagai paket yang berdiri sendiri atau pada baris perintah. Jika Anda menjalankannya di baris perintah, Anda bisa mendapatkan statistik umum di artikel atau esai Anda serta statistik paragraf.
Menjalankan Homer dari baris perintah memberikan wawasan berikut tentang artikel/esai:
Statistik paragraf menunjukkan informasi berikut untuk setiap paragraf:
Saya membangun ini di Python 3.4.5. Jadi pertama -tama kita perlu menginstal python.
Di Mac, saya menggunakan homebrew untuk menginstal python misalnya seseorang dapat menggunakan perintah ini:
Untuk menginstal di Windows, Anda dapat mengunduh penginstal dari sini. Setelah diunduh penginstal ini dapat dijalankan untuk menyelesaikan instalasi Python.
Untuk Ubuntu Anda mungkin menganggap sumber daya ini bermanfaat.
Sekarang saatnya membuat lingkungan virtual (dengan asumsi Anda mengkloning kode di bawah ~/kode/homer).
Baris pertama dalam cuplikan di atas menciptakan lingkungan virtual bernama VENV di bawah ~/kode/homer. Perintah kedua mengaktifkan lingkungan virtual.
Jika Anda membutuhkan lebih banyak bantuan untuk menciptakan lingkungan virtual, sumber daya ini dapat terbukti bermanfaat.
Instal menggunakan PIP:
~ /code/homer $ pip install homer-textDan itu saja. Ini harus menginstal semua perpustakaan yang diperlukan, paket NLTK dan homer_text sendiri.
Sebelum menggunakannya untuk pertama kalinya, pastikan Anda memiliki semua file kamus NLTK:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )Utilitas baris perintah, di bawah direktori Homer, telah disediakan. Berikut adalah contoh yang menunjukkan cara menggunakannya:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txtBaik - -name dan --Author adalah opsional sedangkan File_Path wajib.
Anda juga dapat menggunakan Homer dalam kode Anda. Inilah contohnya:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()Gunakan seperti ini:
> python analyse.py text_to_analyse.mdTes dapat dijalankan dari direktori tes.
Pengarang:
Kontributor:
Steven Pinker's The Sense of Style: Panduan Orang yang Berpikir untuk Menulis di Abad ke -21. Buku ini memberi saya beberapa wawasan. Itu juga mendorong saya untuk memasukkan pelacakan kata -kata yang tidak jelas, hedger kompleks dan intensifier.
Bankspeak:
Bahasa Laporan Bank Dunia, 1946–2012: https://litlab.stanford.edu/literarylabpamphlet9.pdf. Sumber ini juga memberi saya beberapa ide. Gagasan untuk melacak "dan" dan kata -kata samar dalam teks diambil dari sini.
- "Dan" frekuensi: Pada dasarnya itu adalah berapa kali kata "dan" digunakan dalam teks (diberikan sebagai persentase dari total teks). Saya mencoba menyimpannya di bawah 3 %.
- Kata -kata yang tidak jelas adalah daftar kata -kata yang saya kumpulkan setelah membaca laporan di atas. Menggunakan kata -kata ini tidak perlu, atau tanpa memberi mereka konteks yang tepat, dapat membuat teks lebih abstrak. Ini adalah kata -kata seperti _derivatif, nilai wajar, portofolio, evaluasi, strategi, daya saing, reformasi, pertumbuhan, kapasitas, kemajuan, stabilitas, perlindungan, akses, berkelanjutan, dll .__
Permintaan tarik dipersilakan. Untuk perubahan besar, buka masalah terlebih dahulu untuk membahas apa yang ingin Anda ubah.
Pastikan untuk memperbarui tes yang sesuai. Juga, tambahkan nama Anda di bawah bagian penulis file ReadMe.
Mit