Inhalt
Homer ist ein Python -Paket, mit dem Ihr Text für den Leser klarer, einfacher und nützlicher wird. Es enthält Informationen zu einem Gesamttext sowie zu einzelnen Absätzen. Es gibt Einblicke in die Lesbarkeit, die Länge der Absätze, die Länge der Sätze, die durchschnittlichen Sätze pro Absatz, durchschnittliche Wörter in einem Satz usw. Es versucht auch, bestimmte Arten von vagen Wörtern zu identifizieren. Es verfolgt auch die Frequenz von "und" Wörtern im Text. (Weitere Informationen zu all diesen folgen im Abschnitt "Anerkennung".)
Dieses Softwarepaket entstand aus einem persönlichen Bedarf. Da ich kein englischer Muttersprachler bin, aber an dem Schreiben interessiert bin, habe ich Homer entworfen und benutze, um mein Schreiben zu verbessern. Ich hoffe, andere werden es nützlich finden.
Bitte beachten Sie, dass dies kein strenger Leitfaden für die Kontrolle Ihres Schreibens ist. Zumindest benutze ich es nicht so. Ich benutze es als Leitfaden, um mein Schreiben so einfach wie möglich zu machen. Ich bemühe mich, kurze Absätze und Sätze zu schreiben und weniger unklare Wörter zu verwenden, und Homer hat mir geholfen.
Ich habe es nur verwendet, um meine Blogs und Aufsätze zu analysieren und nicht den großen Textkorpus. Da diese Software neu ist, können Sie Fehler erkennen. In diesem Fall können Sie Probleme/Pull-Requests gerne öffnen.
Sie können Homer als eigenständiges Paket oder in der Befehlszeile verwenden. Wenn Sie es in der Befehlszeile ausführen, können Sie allgemeine Statistiken zu Ihrem Artikel oder Aufsatz sowie Absatzstatistiken erhalten.
Das Ausführen von Homer aus der Befehlszeile gibt die folgenden Erkenntnisse in den Artikel/Aufsatz:
Absatzstatistiken weisen auf die folgenden Informationen für jeden Absatz hin:
Ich habe dies auf Python 3.4.5 gebaut. Also müssen wir zuerst Python installieren.
Auf Mac habe ich Homebrew verwendet, um Python zu installieren, z. B. kann man diesen Befehl verwenden:
Um unter Windows zu installieren, können Sie den Installationsprogramm hier herunterladen. Nach dem Herunterladen kann dieser Installateur ausgeführt werden, um die Python -Installation zu vervollständigen.
Für Ubuntu finden Sie diese Ressource möglicherweise nützlich.
Jetzt ist es Zeit, eine virtuelle Umgebung zu erstellen (vorausgesetzt, Sie haben den Code unter ~/code/homer kloniert).
Die erste Zeile im obigen Snippet erstellt eine virtuelle Umgebung namens Venv unter ~/code/homer. Der zweite Befehl aktiviert die virtuelle Umgebung.
Falls Sie mehr Hilfe beim Erstellen einer virtuellen Umgebung benötigen, kann sich diese Ressource als nützlich erweisen.
Mit PIP installieren:
~ /code/homer $ pip install homer-textUnd das war's. Es sollte alles installieren, was IE erforderliche Bibliotheken, NLTK -Pakete und HOMER_TEXT selbst installieren.
Bevor Sie es zum ersten Mal verwenden, stellen Sie sicher, dass Sie alle NLTK -Wörterbuchdateien haben:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )Ein Befehlszeilen -Dienstprogramm unter dem Homer -Verzeichnis wurde bereitgestellt. Hier ist ein Beispiel, das zeigt, wie man es benutzt:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txtSowohl --Name als auch --Author sind optional, während Datei_Path obligatorisch ist.
Sie können Homer auch in Ihrem Code verwenden. Hier ist ein Beispiel:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()Verwenden Sie es so:
> python analyse.py text_to_analyse.mdTests können aus dem Testverzeichnis durchgeführt werden.
Autor:
Mitwirkende:
Steven Piners The Sinne of Style: Der Leitfaden der Denkperson zum Schreiben im 21. Jahrhundert. Dieses Buch gab mir einige Einblicke. Es veranlasste mich auch, die Nachverfolgung von vagen Wörtern, komplexen Hedgers und Verstärkern einzuschließen.
Bankspeak:
Die Sprache der Weltbankberichte, 1946–2012: https://litlab.stanford.edu/literarylabpamphlet9.pdf. Diese Quelle gab mir auch ein paar Ideen. Die Idee, "und" und die vagen Wörter in einem Text zu verfolgen, wurde von hier aus übernommen.
- "Und" Frequenz: Grundsätzlich ist es die Anzahl der mit dem Wort "und" wird im Text verwendet (als Prozentsatz des gesamten Textes angegeben). Ich versuche es unter 3 %zu halten.
- Vage Wörter sind eine Liste von Wörtern, die ich nach dem Lesen des obigen Berichts zusammengestellt habe. Wenn Sie diese Wörter unnötig oder ohne ihnen den richtigen Kontext zu geben, kann ein Text abstrakter werden. Dies sind Wörter wie _derivat, beizulegener Wert, Portfolio, Bewertung, Strategie, Wettbewerbsfähigkeit, Reform, Wachstum, Kapazität, Fortschritt, Stabilität, Schutz, Zugang, nachhaltig usw._______s
Pull -Anfragen sind willkommen. Für wichtige Änderungen öffnen Sie zuerst ein Problem, um zu besprechen, was Sie ändern möchten.
Bitte stellen Sie sicher, dass Sie nach Bedarf Tests aktualisieren. Fügen Sie auch Ihren Namen im Abschnitt Autoren der Readme -Datei hinzu.
MIT