Contenu
Homer est un package Python qui peut aider à rendre votre texte plus clair, simple et utile pour le lecteur. Il fournit des informations sur un texte global ainsi que sur les paragraphes individuels. Il donne un aperçu de la lisibilité, de la durée des paragraphes, de la durée des phrases, des phrases moyennes par paragraphe, des mots moyens dans une phrase, etc. Il essaie également d'identifier certains types de mots vagues. Il suit également la fréquence des mots "et" dans le texte. (Plus d'informations sur toutes ces suit dans la section Remerciements.)
Ce progiciel est né d'un besoin personnel. Comme je ne suis pas un orateur anglais natif mais que je suis intéressé par l'écriture, j'ai conçu et utilisé Homer pour améliorer mon écriture. J'espère que d'autres le trouveront utile.
Veuillez noter que ce n'est pas un guide strict pour contrôler votre écriture. Au moins, je ne l'utilise pas de cette façon. Je l'utilise comme guide pour rendre mon écriture aussi simple que possible. Je m'efforce d'écrire des paragraphes et des phrases concises ainsi que d'utiliser moins de mots peu clairs, et Homer m'a aidé.
Je ne l'ai utilisé que pour analyser mes blogs et essais et non le grand corpus de texte. Comme ce logiciel est nouveau, vous pourriez bien repérer les bogues, auquel cas n'hésitez pas à ouvrir des problèmes / requêtes de traction.
Vous pouvez utiliser Homer comme un package autonome ou sur la ligne de commande. Si vous l'exécutez sur la ligne de commande, vous pouvez obtenir des statistiques générales sur votre article ou votre essai ainsi que les statistiques de paragraphe.
L'exécution de Homer à partir de la ligne de commande donne les informations suivantes sur l'article / essai:
Les statistiques des paragraphes soulignent les informations suivantes pour chaque paragraphe:
J'ai construit ceci sur Python 3.4.5. Nous devons donc d'abord installer Python.
Sur Mac, j'ai utilisé Homebrew pour installer Python, par exemple, on peut utiliser cette commande:
Pour installer sur Windows, vous pouvez télécharger l'installateur à partir d'ici. Une fois téléchargé, ce programme d'installation peut être exécuté pour terminer l'installation de Python.
Pour Ubuntu, vous pourriez trouver cette ressource utile.
Il est maintenant temps de créer un environnement virtuel (en supposant que vous avez cloné le code sous ~ / code / homer).
La première ligne de l'extrait ci-dessus crée un environnement virtuel nommé Venv sous ~ / code / homer. La deuxième commande active l'environnement virtuel.
Dans le cas où vous avez besoin de plus d'aide pour créer un environnement virtuel, cette ressource peut s'avérer utile.
Installer à l'aide de PIP:
~ /code/homer $ pip install homer-textEt c'est tout. Il devrait installer tout, c'est-à-dire les bibliothèques requises, les packages NLTK et Homer_Text lui-même.
Avant de l'utiliser pour la première fois, assurez-vous que vous disposez de tous les fichiers de dictionnaire NLTK:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )Un utilitaire de ligne de commande, dans le cadre du répertoire Homer, a été fourni. Voici un exemple montrant comment l'utiliser:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt- Name et - Author sont facultatifs tandis que File_Path est obligatoire.
Vous pouvez également utiliser Homer dans votre code. Voici un exemple:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()Utilisez-le comme ceci:
> python analyse.py text_to_analyse.mdLes tests peuvent être exécutés à partir du répertoire des tests.
Auteur:
Contributeurs:
Le sens du style de Steven Pinker: le guide de la personne pensée sur l'écriture au 21e siècle. Ce livre m'a donné pas mal d'informations. Cela m'a également incité à inclure le suivi des mots vagues, des couvertures complexes et des intensificateurs.
Bankspeak:
The Language of World Bank Reports, 1946-2012: https://litlab.stanford.edu/literarylabpamphlet9.pdf. Cette source m'a également donné quelques idées. L'idée de garder une trace de "et" et les mots vagues dans un texte a été pris à partir d'ici.
- "et" Fréquence: en gros, c'est le nombre de fois le mot "et" est utilisé dans le texte (donné en pourcentage du texte total). J'essaie de le garder sous 3%.
- Vague Words est une liste de mots que j'ai compilés après avoir lu le rapport ci-dessus. L'utilisation de ces mots inutilement, ou sans leur donner le contexte approprié, peut rendre un texte plus abstrait. Ce sont des mots tels que _derivative, la juste valeur, le portefeuille, l'évaluation, la stratégie, la compétitivité, la réforme, la croissance, la capacité, le progrès, la stabilité, la protection, l'accès, la durabilité, etc.
Les demandes de traction sont les bienvenues. Pour les changements majeurs, veuillez d'abord ouvrir un problème pour discuter de ce que vous souhaitez changer.
Assurez-vous de mettre à jour les tests, le cas échéant. Ajoutez également votre nom dans la section des auteurs du fichier ReadMe.
Mit