Contenido
Homer es un paquete de Python que puede ayudar a que su texto sea más claro, simple y útil para el lector. Proporciona información sobre un texto general, así como en párrafos individuales. Da información sobre la legibilidad, la duración de los párrafos, la duración de las oraciones, las oraciones promedio por párrafo, palabras promedio en una oración, etc. También intenta identificar ciertos tipos de palabras vagas. También rastrea la frecuencia de las palabras "y" en el texto. (Más información sobre todo esto sigue en la sección de reconocimientos).
Este paquete de software surgió de una necesidad personal. Como no soy un hablante nativo de inglés, pero estoy interesado en escribir, diseñé y he estado usando Homer para mejorar mi escritura. Espero que otros lo encuentren útil.
Tenga en cuenta que esta no es una guía estricta para controlar su escritura. Al menos, no lo uso de esa manera. Lo uso como guía para que mi escritura sea lo más simple posible. Me esfuerzo por escribir párrafos y oraciones concisos, así como usar menos palabras poco claras, y Homer me ha estado ayudando.
Solo lo he usado para analizar mis blogs y ensayos y no el gran corpus de texto. Como este software es nuevo, puede ver errores, en cuyo caso, no dude en abrir problemas/solicitudes de extracción.
Puede usar Homer como un paquete independiente o en la línea de comando. Si lo ejecuta en la línea de comando, puede obtener estadísticas generales en su artículo o ensayo, así como estadísticas de párrafo.
Ejecutar Homer desde la línea de comandos ofrece las siguientes ideas sobre el artículo/ensayo:
Las estadísticas del párrafo señalan la siguiente información para cada párrafo:
Construí esto en Python 3.4.5. Así que primero necesitamos instalar Python.
En Mac, usé HomeBrew para instalar Python, por ejemplo, uno puede usar este comando:
Para instalar en Windows, puede descargar el instalador desde aquí. Una vez descargado, este instalador se puede ejecutar para completar la instalación de Python.
Para Ubuntu puede encontrar este recurso útil.
Ahora es el momento de crear un entorno virtual (suponiendo que clonara el código en ~/código/jonrón).
La primera línea en el fragmento anterior crea un entorno virtual llamado VenV en ~/Code/Homer. El segundo comando activa el entorno virtual.
En caso de que necesite más ayuda para crear un entorno virtual, este recurso puede ser útil.
Instalar usando PIP:
~ /code/homer $ pip install homer-textY eso es todo. Debe instalar todo lo que es, es decir, bibliotecas requeridas, paquetes NLTK y homer_text en sí.
Antes de usarlo por primera vez, asegúrese de tener todos los archivos de diccionario NLTK:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )Se ha proporcionado una utilidad de línea de comando, debajo del directorio de Homer. Aquí hay un ejemplo que muestra cómo usarlo:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txtTanto - -Name como -Author son opcionales, mientras que File_Path es obligatorio.
También puede usar Homer en su código. Aquí hay un ejemplo:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()Úselo así:
> python analyse.py text_to_analyse.mdLas pruebas se pueden ejecutar desde el directorio de pruebas.
Autor:
Colaboradores:
El sentido del estilo de Steven Pinker: la guía de la persona pensante para escribir en el siglo XXI. Este libro me dio bastantes ideas. También me llevó a incluir el seguimiento de palabras vagas, hedgers e intensificadores complejos.
Bankspeak:
The Language of World Bank Reports, 1946–2012: https://litlab.stanford.edu/literarylabpamphlet9.pdf. Esta fuente también me dio algunas ideas. La idea de hacer un seguimiento de "y" y las palabras vagas en un texto fueron tomadas desde aquí.
- "y" frecuencia: básicamente es el número de veces la palabra "y" se usa en el texto (dado como un porcentaje del texto total). Intento mantenerlo por debajo del 3 %.
- Las palabras vagas son una lista de palabras que compilé después de leer el informe anterior. Usar estas palabras innecesariamente, o sin darles el contexto adecuado, puede hacer que un texto sea más abstracto. Estas son palabras como _derivative, valor razonable, cartera, evaluación, estrategia, competitividad, reforma, crecimiento, capacidad, progreso, estabilidad, protección, acceso, sostenible, etc.__
Las solicitudes de extracción son bienvenidas. Para cambios importantes, abra primero un problema para discutir lo que le gustaría cambiar.
Asegúrese de actualizar las pruebas según corresponda. Además, agregue su nombre en la sección Autores del archivo ReadMe.
MIT