Descarga de homer - Descarga del código fuente homer

homer

Otro código fuente

1.0.0

Descargar

Homero

Contenido

1 características
- 1.1 estadísticas de artículo/ensayo
- 1.2 estadísticas de párrafo
2 instalación
- 2.1 Python
- 2.2 Entorno virtual
- 2.3 Instalación de Homer a través de PIP
3 uso
- 3.1 por primera vez
- 3.2 Línea de comando
4 código
5 pruebas
6 autor y contribuyentes
7 Agradecimientos
8 contribuyendo
9 licencia

Homer es un paquete de Python que puede ayudar a que su texto sea más claro, simple y útil para el lector. Proporciona información sobre un texto general, así como en párrafos individuales. Da información sobre la legibilidad, la duración de los párrafos, la duración de las oraciones, las oraciones promedio por párrafo, palabras promedio en una oración, etc. También intenta identificar ciertos tipos de palabras vagas. También rastrea la frecuencia de las palabras "y" en el texto. (Más información sobre todo esto sigue en la sección de reconocimientos).

Este paquete de software surgió de una necesidad personal. Como no soy un hablante nativo de inglés, pero estoy interesado en escribir, diseñé y he estado usando Homer para mejorar mi escritura. Espero que otros lo encuentren útil.

Tenga en cuenta que esta no es una guía estricta para controlar su escritura. Al menos, no lo uso de esa manera. Lo uso como guía para que mi escritura sea lo más simple posible. Me esfuerzo por escribir párrafos y oraciones concisos, así como usar menos palabras poco claras, y Homer me ha estado ayudando.

Solo lo he usado para analizar mis blogs y ensayos y no el gran corpus de texto. Como este software es nuevo, puede ver errores, en cuyo caso, no dude en abrir problemas/solicitudes de extracción.

Puede usar Homer como un paquete independiente o en la línea de comando. Si lo ejecuta en la línea de comando, puede obtener estadísticas generales en su artículo o ensayo, así como estadísticas de párrafo.

1 características

1.1 estadísticas de artículo/ensayo

Ejecutar Homer desde la línea de comandos ofrece las siguientes ideas sobre el artículo/ensayo:

Tiempo de lectura en minutos (aunque esto variará algunos de lector a lector).
Puntuaciones de legibilidad (Flesch Reading Facle y Dale Chall Puntores de legibilidad).
Total de párrafos, oraciones y palabras.
Oraciones promedio por párrafo.
Palabras promedio por oración.
"y" frecuencia.
Número y lista de setgers compulsivos, intensificadores, palabras vagas.

1.2 estadísticas de párrafo

Las estadísticas del párrafo señalan la siguiente información para cada párrafo:

Número de oraciones y palabras.
Palabras promedio por oración.
La oración más larga en el párrafo.
Puntuaciones de legibilidad (Flesch Reading Facle y Dale Chall Puntores de legibilidad).
Si el número de oraciones es más de cinco en un párrafo, entonces Homer da una advertencia resaltada en rojo.
Del mismo modo, cuando el número de palabras es más de 25 en una oración, se da una advertencia resaltada en rojo.

2 instalación

2.1 Python

Construí esto en Python 3.4.5. Así que primero necesitamos instalar Python.

En Mac, usé HomeBrew para instalar Python, por ejemplo, uno puede usar este comando:

Para instalar en Windows, puede descargar el instalador desde aquí. Una vez descargado, este instalador se puede ejecutar para completar la instalación de Python.

Para Ubuntu puede encontrar este recurso útil.

2.2 Entorno virtual

Ahora es el momento de crear un entorno virtual (suponiendo que clonara el código en ~/código/jonrón).

La primera línea en el fragmento anterior crea un entorno virtual llamado VenV en ~/Code/Homer. El segundo comando activa el entorno virtual.

En caso de que necesite más ayuda para crear un entorno virtual, este recurso puede ser útil.

2.3 Instalación de Homer a través de PIP

Instalar usando PIP:

 ~ /code/homer $ pip install homer-text

Y eso es todo. Debe instalar todo lo que es, es decir, bibliotecas requeridas, paquetes NLTK y homer_text en sí.

3 uso

3.1 por primera vez

Antes de usarlo por primera vez, asegúrese de tener todos los archivos de diccionario NLTK:

 import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )

3.2 Línea de comando

Se ha proporcionado una utilidad de línea de comando, debajo del directorio de Homer. Aquí hay un ejemplo que muestra cómo usarlo:

 > python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt

Tanto - -Name como -Author son opcionales, mientras que File_Path es obligatorio.

4 código

También puede usar Homer en su código. Aquí hay un ejemplo:

 # file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter

article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()

Úselo así:

 > python analyse.py text_to_analyse.md

5 pruebas

Las pruebas se pueden ejecutar desde el directorio de pruebas.

6 autor y contribuyentes

Autor:

Waqas Younas ([email protected])

Colaboradores:

https://github.com/voronaam
https://github.com/fkarg

7 Agradecimientos

El sentido del estilo de Steven Pinker: la guía de la persona pensante para escribir en el siglo XXI. Este libro me dio bastantes ideas. También me llevó a incluir el seguimiento de palabras vagas, hedgers e intensificadores complejos.
- Hedgers complejos: estas son palabras como _aparentemente, casi, justa, casi, parcialmente, predominantemente, presumiblemente, más bien, relativa, aparentemente, etc._
- Intensificadores: palabras como _very, altamente, extremadamente.
Bankspeak:
The Language of World Bank Reports, 1946–2012: https://litlab.stanford.edu/literarylabpamphlet9.pdf. Esta fuente también me dio algunas ideas. La idea de hacer un seguimiento de "y" y las palabras vagas en un texto fueron tomadas desde aquí.
- "y" frecuencia: básicamente es el número de veces la palabra "y" se usa en el texto (dado como un porcentaje del texto total). Intento mantenerlo por debajo del 3 %.
- Las palabras vagas son una lista de palabras que compilé después de leer el informe anterior. Usar estas palabras innecesariamente, o sin darles el contexto adecuado, puede hacer que un texto sea más abstracto. Estas son palabras como _derivative, valor razonable, cartera, evaluación, estrategia, competitividad, reforma, crecimiento, capacidad, progreso, estabilidad, protección, acceso, sostenible, etc.__