Conteúdo
Homer é um pacote Python que pode ajudar a tornar seu texto mais claro, simples e útil para o leitor. Ele fornece informações sobre um texto geral e também em parágrafos individuais. Ele fornece informações sobre legibilidade, duração dos parágrafos, duração das frases, frases médias por parágrafo, palavras médias em uma frase etc. Também tenta identificar certos tipos de palavras vagas. Ele também rastreia a frequência de palavras "e" no texto. (Mais informações sobre tudo isso seguem na seção Agradecimentos.)
Este pacote de software cresceu de uma necessidade pessoal. Como não sou um falante nativo de inglês, mas estou interessado em escrever, projetei e tenho usado Homer para melhorar minha escrita. Espero que os outros achem útil.
Observe que este não é um guia rigoroso para controlar sua redação. Pelo menos, eu não uso dessa maneira. Eu o uso como um guia para tornar minha escrita o mais simples possível. Eu me esforço para escrever parágrafos e frases concisas, além de usar menos palavras pouco claras, e Homer tem me ajudado.
Eu o usei apenas para analisar meus blogs e ensaios e não o grande corpus de texto. Como este software é novo, você pode identificar bugs, nesse caso, sinta-se à vontade para abrir problemas/solicitações de tração.
Você pode usar o Homer como um pacote independente ou na linha de comando. Se você o executar na linha de comando, poderá obter estatísticas gerais em seu artigo ou ensaio, bem como estatísticas de parágrafo.
A execução de Homer da linha de comando fornece as seguintes informações sobre o artigo/ensaio:
As estatísticas do parágrafo apontam as seguintes informações para cada parágrafo:
Eu construí isso no Python 3.4.5. Então, primeiro precisamos instalar o Python.
No Mac, usei o Homebrew para instalar o Python, por exemplo, pode -se usar este comando:
Para instalar no Windows, você pode baixar o instalador daqui. Depois de baixado, este instalador pode ser executado para concluir a instalação do Python.
Para o Ubuntu, você pode achar esse recurso útil.
Agora é hora de criar um ambiente virtual (assumindo que você clonou o código em ~/code/Homer).
A primeira linha no snippet acima cria um ambiente virtual chamado Venv sob ~/code/Homer. O segundo comando ativa o ambiente virtual.
Caso você precise de mais ajuda para criar um ambiente virtual, esse recurso pode ser útil.
Instale usando PIP:
~ /code/homer $ pip install homer-textE é isso. Ele deve instalar tudo o que o IE exigiu bibliotecas, pacotes NLTK e Homer_text.
Antes de usá -lo pela primeira vez, verifique se você possui todos os arquivos de dicionário NLTK:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )Foi fornecido um utilitário de linha de comando, sob o diretório Homer. Aqui está um exemplo mostrando como usá -lo:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txtAmbos -Name e --Author são opcionais, enquanto o File_Path é obrigatório.
Você também pode usar o Homero em seu código. Aqui está um exemplo:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()Use assim:
> python analyse.py text_to_analyse.mdOs testes podem ser executados no diretório de testes.
Autor:
Colaboradores:
Steven Pinker é o senso de estilo: o guia da pessoa que pensa para escrever no século XXI. Este livro me deu algumas idéias. Também me levou a incluir o rastreamento de palavras vagas, hedgers e intensificadores complexos.
Bankspeak:
The Language of World Bank Reports, 1946–2012: https://litlab.stanford.edu/literarylabpamphlet9.pdf. Essa fonte também me deu algumas idéias. A idéia de acompanhar "e" e as palavras vagas em um texto foi retirada daqui.
- "E" Frequência: basicamente, é o número de vezes a palavra "e" é usado no texto (dado como uma porcentagem do texto total). Eu tento mantê -lo abaixo de 3 %.
- Palavras vagas é uma lista de palavras que compilei depois de ler o relatório acima. Usar essas palavras desnecessariamente, ou sem dar a elas o contexto adequado, pode tornar um texto mais abstrato. São palavras como _erivativas, valor justo, portfólio, avaliação, estratégia, competitividade, reforma, crescimento, capacidade, progresso, estabilidade, proteção, acesso, sustentável etc._
Solicitações de tração são bem -vindas. Para grandes mudanças, abra um problema primeiro para discutir o que você gostaria de mudar.
Certifique -se de atualizar os testes conforme apropriado. Além disso, adicione seu nome na seção Autores do arquivo ReadMe.
Mit