Содержимое
Гомер - это пакет Python, который может помочь сделать ваш текст более ясным, простым и полезным для читателя. Он предоставляет информацию об общем тексте, а также о отдельных абзацах. Это дает представление о читабельности, длине абзацев, длине предложений, средних предложениях на параграф, средних словах в предложении и т. Д. Он также пытается определить определенные смутные слова. Он также отслеживает частоту «и» слова в тексте. (Дополнительная информация обо всех этих следующих примечаниях в разделе «Благодарности».)
Этот программный пакет вырос из личной потребности. Поскольку я не носитель английского языка, но заинтересован в написании, я разработал и использовал Гомер для улучшения моего письма. Я надеюсь, что другие найдут это полезным.
Обратите внимание, что это не строгое руководство по управлению вашим письмом. По крайней мере, я не использую это таким образом. Я использую его в качестве руководства, чтобы сделать мое письмо максимально простым. Я стремлюсь написать краткие абзацы и предложения, а также использовать меньше неясных слов, и Гомер мне помогал.
Я использовал его только для анализа своих блогов и эссе, а не большого корпуса текста. Поскольку это программное обеспечение является новым, вы вполне можете заметить ошибки, и в этом случае, пожалуйста, не стесняйтесь открывать проблемы/запросы.
Вы можете использовать Гомер в качестве автономного пакета или в командной строке. Если вы запустите его в командной строке, вы можете получить общую статистику в своей статье или эссе, а также статистику абзацев.
Запуск Гомера из командной строки дает следующее представление о статье/эссе:
Статистика абзаца указывает на следующую информацию для каждого абзаца:
Я построил это на Python 3.4.5. Итак, сначала нам нужно установить Python.
На Mac я использовал Homebrew для установки Python, например, можно использовать эту команду:
Чтобы установить на Windows, вы можете скачать установщик отсюда. После загрузки этого установщика можно запустить для завершения установки Python.
Для Ubuntu вы можете найти этот ресурс полезным.
Теперь пришло время создать виртуальную среду (при условии, что вы клонировали код под ~/code/homer).
Первая строка в приведенном выше фрагменте создает виртуальную среду с именем venv под ~/код/Гомер. Вторая команда активирует виртуальную среду.
Если вам нужна дополнительная помощь с созданием виртуальной среды, этот ресурс может оказаться полезным.
Установите с помощью PIP:
~ /code/homer $ pip install homer-textИ это все. Он должен установить все, что необходимо для библиотек, пакеты NLTK и сам homer_text.
Прежде чем использовать его в первый раз, убедитесь, что у вас есть все файлы словаря NLTK:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )Была предоставлена утилита командной строки под каталогом Гомера. Вот пример, показывающий, как его использовать:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txtОба -name и -Author являются необязательными, тогда как File_path является обязательным.
Вы также можете использовать Гомер в своем коде. Вот пример:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()Используйте его так:
> python analyse.py text_to_analyse.mdТесты можно запускать из каталога тестов.
Автор:
Участники:
Стивен Пинкер «Чувство стиля: руководство мыслительного человека по написанию в 21 веке». Эта книга дала мне довольно много пониманий. Это также побудило меня включить отслеживание расплывчатых слов, сложных изгороди и интенсификаций.
Bankspeak:
Язык отчетов Всемирного банка, 1946–2012 гг.: Https://litlab.stanford.edu/literarylabpamplet9.pdf. Этот источник также дал мне несколько идей. Идея отслеживать «и» и смутные слова в тексте была взята отсюда.
- «И« частота: в основном это количество раз, когда слово »и» используется в тексте (приведен в процентах от общего текста). Я стараюсь сохранить его менее 3 %.
- Неопределенные слова - это список слов, которые я составил после прочтения приведенного выше отчета. Использование этих слов излишне или не давая им правильный контекст, может сделать текст более абстрактным. Это такие слова, как _devative, справедливая стоимость, портфель, оценка, стратегия, конкурентоспособность, реформа, рост, потенциал, прогресс, стабильность, защита, доступ, устойчивый и т. Д.
Приглашаются запросы. Для серьезных изменений, пожалуйста, сначала откройте проблему, чтобы обсудить, что вы хотели бы изменить.
Пожалуйста, обязательно обновите тесты по мере необходимости. Кроме того, добавьте свое имя в разделе «Авторы» файла readme.
Грань