内容
荷马是一个Python软件包,可以帮助您的文本更清晰,简单且对读者有用。它提供有关整体文本以及各个段落的信息。它可以深入了解可读性,段落的长度,句子的长度,每个段落的平均句子,句子中的平均单词等。它还试图识别某些模糊的单词。它还跟踪文本中的“和”单词的频率。 (有关所有这些信息的更多信息,请参见“致谢”部分。)
这个软件包源于个人需求。由于我不是英语的人,但对写作感兴趣,所以我设计并一直在使用荷马来改善自己的写作。我希望其他人会发现它有用。
请注意,这不是控制您写作的严格指南。至少,我不会那样使用它。我将其用作指南,以使我的写作尽可能简单。我努力撰写简洁的段落和句子,并使用较少的不清楚单词,而荷马一直在帮助我。
我只用它来分析我的博客和论文,而不是大量的文本语料库。由于此软件是新的,因此您很可能会发现错误,在这种情况下,请随时打开问题/引物要求。
您可以将荷马用作独立软件包或在命令行上。如果您在命令行中运行它,则可以在文章或文章以及段落统计数据上获取一般统计信息。
从命令行运行本垒打给出了有关文章/文章的以下见解:
段落统计数据指出每个段落的以下信息:
我在Python 3.4.5上构建了它。因此,首先我们需要安装Python。
在Mac上,我使用Homebrew安装Python,例如,一个人可以使用此命令:
要在Windows上安装,您可以从此处下载安装程序。下载后,可以运行此安装程序以完成Python的安装。
对于Ubuntu,您可能会发现此资源有用。
现在是时候创建虚拟环境了(假设您将代码克隆在〜/code/homer下)。
上面片段中的第一行创建了一个名为〜/code/homer的虚拟环境。第二个命令激活虚拟环境。
如果您需要更多帮助创建虚拟环境,则该资源可能会有用。
使用PIP安装:
~ /code/homer $ pip install homer-text就是这样。它应该安装所有所需的库,NLTK软件包和HOMER_TEXT本身。
在首次使用它之前,请确保您拥有所有NLTK字典文件:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )已提供了命令行实用程序,该实用程序已提供。这是一个显示如何使用它的示例:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt-name和-author都是可选的,而file_path是强制性的。
您也可以在代码中使用荷马。这是一个示例:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()这样使用:
> python analyse.py text_to_analyse.md测试可以从测试目录进行。
作者:
贡献者:
史蒂文·平克(Steven Pinker)的“风格感:21世纪思维人的写作指南”。这本书给了我很多见解。这也促使我包括跟踪模糊的单词,复杂的对冲和增强器。
银行服务:
世界银行报告的语言,1946年至2012年:https://litlab.stanford.edu/literarylabpamphlet9.pdf。这个消息来源也给了我一些想法。跟踪“和”以及文本中模糊的单词的想法是从这里开始的。
- “和”频率:基本上是文本中使用单词的次数(作为总文本的百分比)。我试图将其保持在3%以下。
- 含糊的单词是阅读上述报告后汇编的单词列表。不必要地使用这些词,或者不给他们适当的上下文,可以使文本更加抽象。这些词如_衍生,公允价值,投资组合,评估,策略,竞争力,改革,增长,能力,进步,稳定,保护,访问,可持续等。_
欢迎拉动请求。对于重大更改,请先开设一个问题,以讨论您想更改的内容。
请确保及时更新测试。另外,将您的姓名添加在README文件的作者部分下。
麻省理工学院