內容
荷馬是一個Python軟件包,可以幫助您的文本更清晰,簡單且對讀者有用。它提供有關整體文本以及各個段落的信息。它可以深入了解可讀性,段落的長度,句子的長度,每個段落的平均句子,句子中的平均單詞等。它還試圖識別某些模糊的單詞。它還跟踪文本中的“和”單詞的頻率。 (有關所有這些信息的更多信息,請參見“致謝”部分。)
這個軟件包源於個人需求。由於我不是英語的人,但對寫作感興趣,所以我設計並一直在使用荷馬來改善自己的寫作。我希望其他人會發現它有用。
請注意,這不是控制您寫作的嚴格指南。至少,我不會那樣使用它。我將其用作指南,以使我的寫作盡可能簡單。我努力撰寫簡潔的段落和句子,並使用較少的不清楚單詞,而荷馬一直在幫助我。
我只用它來分析我的博客和論文,而不是大量的文本語料庫。由於此軟件是新的,因此您很可能會發現錯誤,在這種情況下,請隨時打開問題/引物要求。
您可以將荷馬用作獨立軟件包或在命令行上。如果您在命令行中運行它,則可以在文章或文章以及段落統計數據上獲取一般統計信息。
從命令行運行本壘打給出了有關文章/文章的以下見解:
段落統計數據指出每個段落的以下信息:
我在Python 3.4.5上構建了它。因此,首先我們需要安裝Python。
在Mac上,我使用Homebrew安裝Python,例如,一個人可以使用此命令:
要在Windows上安裝,您可以從此處下載安裝程序。下載後,可以運行此安裝程序以完成Python的安裝。
對於Ubuntu,您可能會發現此資源有用。
現在是時候創建虛擬環境了(假設您將代碼克隆在〜/code/homer下)。
上面片段中的第一行創建了一個名為〜/code/homer的虛擬環境。第二個命令激活虛擬環境。
如果您需要更多幫助創建虛擬環境,則該資源可能會有用。
使用PIP安裝:
~ /code/homer $ pip install homer-text就是這樣。它應該安裝所有所需的庫,NLTK軟件包和HOMER_TEXT本身。
在首次使用它之前,請確保您擁有所有NLTK字典文件:
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )已提供了命令行實用程序,該實用程序已提供。這是一個顯示如何使用它的示例:
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt-name和-author都是可選的,而file_path是強制性的。
您也可以在代碼中使用荷馬。這是一個示例:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()這樣使用:
> python analyse.py text_to_analyse.md測試可以從測試目錄進行。
作者:
貢獻者:
史蒂文·平克(Steven Pinker)的“風格感:21世紀思維人的寫作指南”。這本書給了我很多見解。這也促使我包括跟踪模糊的單詞,複雜的對沖和增強器。
銀行服務:
世界銀行報告的語言,1946年至2012年:https://litlab.stanford.edu/literarylabpamphlet9.pdf。這個消息來源也給了我一些想法。跟踪“和”以及文本中模糊的單詞的想法是從這裡開始的。
- “和”頻率:基本上是文本中使用單詞的次數(作為總文本的百分比)。我試圖將其保持在3%以下。
- 含糊的單詞是閱讀上述報告後彙編的單詞列表。不必要地使用這些詞,或者不給他們適當的上下文,可以使文本更加抽象。這些詞如_衍生,公允價值,投資組合,評估,策略,競爭力,改革,增長,能力,進步,穩定,保護,訪問,可持續等。 _
歡迎拉動請求。對於重大更改,請先開設一個問題,以討論您想更改的內容。
請確保及時更新測試。另外,將您的姓名添加在README文件的作者部分下。
麻省理工學院