homer下載 - homer源代碼下載

homer

其他源碼

1.0.0

下載

荷馬

內容

1個功能
- 1.1文章/論文統計
- 1.2段落統計
2安裝
- 2.1 Python
- 2.2虛擬環境
- 2.3通過PIP安裝荷馬
3使用
- 3.1首次
- 3.2命令行
4代碼
5個測試
6作者和貢獻者
7個致謝
8貢獻
9許可證

荷馬是一個Python軟件包，可以幫助您的文本更清晰，簡單且對讀者有用。它提供有關整體文本以及各個段落的信息。它可以深入了解可讀性，段落的長度，句子的長度，每個段落的平均句子，句子中的平均單詞等。它還試圖識別某些模糊的單詞。它還跟踪文本中的“和”單詞的頻率。（有關所有這些信息的更多信息，請參見“致謝”部分。）

這個軟件包源於個人需求。由於我不是英語的人，但對寫作感興趣，所以我設計並一直在使用荷馬來改善自己的寫作。我希望其他人會發現它有用。

請注意，這不是控制您寫作的嚴格指南。至少，我不會那樣使用它。我將其用作指南，以使我的寫作盡可能簡單。我努力撰寫簡潔的段落和句子，並使用較少的不清楚單詞，而荷馬一直在幫助我。

我只用它來分析我的博客和論文，而不是大量的文本語料庫。由於此軟件是新的，因此您很可能會發現錯誤，在這種情況下，請隨時打開問題/引物要求。

您可以將荷馬用作獨立軟件包或在命令行上。如果您在命令行中運行它，則可以在文章或文章以及段落統計數據上獲取一般統計信息。

1個功能

1.1文章/論文統計

從命令行運行本壘打給出了有關文章/文章的以下見解：

在幾分鐘內閱讀時間（儘管從讀者到讀者會有所不同）。
可讀性得分（Flesch Reading Ease和Dale Chall可讀性得分）。
總段落，句子和單詞。
每個段落的平均句子。
每個句子的平均單詞。
“和”頻率。
強迫性的對沖，增強器，模糊的單詞的數字和列表。

1.2段落統計

段落統計數據指出每個段落的以下信息：

句子和單詞的數量。
每個句子的平均單詞。
段落中最長的句子。
可讀性得分（Flesch Reading Ease和Dale Chall可讀性得分）。
如果一段句子的句子數量超過五個，則荷馬給出了紅色突出顯示的警告。
同樣，當句子中的單詞數超過25時，就會給出一個以紅色突出顯示的警告。

2安裝

2.1 Python

我在Python 3.4.5上構建了它。因此，首先我們需要安裝Python。

在Mac上，我使用Homebrew安裝Python，例如，一個人可以使用此命令：

要在Windows上安裝，您可以從此處下載安裝程序。下載後，可以運行此安裝程序以完成Python的安裝。

對於Ubuntu，您可能會發現此資源有用。

2.2虛擬環境

現在是時候創建虛擬環境了（假設您將代碼克隆在〜/code/homer下）。

上面片段中的第一行創建了一個名為〜/code/homer的虛擬環境。第二個命令激活虛擬環境。

如果您需要更多幫助創建虛擬環境，則該資源可能會有用。

2.3通過PIP安裝荷馬

使用PIP安裝：

 ~ /code/homer $ pip install homer-text

就是這樣。它應該安裝所有所需的庫，NLTK軟件包和HOMER_TEXT本身。

3使用

3.1首次

在首次使用它之前，請確保您擁有所有NLTK字典文件：

 import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )

3.2命令行

已提供了命令行實用程序，該實用程序已提供。這是一個顯示如何使用它的示例：

 > python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt

-name和-author都是可選的，而file_path是強制性的。

4代碼

您也可以在代碼中使用荷馬。這是一個示例：

 # file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter

article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()

這樣使用：

 > python analyse.py text_to_analyse.md

5個測試

測試可以從測試目錄進行。

6作者和貢獻者

作者：

waqas Younas（[email protected]）

貢獻者：

https://github.com/voronaam
https://github.com/fkarg

7個致謝

史蒂文·平克（Steven Pinker）的“風格感：21世紀思維人的寫作指南”。這本書給了我很多見解。這也促使我包括跟踪模糊的單詞，複雜的對沖和增強器。
- 複雜的對沖：這些詞是諸如_明顯，幾乎公平，幾乎，部分，主要，主要是，大概，相對，看似等等。 _
- 增強器：諸如_ everry，高度，極其。
銀行服務：
世界銀行報告的語言，1946年至2012年：https：//litlab.stanford.edu/literarylabpamphlet9.pdf。這個消息來源也給了我一些想法。跟踪“和”以及文本中模糊的單詞的想法是從這裡開始的。
- “和”頻率：基本上是文本中使用單詞的次數（作為總文本的百分比）。我試圖將其保持在3％以下。
- 含糊的單詞是閱讀上述報告後彙編的單詞列表。不必要地使用這些詞，或者不給他們適當的上下文，可以使文本更加抽象。這些詞如_衍生，公允價值，投資組合，評估，策略，競爭力，改革，增長，能力，進步，穩定，保護，訪問，可持續等。 _