コンテンツ
ホーマーは、読者にとってテキストをより明確でシンプルで便利にするのに役立つPythonパッケージです。全体的なテキストと個々の段落に関する情報を提供します。読みやすさ、段落の長さ、文の長さ、段落ごとの平均文、文の平均単語などについての洞察を与えます。また、特定の種類の曖昧な単語を特定しようとします。また、テキスト内の単語の頻度も追跡します。 (これらすべての詳細については、謝辞セクションに従います。)
このソフトウェアパッケージは、個人的なニーズから生まれました。私は英語のネイティブスピーカーではありませんが、執筆に興味があるので、私はホーマーを使用して執筆を改善しています。他の人がそれが便利だと思うことを願っています。
これはあなたの文章を制御するための厳格なガイドではないことに注意してください。少なくとも、私はそれをそのように使用しません。私はそれをできるだけシンプルにするためのガイドとしてそれを使用しています。私は簡潔な段落と文章を書くよう努め、より少ない不明確な言葉を使用するように努めています。ホーマーは私を助けてくれました。
私はそれを使用して、私のブログやエッセイを分析し、テキストの大きなコーパスではありません。このソフトウェアは新しいので、バグを見つけることができます。その場合、問題/プルレクエストを自由に開いてください。
ホーマーをスタンドアロンパッケージとして、またはコマンドラインで使用できます。コマンドラインで実行すると、記事やエッセイの一般的な統計、および段落の統計を取得できます。
コマンドラインからホーマーを実行すると、記事/エッセイに関する次の洞察が得られます。
段落統計は、各段落の次の情報を指摘しています。
これをPython 3.4.5に作成しました。したがって、最初にPythonをインストールする必要があります。
Macでは、HomeBrewを使用してPythonをインストールしました。たとえば、このコマンドを使用できます。
Windowsにインストールするには、ここからインストーラーをダウンロードできます。ダウンロードしたら、このインストーラーを実行してPythonのインストールを完了することができます。
Ubuntuの場合、このリソースが便利であると思われるかもしれません。
次に、仮想環境を作成する時が来ました(〜/code/homerの下でコードをクローン化したと仮定します)。
上記のスニペットの最初の行は、〜/code/homerの下でVenvという名前の仮想環境を作成します。 2番目のコマンドは、仮想環境をアクティブにします。
仮想環境の作成にもっと助けが必要な場合に備えて、このリソースが役立つことが証明されます。
PIPを使用してインストール:
~ /code/homer $ pip install homer-textそしてそれだけです。必要なライブラリ、NLTKパッケージ、homer_text自体をすべてインストールする必要があります。
初めて使用する前に、すべてのNLTK辞書ファイルがあることを確認してください。
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )ホーマーディレクトリの下にあるコマンドラインユーティリティが提供されています。以下は、それを使用する方法を示す例です。
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt-nameと-authorは両方ともオプションですが、file_pathは必須です。
コードでホーマーを使用することもできます。これが例です:
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()このように使用してください:
> python analyse.py text_to_analyse.mdテストはテストディレクトリから実行できます。
著者:
貢献者:
スティーブンピンカーの「スタイルのセンス:21世紀の執筆への思考者のガイド」。この本は私にかなりの洞察を与えてくれました。また、あいまいな単語、複雑なヘッジャー、強化剤の追跡を含めるようになりました。
Bankspeak:
世界銀行の言語報告書、1946–2012:https://litlab.stanford.edu/literarylabpamphlet9.pdf。このソースも私にいくつかのアイデアを与えてくれました。 「と」とテキストのあいまいな言葉を追跡するというアイデアは、ここから取られました。
- 「および「頻度:基本的には単語の回数」と「テキストで使用されます(テキストの合計の割合として与えられます)。私はそれを3%未満に保つようにしています。
- あいまいな言葉は、上記のレポートを読んだ後にコンパイルした単語のリストです。これらの単語を不必要に使用するか、または適切なコンテキストを与えることなく、テキストをより抽象化することができます。これらは、_誘導体、公正価値、ポートフォリオ、評価、戦略、競争力、改革、成長、能力、進捗、安定、保護、アクセス、持続可能などの言葉です。
プルリクエストは大歓迎です。大きな変更については、最初に問題を開いて、何を変えたいかを議論してください。
必要に応じて、必ずテストを更新してください。また、readmeファイルの著者セクションに名前を追加します。
mit