내용물
호머는 독자에게 텍스트를보다 명확하고 간단하며 유용하게 만드는 데 도움이되는 파이썬 패키지입니다. 개별 단락뿐만 아니라 전체 텍스트에 대한 정보를 제공합니다. 그것은 가독성, 단락의 길이, 문장 길이, 단락 당 평균 문장, 문장의 평균 단어 등에 대한 통찰력을 제공합니다. 또한 특정 종류의 모호한 단어를 식별하려고합니다. 또한 텍스트의 "및"단어의 빈도를 추적합니다. (이 모든 것에 대한 자세한 내용은 승인 섹션에서 다음과 같습니다.)
이 소프트웨어 패키지는 개인적인 요구에서 벗어났습니다. 저는 영어 원어민이 아니지만 글쓰기에 관심이 있기 때문에 호머를 설계하고 사용하여 글을 개선했습니다. 나는 다른 사람들이 그것이 유용하다는 것을 알기를 바랍니다.
이것은 글쓰기를 통제하기위한 엄격한 가이드가 아닙니다. 적어도 나는 그것을 그렇게 사용하지 않습니다. 나는 그것을 가능한 한 간단하게 만드는 가이드로 사용합니다. 나는 간결한 단락과 문장을 쓰고 불분명 한 단어를 적게 사용하기 위해 노력하고 있으며 호머가 나를 돕고 있습니다.
나는 그것을 사용하여 블로그와 에세이를 분석하는 데 사용했지만 큰 텍스트 코퍼스가 아닙니다. 이 소프트웨어가 새로운 것이므로 버그를 발견 할 수 있습니다.이 경우 문제/풀 수수료를 자유롭게 열어주십시오.
호머를 독립형 패키지 또는 명령 줄에서 사용할 수 있습니다. 명령 줄에서 실행하면 기사 나 에세이 및 단락 통계에 대한 일반적인 통계를 얻을 수 있습니다.
명령 줄에서 호머를 실행하면 기사/에세이에 대한 다음 통찰력이 제공됩니다.
단락 통계는 각 단락에 대한 다음 정보를 지적합니다.
나는 이것을 Python 3.4.5에 만들었습니다. 먼저 파이썬을 설치해야합니다.
Mac에서는 Homebrew를 사용하여 Python을 설치했습니다. 예를 들어이 명령을 사용할 수 있습니다.
Windows에 설치하려면 여기에서 설치 프로그램을 다운로드 할 수 있습니다. 일단 다운로드되면이 설치 프로그램을 실행하여 Python의 설치를 완료 할 수 있습니다.
우분투의 경우이 리소스가 유용 할 수 있습니다.
이제 가상 환경을 만들 시간입니다 (~/Code/Homer에서 코드를 복제했다고 가정).
위의 스 니펫의 첫 번째 줄은 ~/Code/Homer에서 Venv라는 가상 환경을 만듭니다. 두 번째 명령은 가상 환경을 활성화합니다.
가상 환경을 만드는 데 더 많은 도움이 필요한 경우이 리소스가 유용 할 수 있습니다.
PIP를 사용하여 설치 :
~ /code/homer $ pip install homer-text그리고 그게 다야. 필요한 모든 라이브러리, NLTK 패키지 및 HOMER_TEXT 자체를 설치해야합니다.
처음으로 사용하기 전에 모든 NLTK 사전 파일이 있는지 확인하십시오.
import nltk
nltk . download ( 'punkt' )
nltk . download ( 'cmudict' )
nltk . download ( 'stopwords' )호머 디렉토리 하의 명령 줄 유틸리티가 제공되었습니다. 다음은 사용 방법을 보여주는 예입니다.
> python homer_cmd.py --name article_name --author lalala --file_path=/correct/path/to/file.txt-name과 --author는 모두 선택 사항이며 file_path는 필수입니다.
코드에서 호머를 사용할 수도 있습니다. 예는 다음과 같습니다.
# file: analyse.py
import sys
from homer . analyzer import Article
from homer . cmdline_printer import ArticlePrinter
article = Article ( 'Article name' , 'Author' , open ( sys . argv [ 1 ]). read ())
ap = ArticlePrinter ( article )
ap . print_article_stats ()
ap . print_paragraph_stats ()다음과 같이 사용하십시오.
> python analyse.py text_to_analyse.md테스트는 테스트 디렉토리에서 실행할 수 있습니다.
작가:
기고자 :
Steven Pinker의 The Style of Style : 21 세기의 글쓰기에 대한 사고자 가이드. 이 책은 나에게 몇 가지 통찰력을 주었다. 또한 모호한 단어, 복잡한 울타리 및 강화제 추적을 포함하도록 유도했습니다.
BankSpeak :
세계 은행 보고서의 언어 1946–2012 : https://litlab.stanford.edu/literarylabpamphlet9.pdf. 이 출처는 나에게 몇 가지 아이디어를 주었다. 텍스트의 "그리고"그리고 모호한 단어를 추적하려는 아이디어는 여기에서 가져 왔습니다.
- "및"주파수 : 기본적으로 단어의 횟수는 텍스트에 사용됩니다 (총 텍스트의 백분율로 제공). 나는 그것을 3 %미만으로 유지하려고 노력합니다.
- 모호한 단어는 위의 보고서를 읽은 후 편집 한 단어 목록입니다. 이 단어를 불필요하게 사용하거나 적절한 맥락을 제공하지 않으면 텍스트를보다 추상적으로 만들 수 있습니다. 이들은 _derivative, 공정 가치, 포트폴리오, 평가, 전략, 경쟁력, 개혁, 성장, 능력, 진보, 안정성, 보호, 액세스, 지속 가능 등과 같은 단어입니다.
풀 요청을 환영합니다. 주요 변경 사항을 위해 먼저 문제를 열어 변경하고 싶은 것을 논의하십시오.
테스트를 적절하게 업데이트하십시오. 또한 readme 파일의 저자 섹션 아래에서 이름을 추가하십시오.
MIT