textrank
v1.2.0
유사성 기능에 대한 최적화와 함께 Python 3의 텍스트 요약 및 키워드 추출을위한 TexTrank 구현.
텍스트 요약 :
>>> text = "" "자동 요약은 A 로 텍스트 문서를 줄이는 과정입니다. 가장 중요한 포인트를 유지하는 요약을 만들기 위해 컴퓨터 프로그램 원본 문서의. 정보 과부하 문제가 증가함에 따라 데이터의 양이 증가하여 자동 요약에 관심이 있습니다. 일관된 요약을 할 수있는 기술은 와 같은 변수를 고려합니다. 길이, 쓰기 스타일 및 구문. 요약 기술 사용의 예 Google과 같은 검색 엔진입니다. 문서 요약은 또 다른 것입니다. "" " >>> Summa 가져 오기 요약자 >>> print (summarizer.summarize (텍스트)) '자동 요약은 컴퓨터로 텍스트 문서를 줄이는 과정입니다. 프로그램의 가장 중요한 포인트를 유지하는 요약을 만들기위한 프로그램 원본 문서. '
키워드 추출 :
>>> Summa 가져 오기 키워드에서 >>> print (keywords.keywords (텍스트)) 문서 요약 글쓰기 계정
입력의 라인이 파손되면 문장 분리기로 사용되므로 그에 따라 텍스트를 전제로 처리하십시오.
이 소프트웨어는 PYPI로 제공됩니다. 그것은 과학 컴퓨팅을위한 2 개의 파이썬 라이브러리 인 Numpy와 Scipy에 달려 있습니다. PIP는 Summa와 함께 자동으로 설치합니다.
PIP 설치 SUMMA
키워드 추출의 성능을 향상 시키려면 패턴을 설치하십시오.
명령 줄 사용 :
TexTrank -t 파일
요약 길이를 텍스트의 비율로 정의하십시오 ( keywords 에서도 사용 가능).
>>> summa. summarizer import 요약 >>> 요약 (텍스트, 비율 = 0.2)
어용인 단어 수로 요약 길이를 정의하십시오 ( keywords 에서도 사용할 수 있음) :
>>> 요약 (텍스트, 단어 = 50)
입력 텍스트 언어를 정의하십시오 ( keywords 로도 사용 가능).
사용 가능한 언어는 아랍어, 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 헝가리어, 이탈리아, 노르웨이어, 폴란드어, 포터, 포르투갈어, 루마니아어, 러시아어, 스페인어 및 스웨덴입니다.
>>> 요약 (텍스트, 언어 = '스페인어')
목록으로 결과를 가져옵니다 ( keywords 로도 사용 가능) :
>>> 요약 (텍스트, split = true) [ '자동 요약은 가장 중요한 요약을 만들기 위해 컴퓨터 프로그램 원본 문서의 포인트. ']
이 작업을 인용하려면 :
@article {dblp : 저널/corr/barrioslaw16,
저자 = {Federico Barrios 및
Federico l { '{O}} pez 및
Luis Argerich와
Rosa Wachenchauzer},
title = {자동 요약을위한 TexTrank의 유사성 함수의 변형},
저널 = {corr},
볼륨 = {abs/1602.03606},
연도 = {2016},
url = {http://arxiv.org/abs/1602.03606},
ArchivePrefix = {arxiv},
eprint = {1602.03606},
타임 스탬프 = {수, 2017 년 6 월 7 일 14:40:43 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
Bibsource = {DBLP 컴퓨터 과학 참고 문헌, https://dblp.org}
}
SUMMA는 MIT 라이센스 (MIT)에 따라 공개 된 오픈 소스 소프트웨어입니다.
저작권 (C) 2014 - 이제 Summa NLP.