textrank 다운로드 - textrank 소스 코드 다운로드

textrank

기타 소스코드

v1.2.0

다운로드

Summa - Textrank

유사성 기능에 대한 최적화와 함께 Python 3의 텍스트 요약 및 키워드 추출을위한 TexTrank 구현.

특징

텍스트 요약
키워드 추출

예

텍스트 요약 :

 >>> text = "" "자동 요약은 A 로 텍스트 문서를 줄이는 과정입니다.
가장 중요한 포인트를 유지하는 요약을 만들기 위해 컴퓨터 프로그램 
원본 문서의. 정보 과부하 문제가 증가함에 따라 
데이터의 양이 증가하여 자동 요약에 관심이 있습니다. 
일관된 요약을 할 수있는 기술은 와 같은 변수를 고려합니다.
길이, 쓰기 스타일 및 구문. 요약 기술 사용의 예 
Google과 같은 검색 엔진입니다. 문서 요약은 또 다른 것입니다. "" "

>>> Summa 가져 오기 요약자
>>> print (summarizer.summarize (텍스트))
'자동 요약은 컴퓨터로 텍스트 문서를 줄이는 과정입니다.
프로그램의 가장 중요한 포인트를 유지하는 요약을 만들기위한 프로그램
원본 문서. '

키워드 추출 :

 >>> Summa 가져 오기 키워드에서
>>> print (keywords.keywords (텍스트))
문서
요약
글쓰기
계정

입력의 라인이 파손되면 문장 분리기로 사용되므로 그에 따라 텍스트를 전제로 처리하십시오.

설치

이 소프트웨어는 PYPI로 제공됩니다. 그것은 과학 컴퓨팅을위한 2 개의 파이썬 라이브러리 인 Numpy와 Scipy에 달려 있습니다. PIP는 Summa와 함께 자동으로 설치합니다.

 PIP 설치 SUMMA

키워드 추출의 성능을 향상 시키려면 패턴을 설치하십시오.

더 많은 예

명령 줄 사용 :
```
 TexTrank -t 파일
```
요약 길이를 텍스트의 비율로 정의하십시오 ( keywords 에서도 사용 가능).
```
 >>> summa. summarizer import 요약
>>> 요약 (텍스트, 비율 = 0.2)
```
어용인 단어 수로 요약 길이를 정의하십시오 ( keywords 에서도 사용할 수 있음) :
```
 >>> 요약 (텍스트, 단어 = 50)
```
입력 텍스트 언어를 정의하십시오 ( keywords 로도 사용 가능).
사용 가능한 언어는 아랍어, 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 헝가리어, 이탈리아, 노르웨이어, 폴란드어, 포터, 포르투갈어, 루마니아어, 러시아어, 스페인어 및 스웨덴입니다.
```
 >>> 요약 (텍스트, 언어 = '스페인어')
```

목록으로 결과를 가져옵니다 ( keywords 로도 사용 가능) :

 >>> 요약 (텍스트, split = true)
[ '자동 요약은
가장 중요한 요약을 만들기 위해 컴퓨터 프로그램
원본 문서의 포인트. ']

참조

Mihalcea, R., Tarau, P. : "Textrank : 텍스트에 질서 가져 오기". 에서 : Lin, D., Wu, D. (Eds.) Emnlp 2004의 절차. pp. 404–411. 스페인 바르셀로나 계산 언어학 협회. 2004 년 7 월.
Barrios, F., López, F., Argerich, L., Wachenchauzer, R. : "자동 요약을위한 Textrank의 유사성 기능의 변형". Anales de las 44jaiio. Jornadas Argentinas de Informica, 인공 지능에 관한 아르헨티나 심포지엄, 2015.

이 작업을 인용하려면 :

 @article {dblp : 저널/corr/barrioslaw16,
  저자 = {Federico Barrios 및
             Federico l { '{O}} pez 및
             Luis Argerich와
             Rosa Wachenchauzer},
  title = {자동 요약을위한 TexTrank의 유사성 함수의 변형},
  저널 = {corr},
  볼륨 = {abs/1602.03606},
  연도 = {2016},
  url = {http://arxiv.org/abs/1602.03606},
  ArchivePrefix = {arxiv},
  eprint = {1602.03606},
  타임 스탬프 = {수, 2017 년 6 월 7 일 14:40:43 +0200},
  biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16},
  Bibsource = {DBLP 컴퓨터 과학 참고 문헌, https://dblp.org}
}

SUMMA는 MIT 라이센스 (MIT)에 따라 공개 된 오픈 소스 소프트웨어입니다.

확장하다

추가 정보