textrank
v1.2.0
Python 3のテキスト要約とキーワード抽出のためのテキストランの実装。類似性関数の最適化。
テキストの要約:
>>> text = "" "自動要約は、でテキストドキュメントを減らすプロセスです 最も重要なポイントを保持する要約を作成するためのコンピュータープログラム 元のドキュメントの。情報の過負荷の問題が増加したため、 データの量は増加しているため、自動要約に関心があります。 コヒーレントな要約を作成できるテクノロジーは、のような変数を考慮に入れます 長さ、ライティングスタイル、構文。要約技術の使用の例 Googleなどの検索エンジンです。ドキュメントの要約は別のものです。 "" " >>> Summa Import Summarizerから >>> print(summarizer.summarize(テキスト)) 「自動要約は、コンピューターでテキストドキュメントを減らすプロセスです の最も重要なポイントを保持する要約を作成するためのプログラム 元のドキュメント。」
キーワード抽出:
>>> SUMMAインポートキーワードから >>> print(keywords.keywords(テキスト)) 書類 要約 書き込み アカウント
入力のラインブレイクは文セパレーターとして使用されることに注意してください。したがって、それに応じてテキストを前処理してください。
このソフトウェアはPypiで利用できます。科学コンピューティングのための2つのPythonライブラリであるNumpyとScipyに依存します。 PIPは、Summaとともに自動的にそれらをインストールします。
ピップインストールsumma
キーワード抽出のパフォーマンスを向上させるには、パターンをインストールします。
コマンドラインの使用法:
textrank -tファイル
概要の長さをテキストの割合として定義します( keywordsでも使用できます):
>>> summa.summarizerのインポート要約から >>>要約(テキスト、比率= 0.2)
概要の長さを概要数を定義します( keywordsでも使用できます):
>>>要約(テキスト、ワード= 50)
入力テキスト言語を定義します( keywordsでも使用できます)。
利用可能な言語は、アラビア語、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ハンガリー語、イタリア語、ノルウェー語、ポーランド語、ポーター、ポルトガル語、ルーマニア語、ロシア語、スペイン語、スウェーデン語です。
>>>要約(テキスト、言語= 'スペイン語')
リストとして結果を取得します( keywordsでも使用できます):
>>>要約(テキスト、split = true) ['自動要約とは、テキストドキュメントを削減するプロセスです 最も重要なものを保持する要約を作成するためのコンピュータープログラム 元のドキュメントのポイント。 ']
この作品を引用するには:
@article {dblp:journals/corr/barrioslaw16、
著者= {federico barrios and
federico l { '{o}} pez and
ルイス・アルジェリッヒと
ローザ・ワチェンチーズ}、
title = {自動化された要約のためのテキストランの類似性関数のバリエーション}、
journal = {corr}、
volume = {abs/1602.03606}、
year = {2016}、
url = {http://arxiv.org/abs/1602.03606}、
archiveprefix = {arxiv}、
eprint = {1602.03606}、
タイムスタンプ= {水、2017年6月7日14:40:43 +0200}、
biburl = {https://dblp.org/rec/bib/journals/corr/barrioslaw16}、
bibsource = {dblpコンピューターサイエンス参考文献、https://dblp.org}
}
Summaは、MITライセンス(MIT)の下でリリースされたオープンソースソフトウェアです。
Copyright(c)2014 - 現在Summa NLP。