flashtextダウンロードflashtextソースコードのダウンロード

flashtext

その他のソースコード

1.0.0

ダウンロード

flashtext

このモジュールを使用して、文のキーワードを置き換えたり、文からキーワードを抽出したりすることができます。 FlashTextアルゴリズムに基づいています。

インストール

$ PIPインストールFlashText

APIドキュメント

ドキュメントは、flashtextでドキュメントを読むことができます。

使用法

キーワードを抽出します

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> # keyword_processor.add_keyword(<unclean name>, <standardised name>)
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love Big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['New York', 'Bay Area']

キーワードを交換します

>>> keyword_processor.add_keyword( ' New Delhi ' , ' NCR region ' )
>>> new_sentence = keyword_processor.replace_keywords( ' I love Big Apple and new delhi. ' )
>>> new_sentence
>>> # 'I love New York and NCR region.'

ケースに敏感な例

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor( case_sensitive = True )
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['Bay Area']

抽出されたキーワードのスパン

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' , span_info = True )
>>> keywords_found
>>> # [('New York', 7, 16), ('Bay Area', 21, 29)]

抽出されたキーワードで追加の情報を取得します

>>> from flashtext import KeywordProcessor
>>> kp = KeywordProcessor()
>>> kp.add_keyword( ' Taj Mahal ' , ( ' Monument ' , ' Taj Mahal ' ))
>>> kp.add_keyword( ' Delhi ' , ( ' Location ' , ' Delhi ' ))
>>> kp.extract_keywords( ' Taj Mahal is in Delhi. ' )
>>> # [('Monument', 'Taj Mahal'), ('Location', 'Delhi')]
>>> # NOTE : replace_keywords feature won't work with this.

キーワードにはきれいな名前はありません

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['Big Apple', 'Bay Area']

複数のキーワードを同時に追加します

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> # {'clean_name': ['list of unclean names']}
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> # Or add keywords from a list:
>>> keyword_processor.add_keywords_from_list([ " java " , " python " ])
>>> keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' )
>>> # output ['product management', 'java']

キーワードを削除します

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> print (keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' ))
>>> # output ['product management', 'java']
>>> keyword_processor.remove_keyword( ' java_2e ' )
>>> # you can also remove keywords from a list/ dictionary
>>> keyword_processor.remove_keywords_from_dict({ " product management " : [ " PM " ]})
>>> keyword_processor.remove_keywords_from_list([ " java programing " ])
>>> keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' )
>>> # output ['product management']

KeyWordProcessorの用語の数を確認します

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> print ( len (keyword_processor))
>>> # output 4

KeywordProcessorに用語が存在するかどうかを確認します

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' j2ee ' , ' Java ' )
>>> ' j2ee ' in keyword_processor
>>> # output: True
>>> keyword_processor.get_keyword( ' j2ee ' )
>>> # output: Java
>>> keyword_processor[ ' colour ' ] = ' color '
>>> keyword_processor[ ' colour ' ]
>>> # output: color

辞書ですべてのキーワードを取得します

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' j2ee ' , ' Java ' )
>>> keyword_processor.add_keyword( ' colour ' , ' color ' )
>>> keyword_processor.get_all_keywords()
>>> # output: {'colour': 'color', 'j2ee': 'Java'}

現在、単語の境界を検出するために、この w [a-za-z0-9_]以外の文字は単語境界と見なされます。

単語文字の一部として文字を設定または追加するには

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' )
>>> print (keyword_processor.extract_keywords( ' I love Big Apple/Bay Area. ' ))
>>> # ['Big Apple']
>>> keyword_processor.add_non_word_boundary( ' / ' )
>>> print (keyword_processor.extract_keywords( ' I love Big Apple/Bay Area. ' ))
>>> # []

テスト

$ git clone https://github.com/vi3k6i5/flashtext
$ cd flashtext
$ pipインストールpytest
$ python setup.pyテスト

ドキュメントを作成します

$ git clone https://github.com/vi3k6i5/flashtext
$ cd flashtext/docs
$ PIPインストールSphinx
$ make html
$＃open _build/html/index.html in browser in local in local

復活しないのはなぜですか？

Aho-CorasickアルゴリズムとTrie Dictionaryに基づくカスタムアルゴリズムです。

Regexと比較して用語を見つけるためにFlashTextによって取られた時間。

Regexと比較して用語を置き換えるためにFlashTextによって取られた時間。

検索機能と置換機能をベンチマークするためのコードへのリンク。

このライブラリのアイデアは、次のStackOverFlowの質問から来ました。

引用

FlashTextアルゴリズムで公開された元の論文。

 @article {2017ARXIV171100046S、
   著者= {{singh}、V。}、
    title = "{規模のドキュメントでキーワードを交換または取得}"、
  journal = {arxiv e-prints}、
archiveprefix = "arxiv"、
   eprint = {1711.00046}、
 PrimaryClass = "cs.ds"、
 キーワード= {コンピューターサイエンス - データ構造とアルゴリズム}、
     年= 2017、
    月= OCT、
   adsurl = {http://adsabs.harvard.edu/abs/2017ARXIV171100046S}、
  adsnote = {sao/nasa天体物理学データシステムによって提供}
}

Medium FreeCodecampで公開された記事。

貢献する

問題トラッカー：https：//github.com/vi3k6i5/flashtext/issues
ソースコード：https：//github.com/vi3k6i5/flashtext/

ライセンス

このプロジェクトは、MITライセンスに基づいてライセンスされています。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-18
サイズ 108.03KB
から Github

flashtext

flashtext

インストール

APIドキュメント

使用法

テスト

ドキュメントを作成します

復活しないのはなぜですか？

引用

貢献する

ライセンス

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express