Download do flashtext - Download do código fonte flashtext

flashtext

Outro código-fonte

1.0.0

Baixar

FlashText

Este módulo pode ser usado para substituir palavras -chave em frases ou extrair palavras -chave das frases. É baseado no algoritmo FlashText.

Instalação

 $ pip install flashtext

API Doc

A documentação pode ser encontrada no FlashText Leia os documentos.

Uso

Extrair palavras -chave

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> # keyword_processor.add_keyword(<unclean name>, <standardised name>)
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love Big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['New York', 'Bay Area']

Substitua palavras -chave

>>> keyword_processor.add_keyword( ' New Delhi ' , ' NCR region ' )
>>> new_sentence = keyword_processor.replace_keywords( ' I love Big Apple and new delhi. ' )
>>> new_sentence
>>> # 'I love New York and NCR region.'

Exemplo sensível ao caso

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor( case_sensitive = True )
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['Bay Area']

Extensão de palavras -chave extraídas

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' , span_info = True )
>>> keywords_found
>>> # [('New York', 7, 16), ('Bay Area', 21, 29)]

Obtenha informações extras com palavras -chave extraídas

>>> from flashtext import KeywordProcessor
>>> kp = KeywordProcessor()
>>> kp.add_keyword( ' Taj Mahal ' , ( ' Monument ' , ' Taj Mahal ' ))
>>> kp.add_keyword( ' Delhi ' , ( ' Location ' , ' Delhi ' ))
>>> kp.extract_keywords( ' Taj Mahal is in Delhi. ' )
>>> # [('Monument', 'Taj Mahal'), ('Location', 'Delhi')]
>>> # NOTE : replace_keywords feature won't work with this.

Sem nome limpo para palavras -chave

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['Big Apple', 'Bay Area']

Adicione várias palavras -chave simultaneamente

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> # {'clean_name': ['list of unclean names']}
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> # Or add keywords from a list:
>>> keyword_processor.add_keywords_from_list([ " java " , " python " ])
>>> keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' )
>>> # output ['product management', 'java']

Para remover palavras -chave

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> print (keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' ))
>>> # output ['product management', 'java']
>>> keyword_processor.remove_keyword( ' java_2e ' )
>>> # you can also remove keywords from a list/ dictionary
>>> keyword_processor.remove_keywords_from_dict({ " product management " : [ " PM " ]})
>>> keyword_processor.remove_keywords_from_list([ " java programing " ])
>>> keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' )
>>> # output ['product management']

Para verificar o número de termos no processador de palavras -chave

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> print ( len (keyword_processor))
>>> # output 4

Para verificar se o termo está presente no processador de palavras -chave

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' j2ee ' , ' Java ' )
>>> ' j2ee ' in keyword_processor
>>> # output: True
>>> keyword_processor.get_keyword( ' j2ee ' )
>>> # output: Java
>>> keyword_processor[ ' colour ' ] = ' color '
>>> keyword_processor[ ' colour ' ]
>>> # output: color

Obtenha todas as palavras -chave no dicionário

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' j2ee ' , ' Java ' )
>>> keyword_processor.add_keyword( ' colour ' , ' color ' )
>>> keyword_processor.get_all_keywords()
>>> # output: {'colour': 'color', 'j2ee': 'Java'}

Para detectar o limite de palavras atualmente, qualquer caractere que não seja esse w [a-zA-z0-9_] é considerado um limite de palavra.

Para definir ou adicionar caracteres como parte dos caracteres do Word

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' )
>>> print (keyword_processor.extract_keywords( ' I love Big Apple/Bay Area. ' ))
>>> # ['Big Apple']
>>> keyword_processor.add_non_word_boundary( ' / ' )
>>> print (keyword_processor.extract_keywords( ' I love Big Apple/Bay Area. ' ))
>>> # []

Teste

 $ git clone https://github.com/vi3k6i5/flashText
$ CD FlashText
$ pip install pytest
$ python setup.py teste

Construir documentos

 $ git clone https://github.com/vi3k6i5/flashText
$ CD FlashText/Docs
$ pip install sphinx
$ Make Html
$ # aberto _build/html/index.html no navegador para visualizá -lo localmente

Por que não regex?

É um algoritmo personalizado baseado no algoritmo AHO-corasick e no dicionário trie.

Tempo gasto pelo FlashText para encontrar termos em comparação com Regex.

Tempo gasto pelo FlashText para substituir os termos em comparação com o regex.

Link para o código para benchmarking o recurso de localização e substituir o recurso.

A idéia para esta biblioteca veio da seguinte pergunta do StackOverflow.

Citação

O artigo original publicado no algoritmo FlashText.

 @Article {2017Arxiv171100046s,
   autor = {{Singh}, V.},
    title = "{substitua ou recupere palavras -chave em documentos em escala}",
  Journal = {arxiv E-Prints},
ArchivePrefix = "Arxiv",
   ePrint = {1711.00046},
 primaryclass = "cs.ds",
 Palavras -chave = {ciência da computação - estruturas de dados e algoritmos},
     ano = 2017,
    mês = outubro,
   adsurl = {http://adsabs.harvard.edu/abs/2017arxiv171100046s},
  adsnote = {fornecido pelo sistema de dados SAO/NASA Astrophysics}
}

O artigo publicado no Medium Freecodecamp.