Téléchargement flashtext - Téléchargement du code source flashtext

flashtext

Autre code source

1.0.0

Télécharger

Flash

Ce module peut être utilisé pour remplacer les mots clés en phrases ou extraire les mots clés des phrases. Il est basé sur l'algorithme FlashText.

Installation

 $ pip install flashtext

API Doc

La documentation peut être trouvée sur FlashText Lire les documents.

Usage

Extraire les mots clés

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> # keyword_processor.add_keyword(<unclean name>, <standardised name>)
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love Big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['New York', 'Bay Area']

Remplacer les mots clés

>>> keyword_processor.add_keyword( ' New Delhi ' , ' NCR region ' )
>>> new_sentence = keyword_processor.replace_keywords( ' I love Big Apple and new delhi. ' )
>>> new_sentence
>>> # 'I love New York and NCR region.'

Exemple sensible à la casse

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor( case_sensitive = True )
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['Bay Area']

EST de mots clés extraits

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' , ' New York ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' , span_info = True )
>>> keywords_found
>>> # [('New York', 7, 16), ('Bay Area', 21, 29)]

Obtenez des informations supplémentaires avec des mots clés extraits

>>> from flashtext import KeywordProcessor
>>> kp = KeywordProcessor()
>>> kp.add_keyword( ' Taj Mahal ' , ( ' Monument ' , ' Taj Mahal ' ))
>>> kp.add_keyword( ' Delhi ' , ( ' Location ' , ' Delhi ' ))
>>> kp.extract_keywords( ' Taj Mahal is in Delhi. ' )
>>> # [('Monument', 'Taj Mahal'), ('Location', 'Delhi')]
>>> # NOTE : replace_keywords feature won't work with this.

Pas de nom propre pour les mots clés

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' )
>>> keyword_processor.add_keyword( ' Bay Area ' )
>>> keywords_found = keyword_processor.extract_keywords( ' I love big Apple and Bay Area. ' )
>>> keywords_found
>>> # ['Big Apple', 'Bay Area']

Ajouter plusieurs mots clés simultanément

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> # {'clean_name': ['list of unclean names']}
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> # Or add keywords from a list:
>>> keyword_processor.add_keywords_from_list([ " java " , " python " ])
>>> keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' )
>>> # output ['product management', 'java']

Pour supprimer les mots clés

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> print (keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' ))
>>> # output ['product management', 'java']
>>> keyword_processor.remove_keyword( ' java_2e ' )
>>> # you can also remove keywords from a list/ dictionary
>>> keyword_processor.remove_keywords_from_dict({ " product management " : [ " PM " ]})
>>> keyword_processor.remove_keywords_from_list([ " java programing " ])
>>> keyword_processor.extract_keywords( ' I am a product manager for a java_2e platform ' )
>>> # output ['product management']

Pour vérifier le nombre de termes dans KeywordProcessor

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_dict = {
>>>     " java " : [ " java_2e " , " java programing " ],
>>>     " product management " : [ " PM " , " product manager " ]
>>> }
>>> keyword_processor.add_keywords_from_dict(keyword_dict)
>>> print ( len (keyword_processor))
>>> # output 4

Pour vérifier si le terme est présent dans KeywordProcessor

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' j2ee ' , ' Java ' )
>>> ' j2ee ' in keyword_processor
>>> # output: True
>>> keyword_processor.get_keyword( ' j2ee ' )
>>> # output: Java
>>> keyword_processor[ ' colour ' ] = ' color '
>>> keyword_processor[ ' colour ' ]
>>> # output: color

Obtenez tous les mots clés dans le dictionnaire

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' j2ee ' , ' Java ' )
>>> keyword_processor.add_keyword( ' colour ' , ' color ' )
>>> keyword_processor.get_all_keywords()
>>> # output: {'colour': 'color', 'j2ee': 'Java'}

Pour détecter la limite des mots actuellement, tout caractère autre que ce w [a-za-z0-9_] est considéré comme une limite de mot.

Pour définir ou ajouter des caractères dans le cadre de caractères de mots

>>> from flashtext import KeywordProcessor
>>> keyword_processor = KeywordProcessor()
>>> keyword_processor.add_keyword( ' Big Apple ' )
>>> print (keyword_processor.extract_keywords( ' I love Big Apple/Bay Area. ' ))
>>> # ['Big Apple']
>>> keyword_processor.add_non_word_boundary( ' / ' )
>>> print (keyword_processor.extract_keywords( ' I love Big Apple/Bay Area. ' ))
>>> # []

Test

 $ git clone https://github.com/vi3k6i5/flashtext
$ CD FlashText
$ pip install pytest
$ python setup.py test

Construire des documents

 $ git clone https://github.com/vi3k6i5/flashtext
$ CD FlashText / Docs
$ pip install sphinx
$ faire html
$ # ouvrir _build / html / index.html dans le navigateur pour le voir localement

Pourquoi pas l'expression regex?

C'est un algorithme personnalisé basé sur l'algorithme Aho-Corasick et le dictionnaire de trie.

Temps pris par FlashText pour trouver des termes par rapport à Regex.

Temps pris par FlashText pour remplacer les termes par rapport à l'expulsion.

Lien vers le code pour l'analyse comparative de la fonction Recherche et remplacez la fonctionnalité.

L'idée de cette bibliothèque est venue de la question de Stackoverflow suivante.

Citation

L'article original publié sur l'algorithme FlashText.

 @Article {2017Arxiv171100046s,
   auteur = {{Singh}, V.},
    title = "{remplacer ou récupérer des mots clés dans des documents à l'échelle}",
  journal = {arxiv e-imprimés},
archivePrefix = "arXiv",
   eprint = {1711.00046},
 primaireClass = "cs.ds",
 Mots-clés = {informatique - structures de données et algorithmes},
     année = 2017,
    mois = oct
   adsurl = {http://adsabs.harvard.edu/abs/2017arxiv171100046s},
  ADSNOTE = {fourni par le système de données Astrophysics SAO / NASA}
}

L'article publié sur Medium FreeCodeCamp.