Download der KeyphraseVectorizers - KeyphraseVectorizers Quellcode Download

KeyphraseVectorizer

Dieses Paket wurde während des Schreibens unseres Musterrankpapiers entwickelt. Sie können das Papier hier überprüfen. Wenn Sie TastaturenVectorizer oder Musterrank in akademischen Papieren und Thesen verwenden, verwenden Sie bitte den folgenden Bibtex -Eintrag.

Satz von Vektorisierern, die Tastaturen mit Teil der Speech-Muster aus einer Sammlung von Textdokumenten extrahieren und sie in eine Dokument-Keyphrase-Matrix umwandeln. Eine Dokument-Keyphrase-Matrix ist eine mathematische Matrix, die die Häufigkeit von Tastaturen beschreibt, die in einer Sammlung von Dokumenten auftreten. Die Matrixzeilen geben die Textdokumente und Spalten an, die die eindeutigen Tastaturen anzeigen.

Das Paket enthält Wrapper der sklearn.feature_extraction.text.countVectorizer und sklearn.feature_extraction.text.tfidfVectorizer -Klassen. Anstatt N-Gramm-Token eines vordefinierten Bereichs zu verwenden, extrahieren diese Klassen Tastaturen aus Textdokumenten mithilfe von Teil-von-Speech-Tags, um Dokument-Keyphrase-Matrizen zu berechnen.

Entsprechende mittlere Beiträge finden Sie hier und hier.

Vorteile

Extrahieren Sie grammatikalisch genaue Tastaturen basierend auf ihren Teil der Speech-Tags.
Keine Notwendigkeit, N-Gramm-Bereiche anzugeben.
Holen Sie sich Dokument-Keyphrase-Matrizen.
Mehrfachsprachenunterstützung.
Benutzerdefinierte Teil der Sprache für die Tastaturextraktion möglich.

Inhaltsverzeichnis

Wie funktioniert es?
Installation
Verwendung
1. TastatureCountVectorizer
  1. Englische Sprache
  2. Andere Sprachen
2. TastePhrasetfidfVectorizer
3. Verwenden Sie ein Spacy -Sprachobjekt wieder
4. Benutzerdefinierte pos-tagger
5. Musterrank: Tastaturextraktion mit TastatureVectorizers und Keybert
6. Themenmodellierung mit Bertopic- und TastatureVectorizern
7. Online -TastatureVectorizer
Zitierinformationen

Wie funktioniert es?

Zunächst sind die Dokumenttexte mit Spacy-Teil-von-Speech-Tags mit Spact-Tags kommentiert. Hier ist eine Liste aller möglichen Spacy-Teil-von-Speech-Tags für verschiedene Sprachen verknüpft. Die Annotation erfordert das Übergeben der Spacy -Pipeline der entsprechenden Sprache mit dem Parameter spacy_pipeline an den Vectorizer.

Zweitens werden Wörter aus den Dokumenttexten extrahiert, deren Teil der Speech-Tags dem im Parameter pos_pattern definierten Regex-Muster übereinstimmen. Die Tastaturen sind eine Liste einzigartiger Wörter, die mit dieser Methode aus Textdokumenten extrahiert wurden.

Schließlich berechnen die Vektorisierer Dokument-Keyphrase-Matrizen.

Installation

 pip install keyphrase-vectorizers

Verwendung

Ausführliche Informationen finden Sie im API -Leitfaden.

TastatureCountVectorizer

Zurück zum Inhaltsverzeichnis

Englische Sprache

 from keyphrase_vectorizers import KeyphraseCountVectorizer

docs = [ """Supervised learning is the machine learning task of learning a function that
         maps an input to an output based on example input-output pairs. It infers a
         function from labeled training data consisting of a set of training examples.
         In supervised learning, each example is a pair consisting of an input object
         (typically a vector) and a desired output value (also called the supervisory signal). 
         A supervised learning algorithm analyzes the training data and produces an inferred function, 
         which can be used for mapping new examples. An optimal scenario will allow for the 
         algorithm to correctly determine the class labels for unseen instances. This requires 
         the learning algorithm to generalize from the training data to unseen situations in a 
         'reasonable' way (see inductive bias).""" , 
             
        """Keywords are defined as phrases that capture the main topics discussed in a document. 
        As they offer a brief yet precise summary of document content, they can be utilized for various applications. 
        In an information retrieval environment, they serve as an indication of document relevance for users, as the list 
        of keywords can quickly help to determine whether a given document is relevant to their interest. 
        As keywords reflect a document's main topics, they can be utilized to classify documents into groups 
        by measuring the overlap between the keywords assigned to them. Keywords are also used proactively 
        in information retrieval.""" ]
        
# Init default vectorizer.
vectorizer = KeyphraseCountVectorizer ()

# Print parameters
print ( vectorizer . get_params ())
> >> { 'binary' : False , 'dtype' : < class 'numpy.int64' > , 'lowercase' : True , 'max_df' : None , 'min_df' : None , 'pos_pattern' : '<J.*>*<N.*>+' , 'spacy_exclude' : [ 'parser' , 'attribute_ruler' , 'lemmatizer' , 'ner' ], 'spacy_pipeline' : 'en_core_web_sm' , 'stop_words' : 'english' , 'workers' : 1 }

Standardmäßig wird der Vectorizer für die englische Sprache initialisiert. Das heißt, eine englische spacy_pipeline wird angegeben, englische stop_words werden entfernt, und die pos_pattern Schlüsselwörter mit 0 oder mehr Adjektiven extrahieren, gefolgt von 1 oder mehr Substantiven mit den englischen Space-Teil-von-Speech-Tags. Darüber hinaus werden die Spacy -Pipeline -Komponenten ['parser', 'attribute_ruler', 'lemmatizer', 'ner'] standardmäßig ausgeschlossen, um die Effizienz zu erhöhen. Wenn Sie eine andere spacy_pipeline wählen, müssen Sie möglicherweise verschiedene Pipeline -Komponenten mit dem Parameter spacy_exclude ausschließen/einfügen, damit der Spacy POS -Tagger ordnungsgemäß funktioniert.

 # After initializing the vectorizer, it can be fitted
# to learn the keyphrases from the text documents.
vectorizer . fit ( docs )

 # After learning the keyphrases, they can be returned.
keyphrases = vectorizer . get_feature_names_out ()

print ( keyphrases )
> >> [ 'users' 'main topics' 'learning algorithm' 'overlap' 'documents' 'output'
 'keywords' 'precise summary' 'new examples' 'training data' 'input'
 'document content' 'training examples' 'unseen instances'
 'optimal scenario' 'document' 'task' 'supervised learning algorithm'
 'example' 'interest' 'function' 'example input' 'various applications'
 'unseen situations' 'phrases' 'indication' 'inductive bias'
 'supervisory signal' 'document relevance' 'information retrieval' 'set'
 'input object' 'groups' 'output value' 'list' 'learning' 'output pairs'
 'pair' 'class labels' 'supervised learning' 'machine'
 'information retrieval environment' 'algorithm' 'vector' 'way' ]

 # After fitting, the vectorizer can transform the documents 
# to a document-keyphrase matrix.
# Matrix rows indicate the documents and columns indicate the unique keyphrases.
# Each cell represents the count.
document_keyphrase_matrix = vectorizer . transform ( docs ). toarray ()

print ( document_keyphrase_matrix )
> >> [[ 0 0 2 0 0 3 0 0 1 3 3 0 1 1 1 0 1 1 2 0 3 1 0 1 0 0 1 1 0 0 1 1 0 1 0 6
  1 1 1 3 1 0 3 1 1 ]
 [ 1 2 0 1 1 0 5 1 0 0 0 1 0 0 0 5 0 0 0 1 0 0 1 0 1 1 0 0 1 2 0 0 1 0 1 0
  0 0 0 0 0 1 0 0 0 ]]

 # Fit and transform can also be executed in one step, 
# which is more efficient. 
document_keyphrase_matrix = vectorizer . fit_transform ( docs ). toarray ()

print ( document_keyphrase_matrix )
> >> [[ 0 0 2 0 0 3 0 0 1 3 3 0 1 1 1 0 1 1 2 0 3 1 0 1 0 0 1 1 0 0 1 1 0 1 0 6
  1 1 1 3 1 0 3 1 1 ]
 [ 1 2 0 1 1 0 5 1 0 0 0 1 0 0 0 5 0 0 0 1 0 0 1 0 1 1 0 0 1 2 0 0 1 0 1 0
  0 0 0 0 0 1 0 0 0 ]]

Andere Sprachen

Zurück zum Inhaltsverzeichnis

 german_docs = [ """Goethe stammte aus einer angesehenen bürgerlichen Familie. 
                Sein Großvater mütterlicherseits war als Stadtschultheiß höchster Justizbeamter der Stadt Frankfurt, 
                sein Vater Doktor der Rechte und Kaiserlicher Rat. Er und seine Schwester Cornelia erfuhren eine aufwendige 
                Ausbildung durch Hauslehrer. Dem Wunsch seines Vaters folgend, studierte Goethe in Leipzig und Straßburg 
                Rechtswissenschaft und war danach als Advokat in Wetzlar und Frankfurt tätig. 
                Gleichzeitig folgte er seiner Neigung zur Dichtkunst.""" ,
              
               """Friedrich Schiller wurde als zweites Kind des Offiziers, Wundarztes und Leiters der Hofgärtnerei in 
               Marbach am Neckar Johann Kaspar Schiller und dessen Ehefrau Elisabetha Dorothea Schiller, geb. Kodweiß, 
               die Tochter eines Wirtes und Bäckers war, 1759 in Marbach am Neckar geboren
               """ ]
# Init vectorizer for the german language
vectorizer = KeyphraseCountVectorizer ( spacy_pipeline = 'de_core_news_sm' , pos_pattern = '<ADJ.*>*<N.*>+' , stop_words = 'german' )

Die deutsche spacy_pipeline ist angegeben und Deutsch stop_words werden entfernt. Da sich die Deutschen Spacy-Teil-von-Speech-Tags von den englischen unterscheiden, wird auch der pos_pattern Parameter angepasst. Das Regex-Muster <ADJ.*>*<N.*>+ Extrahiert Schlüsselwörter mit 0 oder mehr Adjektiven, gefolgt von 1 oder mehr Substantiven unter Verwendung der deutschen Spray-Speech-Tags.

Aufmerksamkeit! Die Spacy Pipeline -Komponenten ['parser', 'attribute_ruler', 'lemmatizer', 'ner'] werden standardmäßig ausgeschlossen, um die Effizienz zu steigern. Wenn Sie eine andere spacy_pipeline wählen, müssen Sie möglicherweise verschiedene Pipeline -Komponenten mit dem Parameter spacy_exclude ausschließen/einfügen, damit der Spacy POS -Tagger ordnungsgemäß funktioniert.

TastePhrasetfidfVectorizer

Zurück zum Inhaltsverzeichnis

Der KeyphraseTfidfVectorizer hat die gleichen Funktionsaufrufe und Funktionen wie der KeyphraseCountVectorizer . Der einzige Unterschied besteht darin, dass dokument-keyphrase-Matrixzellen TF- oder TF-IDF-Werte abhängig von den Parametereinstellungen anstelle von Zählungen darstellen.

 from keyphrase_vectorizers import KeyphraseTfidfVectorizer

docs = [ """Supervised learning is the machine learning task of learning a function that
         maps an input to an output based on example input-output pairs. It infers a
         function from labeled training data consisting of a set of training examples.
         In supervised learning, each example is a pair consisting of an input object
         (typically a vector) and a desired output value (also called the supervisory signal). 
         A supervised learning algorithm analyzes the training data and produces an inferred function, 
         which can be used for mapping new examples. An optimal scenario will allow for the 
         algorithm to correctly determine the class labels for unseen instances. This requires 
         the learning algorithm to generalize from the training data to unseen situations in a 
         'reasonable' way (see inductive bias).""" , 
             
        """Keywords are defined as phrases that capture the main topics discussed in a document. 
        As they offer a brief yet precise summary of document content, they can be utilized for various applications. 
        In an information retrieval environment, they serve as an indication of document relevance for users, as the list 
        of keywords can quickly help to determine whether a given document is relevant to their interest. 
        As keywords reflect a document's main topics, they can be utilized to classify documents into groups 
        by measuring the overlap between the keywords assigned to them. Keywords are also used proactively 
        in information retrieval.""" ]
        
# Init default vectorizer for the English language that computes tf-idf values
vectorizer = KeyphraseTfidfVectorizer ()

# Print parameters
print ( vectorizer . get_params ())
> >> { 'binary' : False , 'custom_pos_tagger' : None , 'decay' : None , 'delete_min_df' : None , 'dtype' : <


class 'numpy.int64' > , 'lowercase' : True , 'max_df' : None

, 'min_df' : None , 'pos_pattern' : '<J.*>*<N.*>+' , 'spacy_exclude' : [ 'parser' , 'attribute_ruler' , 'lemmatizer' , 'ner' ,
                                                                   'textcat' ], 'spacy_pipeline' : 'en_core_web_sm' , 'stop_words' : 'english' , 'workers' : 1 }

Um stattdessen TF -Werte zu berechnen, setzen Sie use_idf=False .

 # Fit and transform to document-keyphrase matrix.
document_keyphrase_matrix = vectorizer . fit_transform ( docs ). toarray ()

print ( document_keyphrase_matrix )
> >> [[ 0.         0.         0.09245003 0.09245003 0.09245003 0.09245003
  0.2773501  0.09245003 0.2773501  0.2773501  0.09245003 0.
  0.         0.09245003 0.         0.2773501  0.09245003 0.09245003
  0.         0.09245003 0.09245003 0.09245003 0.09245003 0.09245003
  0.5547002  0.         0.         0.09245003 0.09245003 0.
  0.2773501  0.18490007 0.09245003 0.         0.2773501  0.
  0.         0.09245003 0.         0.09245003 0.         0.
  0.         0.18490007 0.        ]
 [ 0.11867817 0.11867817 0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.11867817
  0.11867817 0.         0.11867817 0.         0.         0.
  0.11867817 0.         0.         0.         0.         0.
  0.         0.11867817 0.23735633 0.         0.         0.11867817
  0.         0.         0.         0.23735633 0.         0.11867817
  0.11867817 0.         0.59339083 0.         0.11867817 0.11867817
  0.11867817 0.         0.59339083 ]]

 # Return keyphrases
keyphrases = vectorizer . get_feature_names_out ()

print ( keyphrases )
> >> [ 'various applications' 'list' 'task' 'supervisory signal'
 'inductive bias' 'supervised learning algorithm' 'supervised learning'
 'example input' 'input' 'algorithm' 'set' 'precise summary' 'documents'
 'input object' 'interest' 'function' 'class labels' 'machine'
 'document content' 'output pairs' 'new examples' 'unseen situations'
 'vector' 'output value' 'learning' 'document relevance' 'main topics'
 'pair' 'training examples' 'information retrieval environment'
 'training data' 'example' 'optimal scenario' 'information retrieval'
 'output' 'groups' 'indication' 'unseen instances' 'keywords' 'way'
 'phrases' 'overlap' 'users' 'learning algorithm' 'document' ]

Verwenden Sie ein Spacy -Sprachobjekt wieder

Zurück zum Inhaltsverzeichnis

TastatureVectorizers lädt ein spacy.Language -Objekt für jedes KeyphraseVectorizer -Objekt. Bei der Verwendung mehrerer KeyphraseVectorizer -Objekte ist es effizienter, das Objekt von spacy.Language vorher zu laden und als Argument spacy_pipeline zu übergeben.

 import spacy
from keyphrase_vectorizers import KeyphraseCountVectorizer , KeyphraseTfidfVectorizer

docs = [ """Supervised learning is the machine learning task of learning a function that
         maps an input to an output based on example input-output pairs. It infers a
         function from labeled training data consisting of a set of training examples.
         In supervised learning, each example is a pair consisting of an input object
         (typically a vector) and a desired output value (also called the supervisory signal). 
         A supervised learning algorithm analyzes the training data and produces an inferred function, 
         which can be used for mapping new examples. An optimal scenario will allow for the 
         algorithm to correctly determine the class labels for unseen instances. This requires 
         the learning algorithm to generalize from the training data to unseen situations in a 
         'reasonable' way (see inductive bias).""" , 
             
        """Keywords are defined as phrases that capture the main topics discussed in a document. 
        As they offer a brief yet precise summary of document content, they can be utilized for various applications. 
        In an information retrieval environment, they serve as an indication of document relevance for users, as the list 
        of keywords can quickly help to determine whether a given document is relevant to their interest. 
        As keywords reflect a document's main topics, they can be utilized to classify documents into groups 
        by measuring the overlap between the keywords assigned to them. Keywords are also used proactively 
        in information retrieval.""" ]

nlp = spacy . load ( "en_core_web_sm" )

vectorizer1 = KeyphraseCountVectorizer ( spacy_pipeline = nlp )
vectorizer2 = KeyphraseTfidfVectorizer ( spacy_pipeline = nlp )

# the following calls use the nlp object
vectorizer1 . fit ( docs )
vectorizer2 . fit ( docs )

Benutzerdefinierte pos-tagger

Zurück zum Inhaltsverzeichnis

Um einen anderen Teil des Speech-Taggers zu verwenden als die von Spacy bereitgestellten, kann eine benutzerdefinierte POS-Tagger-Funktion definiert und über den Parameter custom_pos_tagger an die TastatureVectorizer übergeben und übergeben werden. Dieser Parameter erwartet eine aufrufbare Funktion, die wiederum eine Liste von Zeichenfolgen in einem Parameter 'raw_documents' erwarten muss und eine Liste von (Word-Token, POS-Tag) -Tupeln zurückgeben muss. Wenn dieser Parameter nicht ist, wird die benutzerdefinierte Tagger-Funktion verwendet, um Wörter mit Speech-Teilen zu markieren, während die Spacy-Pipeline ignoriert wird.

Beispiel mit Flair:

Flair kann über pip install flair .

 from typing import List
import flair
from flair . models import SequenceTagger
from flair . tokenization import SegtokSentenceSplitter


docs = [ """Supervised learning is the machine learning task of learning a function that
         maps an input to an output based on example input-output pairs. It infers a
         function from labeled training data consisting of a set of training examples.
         In supervised learning, each example is a pair consisting of an input object
         (typically a vector) and a desired output value (also called the supervisory signal). 
         A supervised learning algorithm analyzes the training data and produces an inferred function, 
         which can be used for mapping new examples. An optimal scenario will allow for the 
         algorithm to correctly determine the class labels for unseen instances. This requires 
         the learning algorithm to generalize from the training data to unseen situations in a 
         'reasonable' way (see inductive bias).""" , 
             
        """Keywords are defined as phrases that capture the main topics discussed in a document. 
        As they offer a brief yet precise summary of document content, they can be utilized for various applications. 
        In an information retrieval environment, they serve as an indication of document relevance for users, as the list 
        of keywords can quickly help to determine whether a given document is relevant to their interest. 
        As keywords reflect a document's main topics, they can be utilized to classify documents into groups 
        by measuring the overlap between the keywords assigned to them. Keywords are also used proactively 
        in information retrieval.""" ]

# define flair POS-tagger and splitter
tagger = SequenceTagger . load ( 'pos' )
splitter = SegtokSentenceSplitter ()

# define custom POS-tagger function using flair
def custom_pos_tagger ( raw_documents : List [ str ], tagger : flair . models . SequenceTagger = tagger , splitter : flair . tokenization . SegtokSentenceSplitter = splitter ) -> List [ tuple ]:
    """
    Important: 

    The mandatory 'raw_documents' parameter can NOT be named differently and has to expect a list of strings. 
    Any other parameter of the custom POS-tagger function can be arbitrarily defined, depending on the respective use case. 
    Furthermore the function has to return a list of (word token, POS-tag) tuples.
    """ 
    # split texts into sentences
    sentences = []
    for doc in raw_documents :
        sentences . extend ( splitter . split ( doc ))

    # predict POS tags
    tagger . predict ( sentences )

    # iterate through sentences to get word tokens and predicted POS-tags
    pos_tags = []
    words = []
    for sentence in sentences :
        pos_tags . extend ([ label . value for label in sentence . get_labels ( 'pos' )])
        words . extend ([ word . text for word in sentence ])
    
    return list ( zip ( words , pos_tags ))


# check that the custom POS-tagger function returns a list of (word token, POS-tag) tuples
print ( custom_pos_tagger ( raw_documents = docs ))

> >> [( 'Supervised' , 'VBN' ), ( 'learning' , 'NN' ), ( 'is' , 'VBZ' ), ( 'the' , 'DT' ), ( 'machine' , 'NN' ), ( 'learning' , 'VBG' ), ( 'task' , 'NN' ), ( 'of' , 'IN' ), ( 'learning' , 'VBG' ), ( 'a' , 'DT' ), ( 'function' , 'NN' ), ( 'that' , 'WDT' ), ( 'maps' , 'VBZ' ), ( 'an' , 'DT' ), ( 'input' , 'NN' ), ( 'to' , 'IN' ), ( 'an' , 'DT' ), ( 'output' , 'NN' ), ( 'based' , 'VBN' ), ( 'on' , 'IN' ), ( 'example' , 'NN' ), ( 'input-output' , 'NN' ), ( 'pairs' , 'NNS' ), ( '.' , '.' ), ( 'It' , 'PRP' ), ( 'infers' , 'VBZ' ), ( 'a' , 'DT' ), ( 'function' , 'NN' ), ( 'from' , 'IN' ), ( 'labeled' , 'VBN' ), ( 'training' , 'NN' ), ( 'data' , 'NNS' ), ( 'consisting' , 'VBG' ), ( 'of' , 'IN' ), ( 'a' , 'DT' ), ( 'set' , 'NN' ), ( 'of' , 'IN' ), ( 'training' , 'NN' ), ( 'examples' , 'NNS' ), ( '.' , '.' ), ( 'In' , 'IN' ), ( 'supervised' , 'JJ' ), ( 'learning' , 'NN' ), ( ',' , ',' ), ( 'each' , 'DT' ), ( 'example' , 'NN' ), ( 'is' , 'VBZ' ), ( 'a' , 'DT' ), ( 'pair' , 'NN' ), ( 'consisting' , 'VBG' ), ( 'of' , 'IN' ), ( 'an' , 'DT' ), ( 'input' , 'NN' ), ( 'object' , 'NN' ), ( '(' , ':' ), ( 'typically' , 'RB' ), ( 'a' , 'DT' ), ( 'vector' , 'NN' ), ( ')' , ',' ), ( 'and' , 'CC' ), ( 'a' , 'DT' ), ( 'desired' , 'VBN' ), ( 'output' , 'NN' ), ( 'value' , 'NN' ), ( '(' , ',' ), ( 'also' , 'RB' ), ( 'called' , 'VBN' ), ( 'the' , 'DT' ), ( 'supervisory' , 'JJ' ), ( 'signal' , 'NN' ), ( ')' , '-RRB-' ), ( '.' , '.' ), ( 'A' , 'DT' ), ( 'supervised' , 'JJ' ), ( 'learning' , 'NN' ), ( 'algorithm' , 'NN' ), ( 'analyzes' , 'VBZ' ), ( 'the' , 'DT' ), ( 'training' , 'NN' ), ( 'data' , 'NNS' ), ( 'and' , 'CC' ), ( 'produces' , 'VBZ' ), ( 'an' , 'DT' ), ( 'inferred' , 'JJ' ), ( 'function' , 'NN' ), ( ',' , ',' ), ( 'which' , 'WDT' ), ( 'can' , 'MD' ), ( 'be' , 'VB' ), ( 'used' , 'VBN' ), ( 'for' , 'IN' ), ( 'mapping' , 'VBG' ), ( 'new' , 'JJ' ), ( 'examples' , 'NNS' ), ( '.' , '.' ), ( 'An' , 'DT' ), ( 'optimal' , 'JJ' ), ( 'scenario' , 'NN' ), ( 'will' , 'MD' ), ( 'allow' , 'VB' ), ( 'for' , 'IN' ), ( 'the' , 'DT' ), ( 'algorithm' , 'NN' ), ( 'to' , 'TO' ), ( 'correctly' , 'RB' ), ( 'determine' , 'VB' ), ( 'the' , 'DT' ), ( 'class' , 'NN' ), ( 'labels' , 'NNS' ), ( 'for' , 'IN' ), ( 'unseen' , 'JJ' ), ( 'instances' , 'NNS' ), ( '.' , '.' ), ( 'This' , 'DT' ), ( 'requires' , 'VBZ' ), ( 'the' , 'DT' ), ( 'learning' , 'NN' ), ( 'algorithm' , 'NN' ), ( 'to' , 'TO' ), ( 'generalize' , 'VB' ), ( 'from' , 'IN' ), ( 'the' , 'DT' ), ( 'training' , 'NN' ), ( 'data' , 'NNS' ), ( 'to' , 'IN' ), ( 'unseen' , 'JJ' ), ( 'situations' , 'NNS' ), ( 'in' , 'IN' ), ( 'a' , 'DT' ), ( "'" , '``' ), ( 'reasonable' , 'JJ' ), ( "'" , "''" ), ( 'way' , 'NN' ), ( '(' , ',' ), ( 'see' , 'VB' ), ( 'inductive' , 'JJ' ), ( 'bias' , 'NN' ), ( ')' , '-RRB-' ), ( '.' , '.' ), ( 'Keywords' , 'NNS' ), ( 'are' , 'VBP' ), ( 'defined' , 'VBN' ), ( 'as' , 'IN' ), ( 'phrases' , 'NNS' ), ( 'that' , 'WDT' ), ( 'capture' , 'VBP' ), ( 'the' , 'DT' ), ( 'main' , 'JJ' ), ( 'topics' , 'NNS' ), ( 'discussed' , 'VBN' ), ( 'in' , 'IN' ), ( 'a' , 'DT' ), ( 'document' , 'NN' ), ( '.' , '.' ), ( 'As' , 'IN' ), ( 'they' , 'PRP' ), ( 'offer' , 'VBP' ), ( 'a' , 'DT' ), ( 'brief' , 'JJ' ), ( 'yet' , 'CC' ), ( 'precise' , 'JJ' ), ( 'summary' , 'NN' ), ( 'of' , 'IN' ), ( 'document' , 'NN' ), ( 'content' , 'NN' ), ( ',' , ',' ), ( 'they' , 'PRP' ), ( 'can' , 'MD' ), ( 'be' , 'VB' ), ( 'utilized' , 'VBN' ), ( 'for' , 'IN' ), ( 'various' , 'JJ' ), ( 'applications' , 'NNS' ), ( '.' , '.' ), ( 'In' , 'IN' ), ( 'an' , 'DT' ), ( 'information' , 'NN' ), ( 'retrieval' , 'NN' ), ( 'environment' , 'NN' ), ( ',' , ',' ), ( 'they' , 'PRP' ), ( 'serve' , 'VBP' ), ( 'as' , 'IN' ), ( 'an' , 'DT' ), ( 'indication' , 'NN' ), ( 'of' , 'IN' ), ( 'document' , 'NN' ), ( 'relevance' , 'NN' ), ( 'for' , 'IN' ), ( 'users' , 'NNS' ), ( ',' , ',' ), ( 'as' , 'IN' ), ( 'the' , 'DT' ), ( 'list' , 'NN' ), ( 'of' , 'IN' ), ( 'keywords' , 'NNS' ), ( 'can' , 'MD' ), ( 'quickly' , 'RB' ), ( 'help' , 'VB' ), ( 'to' , 'TO' ), ( 'determine' , 'VB' ), ( 'whether' , 'IN' ), ( 'a' , 'DT' ), ( 'given' , 'VBN' ), ( 'document' , 'NN' ), ( 'is' , 'VBZ' ), ( 'relevant' , 'JJ' ), ( 'to' , 'IN' ), ( 'their' , 'PRP$' ), ( 'interest' , 'NN' ), ( '.' , '.' ), ( 'As' , 'IN' ), ( 'keywords' , 'NNS' ), ( 'reflect' , 'VBP' ), ( 'a' , 'DT' ), ( 'document' , 'NN' ), ( "'s" , 'POS' ), ( 'main' , 'JJ' ), ( 'topics' , 'NNS' ), ( ',' , ',' ), ( 'they' , 'PRP' ), ( 'can' , 'MD' ), ( 'be' , 'VB' ), ( 'utilized' , 'VBN' ), ( 'to' , 'TO' ), ( 'classify' , 'VB' ), ( 'documents' , 'NNS' ), ( 'into' , 'IN' ), ( 'groups' , 'NNS' ), ( 'by' , 'IN' ), ( 'measuring' , 'VBG' ), ( 'the' , 'DT' ), ( 'overlap' , 'NN' ), ( 'between' , 'IN' ), ( 'the' , 'DT' ), ( 'keywords' , 'NNS' ), ( 'assigned' , 'VBN' ), ( 'to' , 'IN' ), ( 'them' , 'PRP' ), ( '.' , '.' ), ( 'Keywords' , 'NNS' ), ( 'are' , 'VBP' ), ( 'also' , 'RB' ), ( 'used' , 'VBN' ), ( 'proactively' , 'RB' ), ( 'in' , 'IN' ), ( 'information' , 'NN' ), ( 'retrieval' , 'NN' ), ( '.' , '.' )]

Nachdem die benutzerdefinierte POS-Tagger-Funktion definiert ist, kann sie über den Parameter custom_pos_tagger an TastatureVectorizer übergeben werden.

 from keyphrase_vectorizers import KeyphraseCountVectorizer

# use custom POS-tagger with KeyphraseVectorizers
vectorizer = KeyphraseCountVectorizer ( custom_pos_tagger = custom_pos_tagger )
vectorizer . fit ( docs )
keyphrases = vectorizer . get_feature_names_out ()
print ( keyphrases )

> >> [ 'output value' 'information retrieval' 'algorithm' 'vector' 'groups'
 'main topics' 'task' 'precise summary' 'supervised learning'
 'inductive bias' 'information retrieval environment'
 'supervised learning algorithm' 'function' 'input' 'pair'
 'document relevance' 'learning' 'class labels' 'new examples' 'keywords'
 'list' 'machine' 'training data' 'unseen situations' 'phrases' 'output'
 'optimal scenario' 'document' 'training examples' 'documents' 'interest'
 'indication' 'learning algorithm' 'inferred function'
 'various applications' 'example' 'set' 'unseen instances'
 'example input-output pairs' 'way' 'users' 'input object'
 'supervisory signal' 'overlap' 'document content' ]

Musterrank: Tastaturextraktion mit TastatureVectorizers und Keybert

Zurück zum Inhaltsverzeichnis

Die Verwendung der Tastaturenvektorisierer zusammen mit Keybert zur Tastaturextraktion führt zum Musterrank -Ansatz. MusterRank kann grammatikalisch korrekte Tastaturen extrahieren, die einem Dokument am ähnlichsten sind. Dadurch extrahiert der Vectorizer zuerst Kandidaten -Tastaturen aus den Textdokumenten, die anschließend von Keybert basierend auf ihrer Dokumentenähnlichkeit eingestuft werden. Die Top-N ähnlichsten Tastaturen können dann als Dokumentschlüsselwörter angesehen werden.

Der Vorteil der Verwendung von TastatureVectorizern zusätzlich zu Keybert besteht darin, dass Benutzer anstelle einfacher N-Gramm vor definierten Längen grammatikalisch korrigieren können. In Keybert können Benutzer die keyphrase_ngram_range angeben, um die Länge der abgerufenen Tastaturen zu definieren. Dies wirft jedoch zwei Probleme auf. Erstens kennen Benutzer normalerweise nicht die optimale N-Gramm-Reichweite und müssen daher einige Zeit damit verbringen, zu experimentieren, bis sie einen geeigneten N-Gramm-Bereich finden. Zweitens, auch nachdem die zurückgegebenen Tastaturen eine gute N-Gramm-Reihe gefunden haben, sind die zurückgegebenen Tastaturen manchmal immer noch grammatikalisch nicht richtig oder leicht abgeschlossen. Leider begrenzt dies die Qualität der zurückgegebenen Tastaturen.

Um dieses Problem einzuziehen, können wir die Vektorisierer dieses Pakets verwenden, um zuerst Kandidaten-Tastaturen zu extrahieren, die aus null oder mehr Adjektiven bestehen, gefolgt von einem oder mehreren Substantiven in einem Vorverarbeitungsschritt anstelle einfacher N-Gramme. Textrank, Singlerank und Embitrank haben diesen Substantivphrasenansatz für die Tastaturextraktion bereits erfolgreich verwendet. Die extrahierten Kandidaten -Tastaturen werden anschließend zur Einbettung von Erzeugung und Ähnlichkeitsberechnung an Keybert übergeben. Um beide Pakete für die Tastaturextraktion zu verwenden, müssen wir Keybert mit dem Vectorizer -Parameter mit dem vectorizer -Parameter übergeben. Da die Länge der Tastaturen jetzt von Teil der Speech-Tags abhängt, müssen keine N-Gramm-Länge mehr definiert werden.

Beispiel:

Keybert kann über pip install keybert installiert werden.

 from keyphrase_vectorizers import KeyphraseCountVectorizer
from keybert import KeyBERT

docs = [ """Supervised learning is the machine learning task of learning a function that
         maps an input to an output based on example input-output pairs. It infers a
         function from labeled training data consisting of a set of training examples.
         In supervised learning, each example is a pair consisting of an input object
         (typically a vector) and a desired output value (also called the supervisory signal). 
         A supervised learning algorithm analyzes the training data and produces an inferred function, 
         which can be used for mapping new examples. An optimal scenario will allow for the 
         algorithm to correctly determine the class labels for unseen instances. This requires 
         the learning algorithm to generalize from the training data to unseen situations in a 
         'reasonable' way (see inductive bias).""" , 
             
        """Keywords are defined as phrases that capture the main topics discussed in a document. 
        As they offer a brief yet precise summary of document content, they can be utilized for various applications. 
        In an information retrieval environment, they serve as an indication of document relevance for users, as the list 
        of keywords can quickly help to determine whether a given document is relevant to their interest. 
        As keywords reflect a document's main topics, they can be utilized to classify documents into groups 
        by measuring the overlap between the keywords assigned to them. Keywords are also used proactively 
        in information retrieval.""" ]

kw_model = KeyBERT ()

Anstatt sich für einen geeigneten N-Gramm-Bereich zu entscheiden, der zB (1,2) sein könnte ...

 > >> kw_model . extract_keywords ( docs = docs , keyphrase_ngram_range = ( 1 , 2 ))
[[( 'labeled training' , 0.6013 ),
  ( 'examples supervised' , 0.6112 ),
  ( 'signal supervised' , 0.6152 ),
  ( 'supervised' , 0.6676 ),
  ( 'supervised learning' , 0.6779 )],
 [( 'keywords assigned' , 0.6354 ),
  ( 'keywords used' , 0.6373 ),
  ( 'list keywords' , 0.6375 ),
  ( 'keywords quickly' , 0.6376 ),
  ( 'keywords defined' , 0.6997 )]]

Wir können jetzt einfach den Tastaturvektorisator für geeignete Tastaturen entscheiden lassen, ohne dass ein maximaler oder minimaler N-Gramm-Bereich eingehalten wird. Wir müssen nur einen Tastaturvektorizer als Parameter an Keybert übergeben:

 > >> kw_model . extract_keywords ( docs = docs , vectorizer = KeyphraseCountVectorizer ())
[[( 'learning' , 0.4813 ), 
  ( 'training data' , 0.5271 ), 
  ( 'learning algorithm' , 0.5632 ), 
  ( 'supervised learning' , 0.6779 ), 
  ( 'supervised learning algorithm' , 0.6992 )], 
 [( 'document content' , 0.3988 ), 
  ( 'information retrieval environment' , 0.5166 ), 
  ( 'information retrieval' , 0.5792 ), 
  ( 'keywords' , 0.6046 ), 
  ( 'document relevance' , 0.633 )]]

Auf diese Weise können wir sicherstellen, dass wir wichtige Wörter, die durch die Definition unseres N-Gramm-Bereichs verursacht werden, nicht zu kurz abschneiden. Zum Beispiel hätten wir den Tastatur "beaufsichtigter Lernalgorithmus" mit keyphrase_ngram_range=(1,2) nicht gefunden. Darüber hinaus vermeiden wir es, Tastaturen zu erhalten, die ein leicht off-Key-wie "Bezeichnete Training", "Signal beaufsichtigt" oder "Schlüsselwörter schnell" sind.

Weitere Tipps zur Verwendung der TastatureVectorizers zusammen mit Keybert finden Sie in diesem Leitfaden.

Themenmodellierung mit Bertopic- und TastatureVectorizern

Zurück zum Inhaltsverzeichnis

Ähnlich wie bei der Anwendung mit Keybert können die Tastaturenvektorisierer verwendet werden, um grammatikalisch korrekte Tastaturen als Beschreibungen für Themen anstelle von einfachen N-Grams zu erhalten. Auf diese Weise können wir sicherstellen, dass wir wichtige Tastaturen des Themas beschreiben, indem wir unseren N-Gramm-Bereich zu kurz definieren. Darüber hinaus müssen wir keine Stoppwörter im Voraus reinigen, genauere Themenmodelle erhalten und es vermeiden, themenbeschreibungst-Tastaturen zu erhalten, die leicht abschlüssig sind.

Beispiel:

Bertopic kann über pip install bertopic .

 from keyphrase_vectorizers import KeyphraseCountVectorizer
from bertopic import BERTopic
from sklearn . datasets import fetch_20newsgroups

# load text documents
docs = fetch_20newsgroups ( subset = 'all' ,  remove = ( 'headers' , 'footers' , 'quotes' ))[ 'data' ]
# only use subset of the data 
docs = docs [: 5000 ]

# train topic model with KeyphraseCountVectorizer
keyphrase_topic_model = BERTopic ( vectorizer_model = KeyphraseCountVectorizer ())
keyphrase_topics , keyphrase_probs = keyphrase_topic_model . fit_transform ( docs )

# get topics
> >> keyphrase_topic_model . topics
{ - 1 : [( 'file' , 0.007265527630674131 ),
  ( 'one' , 0.007055454904474792 ),
  ( 'use' , 0.00633563957153475 ),
  ( 'program' , 0.006053271092949018 ),
  ( 'get' , 0.006011060091056076 ),
  ( 'people' , 0.005729309058970368 ),
  ( 'know' , 0.005635951168273583 ),
  ( 'like' , 0.0055692449802916015 ),
  ( 'time' , 0.00527028825803415 ),
  ( 'us' , 0.00525564504880084 )],
 0 : [( 'game' , 0.024134589719090525 ),
  ( 'team' , 0.021852806383170772 ),
  ( 'players' , 0.01749406934044139 ),
  ( 'games' , 0.014397938026886745 ),
  ( 'hockey' , 0.013932342023677305 ),
  ( 'win' , 0.013706115572901401 ),
  ( 'year' , 0.013297593024390321 ),
  ( 'play' , 0.012533185558169046 ),
  ( 'baseball' , 0.012412743802062559 ),
  ( 'season' , 0.011602725885164318 )],
 1 : [( 'patients' , 0.022600352291162015 ),
  ( 'msg' , 0.02023877371575874 ),
  ( 'doctor' , 0.018816282737587457 ),
  ( 'medical' , 0.018614407917995103 ),
  ( 'treatment' , 0.0165028251400717 ),
  ( 'food' , 0.01604980195180696 ),
  ( 'candida' , 0.015255961242066143 ),
  ( 'disease' , 0.015115496310099693 ),
  ( 'pain' , 0.014129703072484495 ),
  ( 'hiv' , 0.012884503220341102 )],
 2 : [( 'key' , 0.028851633177510126 ),
  ( 'encryption' , 0.024375137861044675 ),
  ( 'clipper' , 0.023565947302544528 ),
  ( 'privacy' , 0.019258719348097385 ),
  ( 'security' , 0.018983682856076434 ),
  ( 'chip' , 0.018822199098878365 ),
  ( 'keys' , 0.016060139239615384 ),
  ( 'internet' , 0.01450486904722165 ),
  ( 'encrypted' , 0.013194373119964168 ),
  ( 'government' , 0.01303978311708837 )],
  ...

Die gleichen Themen sehen ein bisschen anders aus, wenn kein Tastatur -Vectorizer verwendet wird:

 from bertopic import BERTopic
from sklearn . datasets import fetch_20newsgroups

# load text documents
docs = fetch_20newsgroups ( subset = 'all' ,  remove = ( 'headers' , 'footers' , 'quotes' ))[ 'data' ]
# only use subset of the data 
docs = docs [: 5000 ]

# train topic model without KeyphraseCountVectorizer
topic_model = BERTopic ()
topics , probs = topic_model . fit_transform ( docs )

# get topics
> >> topic_model . topics
{ - 1 : [( 'the' , 0.012864641020408933 ),
  ( 'to' , 0.01187920529994724 ),
  ( 'and' , 0.011431498631699856 ),
  ( 'of' , 0.01099851927541331 ),
  ( 'is' , 0.010995478673036962 ),
  ( 'in' , 0.009908233622158523 ),
  ( 'for' , 0.009903667215879675 ),
  ( 'that' , 0.009619596716087699 ),
  ( 'it' , 0.009578499681829809 ),
  ( 'you' , 0.0095328846440753 )],
 0 : [( 'game' , 0.013949166096523719 ),
  ( 'team' , 0.012458483177116456 ),
  ( 'he' , 0.012354733462693834 ),
  ( 'the' , 0.01119583508278812 ),
  ( '10' , 0.010190243555226108 ),
  ( 'in' , 0.0101436249231417 ),
  ( 'players' , 0.009682212470082758 ),
  ( 'to' , 0.00933700544705287 ),
  ( 'was' , 0.009172402203816335 ),
  ( 'and' , 0.008653375901739337 )],
 1 : [( 'of' , 0.012771267188340924 ),
  ( 'to' , 0.012581337590513296 ),
  ( 'is' , 0.012554884458779008 ),
  ( 'patients' , 0.011983273578628046 ),
  ( 'and' , 0.011863499662237566 ),
  ( 'that' , 0.011616113472989725 ),
  ( 'it' , 0.011581944987387165 ),
  ( 'the' , 0.011475148304229873 ),
  ( 'in' , 0.011395485985801054 ),
  ( 'msg' , 0.010715000656335596 )],
 2 : [( 'key' , 0.01725282988290282 ),
  ( 'the' , 0.014634841495851404 ),
  ( 'be' , 0.014429762197907552 ),
  ( 'encryption' , 0.013530733999898166 ),
  ( 'to' , 0.013443159534369817 ),
  ( 'clipper' , 0.01296614319927958 ),
  ( 'of' , 0.012164734232650158 ),
  ( 'is' , 0.012128295958613464 ),
  ( 'and' , 0.011972763728732667 ),
  ( 'chip' , 0.010785744492767285 )],
 ...

Online -TastatureVectorizer

Zurück zum Inhaltsverzeichnis

Die KeyphraseVectorizer unterstützen auch Online-/inkrementelle Aktualisierungen ihrer Darstellung (ähnlich wie bei der OnlineCountVectorizer). Der Vectorizer kann nicht nur außerhalb des Vokabulars aktualisieren, sondern implementiert auch Verfalls- und Reinigungsfunktionen, um zu verhindern, dass die spärliche Dokument-Keyphrasen-Matrix zu groß wird.

Parameter für Online -Updates:

decay : Bei jeder Iteration summieren wir die Darstellung der Dokument-Keyphrase der neuen Dokumente mit der Dokument-Keyphrase-Darstellung aller bisher verarbeiteten Dokumente. Mit anderen Worten, die Dokument-Keyphrase-Matrix nimmt mit jeder Iteration weiter zu. Insbesondere in einer Streaming -Umgebung können ältere Dokumente im Laufe der Zeit immer weniger relevant werden. Daher wurde ein Zerfallsparameter implementiert, der die Dokument-Keyphrase-Frequenzen bei jeder Iteration abnimmt, bevor die Dokumentfrequenzen neuer Dokumente hinzugefügt wurden. Der Zerfallsparameter ist ein Wert zwischen 0 und 1 und zeigt den Prozentsatz der Frequenzen an, die die vorherige Dokument-Keyphrase-Matrix auf reduziert werden sollte. Beispielsweise verringert ein Wert von 0,1 die Frequenzen in der Dokument-Keyphrase-Matrix bei jeder Iteration um 10%, bevor die neue Dokument-Keyphrase-Matrix hinzugefügt wird. Dies wird sicherstellen, dass die jüngsten Daten mehr Gewicht haben als frühere Iterationen.
delete_min_df : Wir möchten möglicherweise Tastaturen aus der Dokument-Keyphrase-Darstellung entfernen, die selten erscheinen. Der Parameter min_df funktioniert dafür recht gut. Wenn wir jedoch über eine Streaming -Einstellung verfügen, funktioniert der min_df nicht so gut, da die Frequenz einer Tastatur unter min_df startet, aber im Laufe der Zeit höher ist. Das Festlegen dieses Wertes hoch wird möglicherweise nicht immer empfohlen. Infolgedessen kann die Liste der vom Vectorizer und der resultierenden Dokument-Keyphrase-Matrix gelernten Tastaturen ziemlich groß werden. Wenn wir den decay implementieren, sinken einige Werte im Laufe der Zeit, bis sie unter min_df liegen. Aus diesen Gründen wurde der Parameter delete_min_df implementiert. Der Parameter dauert positive Ganzzahlen und zeigt bei jeder Iteration an, welche Tastaturen aus den bereits erlernten entfernt werden. Wenn der Wert auf 5 eingestellt ist, wird nach jeder Iteration überprüft, ob die Gesamtfrequenz einer Tastatur durch diesen Wert überschritten wird. In diesem Fall wird die Tastatur in ihrer Gesamtheit aus der Liste der vom Vectorizer erlernten Tastaturen entfernt. Dies hilft, die Dokument-Keyphrase-Matrix einer überschaubaren Größe zu halten.

Beispiel:

 from keyphrase_vectorizers import KeyphraseCountVectorizer

docs = [ """Supervised learning is the machine learning task of learning a function that
         maps an input to an output based on example input-output pairs. It infers a
         function from labeled training data consisting of a set of training examples.
         In supervised learning, each example is a pair consisting of an input object
         (typically a vector) and a desired output value (also called the supervisory signal). 
         A supervised learning algorithm analyzes the training data and produces an inferred function, 
         which can be used for mapping new examples. An optimal scenario will allow for the 
         algorithm to correctly determine the class labels for unseen instances. This requires 
         the learning algorithm to generalize from the training data to unseen situations in a 
         'reasonable' way (see inductive bias).""" ,

        """Keywords are defined as phrases that capture the main topics discussed in a document. 
        As they offer a brief yet precise summary of document content, they can be utilized for various applications. 
        In an information retrieval environment, they serve as an indication of document relevance for users, as the list 
        of keywords can quickly help to determine whether a given document is relevant to their interest. 
        As keywords reflect a document's main topics, they can be utilized to classify documents into groups 
        by measuring the overlap between the keywords assigned to them. Keywords are also used proactively 
        in information retrieval.""" ]

# Init default vectorizer.
vectorizer = KeyphraseCountVectorizer ( decay = 0.5 , delete_min_df = 3 )

# intitial vectorizer fit
vectorizer . fit_transform ([ docs [ 0 ]]). toarray ()
> >> array ([[ 1 , 1 , 3 , 1 , 1 , 3 , 1 , 3 , 1 , 1 , 1 , 1 , 2 , 1 , 3 , 1 , 1 , 1 , 1 , 3 , 1 , 3 ,
             1 , 1 , 1 ]])

# check learned keyphrases
print ( vectorizer . get_feature_names_out ())
> >> [ 'output pairs' , 'output value' , 'function' , 'optimal scenario' ,
      'pair' , 'supervised learning' , 'supervisory signal' , 'algorithm' ,
      'supervised learning algorithm' , 'way' , 'training examples' ,
      'input object' , 'example' , 'machine' , 'output' ,
      'unseen situations' , 'unseen instances' , 'inductive bias' ,
      'new examples' , 'input' , 'task' , 'training data' , 'class labels' ,
      'set' , 'vector' ]

# learn additional keyphrases from new documents with partial fit
vectorizer . partial_fit ([ docs [ 1 ]])
vectorizer . transform ([ docs [ 1 ]]). toarray ()
> >> array ([[ 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
             0 , 0 , 0 , 1 , 1 , 2 , 1 , 1 , 2 , 1 , 1 , 1 , 1 , 1 , 1 , 5 , 1 , 1 , 5 , 1 ]])

# check learned keyphrases, including newly learned ones
print ( vectorizer . get_feature_names_out ())
> >> [ 'output pairs' , 'output value' , 'function' , 'optimal scenario' ,
      'pair' , 'supervised learning' , 'supervisory signal' , 'algorithm' ,
      'supervised learning algorithm' , 'way' , 'training examples' ,
      'input object' , 'example' , 'machine' , 'output' ,
      'unseen situations' , 'unseen instances' , 'inductive bias' ,
      'new examples' , 'input' , 'task' , 'training data' , 'class labels' ,
      'set' , 'vector' , 'list' , 'various applications' ,
      'information retrieval' , 'groups' , 'overlap' , 'main topics' ,
      'precise summary' , 'document relevance' , 'interest' , 'indication' ,
      'information retrieval environment' , 'phrases' , 'keywords' ,
      'document content' , 'documents' , 'document' , 'users' ]

# update list of learned keyphrases according to 'delete_min_df'
vectorizer . update_bow ([ docs [ 1 ]])
vectorizer . transform ([ docs [ 1 ]]). toarray ()
> >> array ([[ 5 , 5 ]])

# check updated list of learned keyphrases (only the ones that appear more than 'delete_min_df' remain)
print ( vectorizer . get_feature_names_out ())
> >> [ 'keywords' , 'document' ]

# update again and check the impact of 'decay' on the learned document-keyphrase matrix
vectorizer . update_bow ([ docs [ 1 ]])
vectorizer . X_ . toarray ()
> >> array ([[ 7.5 , 7.5 ]])

Zitierinformationen

Zurück zum Inhaltsverzeichnis

Wenn Sie TastatureVectorizer oder Musterrank in akademischen Papieren und Thesen zitieren, verwenden Sie diesen Bibtex -Eintrag bitte:

 @conference{schopf_etal_kdir22,
author={Tim Schopf and Simon Klimek and Florian Matthes},
title={PatternRank: Leveraging Pretrained Language Models and Part of Speech for Unsupervised Keyphrase Extraction},
booktitle={Proceedings of the 14th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2022) - KDIR},
year={2022},
pages={243-248},
publisher={SciTePress},
organization={INSTICC},
doi={10.5220/0011546600003335},
isbn={978-989-758-614-9},
issn={2184-3228},
}

Expandieren

KeyphraseVectorizers

KeyphraseVectorizer

Vorteile

Inhaltsverzeichnis

Wie funktioniert es?

Installation

Verwendung

TastatureCountVectorizer

Englische Sprache

Andere Sprachen

TastePhrasetfidfVectorizer

Verwenden Sie ein Spacy -Sprachobjekt wieder

Benutzerdefinierte pos-tagger

Beispiel mit Flair:

Musterrank: Tastaturextraktion mit TastatureVectorizers und Keybert

Beispiel:

Themenmodellierung mit Bertopic- und TastatureVectorizern

Beispiel:

Online -TastatureVectorizer

Beispiel:

Zitierinformationen

Zurückkehren

34Ewig

ReverseBlue

Träger

Die Liebe folgt dir ALLE

Chevereto

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express