contextualized topic models herunterladen - contextualized topic models Quellcode Download

contextualized topic models

Anderer Quellcode

1.0.0

Herunterladen

Kontextualisierte Themenmodelle

Kontextualisierte Themenmodelle (CTM) sind eine Familie von Themenmodellen, die vorgeschriebene Darstellungen der Sprache (z. B. Bert) verwenden, um die Themenmodellierung zu unterstützen. Einzelheiten finden Sie in den Papieren:

Bianchi, F., Terragni, S. & Hovy, D. (2021). Pre-Training ist ein heißes Thema: Kontextualisierte Dokumenteinbettungen verbessern die Thema Kohärenz. ACL. https://aclanthology.org/2021.acl-short.96/
F. Bianchi, S. Terragni, D. Hovy, D. Nozza & E. Fersini (2021). Cross-lingual kontextualisierte Themenmodelle mit Null-Shot-Lernen. EACCL. https://www.aclweb.org/anthology/2021.eac-main.143/

Themenmodellierung mit kontextualisierten Einbettungen

Unsere neue Themenmodellierungsfamilie unterstützt viele verschiedene Sprachen (dh derjenige, der durch Umarmungsface -Modelle unterstützt wird) und wird in zwei Versionen erhältlich: CombinedTM kombiniert kontextbezogene Einbettungen mit der guten alten Wörterbeutel, um kohärentere Themen zu machen. Zeroshottm ist das perfekte Themenmodell für die Aufgabe, bei der Sie möglicherweise Wörter in den Testdaten haben und, wenn Sie mit mehrsprachigen Einbettungen trainiert werden, die Eigenschaft, ein mehrsprachiges Themenmodell zu sein, erbt!

Der große Vorteil ist, dass Sie verschiedene Einbettungen für CTMs verwenden können. Wenn eine neue Einbettungsmethode herauskommt, können Sie sie im Code verwenden und Ihre Ergebnisse verbessern. Wir sind nicht mehr durch den Bogen eingeschränkt.

Wir haben auch Kitty! Ein neues Submodul, mit dem ein Klassifizierer des Menschen in den Schleifen erstellt werden kann, um Ihre Dokumente schnell zu klassifizieren und benannte Cluster zu erstellen.

Tutorials

Sie können sich unseren mittleren Blog -Beitrag ansehen oder aus einem unserer Colab -Tutorials beginnen:

Name	Link
Kombinierte TM auf Wikipedia -Daten (Preproc+Saving+VIZ) (stabiler v2.3.0 )
Zero-Shot Cross-Lingual Topic Modeling (Preproc+Viz) (stabiler v2.3.0 )
Kitty: Mensch im Schleifenklassifizierer (Nutzung auf hoher Ebene) (stabiler v2.2.0 )
Superctm und β-CTM (Nutzung auf hoher Ebene) (stabiler v2.2.0 )

Überblick

Tl; dr

In CTMs haben wir zwei Modelle. Kombinierte und Zeroshottm, die unterschiedliche Anwendungsfälle haben.
CTMs funktionieren besser, wenn die Größe der Wörterbeutel auf eine Reihe von Begriffen beschränkt ist, die nicht über 2000 Elemente beträgt. Dies liegt daran, dass wir ein neuronales Modell haben, das die Eingangsbeutel von Wort rekonstruiert. Darüber hinaus projizieren wir in Kombination die kontextualisierte Einbettung in den Vokabellenraum. Dies ist jedoch keine strenge Begrenzung. Berücksichtigen Sie jedoch die Vorverarbeitung Ihres Datensatzes. Wir haben eine Vorverarbeitungspipeline, die Ihnen beim Umgang damit helfen kann.
Überprüfen Sie das von Ihnen verwendete Kontextmodell. Das mehrsprachige Modell, das eins für englische Daten verwendet wird, liefert möglicherweise keine Ergebnisse, die so gut sind wie das reine englische trainierte.
Die Vorverarbeitung ist der Schlüssel . Wenn Sie ein Kontextmodell wie Bert -vorverarbeiteter Text angeben, ist es möglicherweise schwierig, eine gute Darstellung herauszuholen. Normalerweise verwenden wir den vorverarbeiteten Text für die Word -Tüte, die den nicht vorverarbeiteten Text für Bert -Einbettungen erstellt und nicht. Unsere Vorverarbeitungsklasse kann dies für Sie darum kümmern.
CTM verwendet Sbert, Sie sollten es überprüfen, um besser zu verstehen, wie wir Einbettungen erstellen. Mit Sbert können wir jedes Einbettungsmodell verwenden. Vielleicht möchten Sie Dinge wie die maximale Länge überprüfen.

Installation

Wichtig : Wenn Sie CUDA verwenden möchten, müssen Sie die richtige Version der CUDA -Systeme installieren, die Ihrer Verteilung entsprechen. Siehe Pytorch.

Installieren Sie das Paket mit PIP

pip install -U contextualized_topic_models

Modelle

Ein wichtiger Aspekt ist zu berücksichtigen, welches Netzwerk Sie verwenden möchten: denjenige, der kontextualisierte Einbettungen und den Bogen (kombiniert) kombiniert oder der nur kontextualisierte Einbettungen (Zeroshottm) verwendet

Denken Sie jedoch daran, dass Sie mit dem Zeroshottm-Modell nur mit dem Zeroshottm-Modell auf Zero-Shot-Thema modellieren können.

Kontextualisierte Themenmodelle unterstützen auch die Überwachung (SuperCTM). Weitere Informationen zu der Dokumentation finden Sie in der Dokumentation.

Wir haben auch Kitty: ein Dienstprogramm, mit dem Sie einen einfacheren Menschen in der Schleifenklassifizierung Ihrer Dokumente durchführen können. Dies kann sehr nützlich sein, um eine Dokumentfilterung durchzuführen. Es funktioniert auch in der lingenden Umgebung und Sie können daher möglicherweise Dokumente in einer Sprache filtern, die Sie nicht kennen!

Referenzen

Wenn Sie dies nützlich finden, können Sie die folgenden Papiere zitieren :)

Zeroshottm

 @InProceedings {Bianchi-Detal-2021-Cross, Cross, Cross, Cross, Cross,
    title = "Cross-lingual kontextualisierte Themenmodelle mit Null-Shot-Lernen",
    Autor = "Bianchi, Federico und Terragni, Silvia und Hovy, Dirk und
      Nozza, Debora und Fersini, Elisabetta ",
    boottitle = "Proceedings der 16. Konferenz des Europäischen Kapitels des Verbandes für Computerlinguistik: Hauptvolumen",
    Monat = APR,
    Jahr = "2021",
    Adresse = "Online",
    Publisher = "Assoziation für Computer -Linguistik",
    url = "https://www.aclweb.org/anthology/2021.eaccl-main.143",
    Seiten = "1676-1683",
}

Kombiniert

 @Inproceedings {Bianchi-Detal-2021-Pre,
    title = "Pre-Training ist ein heißes Thema: Kontextualisierte Dokumenteinbettungen verbessern die Thema Kohärenz",
    Autor = "Bianchi, Federico und
      Terragni, Silvia und
      Hovy, Dirk ",
    boottitle = "Proceedings der 59. Jahrestagung des Vereins für Computerlinguistik und der 11. Internationalen gemeinsamen Konferenz zur Verarbeitung natürlicher Sprache (Band 2: Short Papers)", ",", ",", ",", ",", "
    Monat = Aug,,
    Jahr = "2021",
    Adresse = "Online",
    Publisher = "Assoziation für Computer -Linguistik",
    url = "https://aclanthology.org/2021.acl-short.96",
    doi = "10.18653/v1/2021.acl-Short.96",
    Seiten = "759-766",
}

Sprachspezifisch und mehrsprachig

Einige der folgenden Beispiele verwenden ein mehrsprachiges Einbettungsmodell paraphrase-multilingual-mpnet-base-v2 . Dies bedeutet, dass die Darstellungen, die Sie verwenden werden, verstümmelt sind. Möglicherweise benötigen Sie jedoch eine breitere Berichterstattung über Sprachen oder nur eine bestimmte Sprache. Weitere Informationen finden Sie in der Seite in der Dokumentation, wie Sie ein Modell für eine andere Sprache auswählen. In diesem Fall können Sie Sbert überprüfen, um das perfekte Modell zu finden.

Hier können Sie mehr über sprachspezifische und mulitlinguale Lesen lesen.

Schnelle Übersicht

Sie sollten sich auf jeden Fall die Dokumentation ansehen, um besser zu verstehen, wie diese Themenmodelle funktionieren.

Kombiniertes Themenmodell

So können Sie das kombinierte Tile verwenden. Dies ist ein Standard -Themenmodell, das auch kontextualisierte Einbettungen verwendet. Das Gute an CombinedTM ist, dass es Ihr Thema viel kohärenter macht (siehe Papier https://arxiv.org/abs/2004.03974). n_components = 50 Gibt die Anzahl der Themen an.

 from contextualized_topic_models . models . ctm import CombinedTM
from contextualized_topic_models . utils . data_preparation import TopicModelDataPreparation
from contextualized_topic_models . utils . data_preparation import bert_embeddings_from_file

qt = TopicModelDataPreparation ( "all-mpnet-base-v2" )

training_dataset = qt . fit ( text_for_contextual = list_of_unpreprocessed_documents , text_for_bow = list_of_preprocessed_documents )

ctm = CombinedTM ( bow_size = len ( qt . vocab ), contextual_size = 768 , n_components = 50 ) # 50 topics

ctm . fit ( training_dataset ) # run the model

ctm . get_topics ( 2 )

Erweiterte Anmerkungen: Kombinierter TM kombiniert den Bogen mit Sbert, ein Prozess, der die Kohärenz der vorhergesagten Themen zu erhöhen scheint (https://arxiv.org/pdf/2004.03974.pdf).

Null-Shot-Themenmodell

Unser Zeroshottm kann zur Modellierung von Null-Shot-Thema verwendet werden. Es kann mit Wörtern umgehen, die während der Trainingsphase nicht verwendet werden. Interessanterweise kann dieses Modell für die modellübergreifende modellübergreifende Thema verwendet werden (siehe nächste Abschnitte)! Siehe das Papier (https://www.aclweb.org/anthology/2021.eaccl-main.143)

 from contextualized_topic_models . models . ctm import ZeroShotTM
from contextualized_topic_models . utils . data_preparation import TopicModelDataPreparation
from contextualized_topic_models . utils . data_preparation import bert_embeddings_from_file

text_for_contextual = [
    "hello, this is unpreprocessed text you can give to the model" ,
    "have fun with our topic model" ,
]

text_for_bow = [
    "hello unpreprocessed give model" ,
    "fun topic model" ,
]

qt = TopicModelDataPreparation ( "paraphrase-multilingual-mpnet-base-v2" )

training_dataset = qt . fit ( text_for_contextual = text_for_contextual , text_for_bow = text_for_bow )

ctm = ZeroShotTM ( bow_size = len ( qt . vocab ), contextual_size = 768 , n_components = 50 )

ctm . fit ( training_dataset ) # run the model

ctm . get_topics ( 2 )

Wie Sie sehen können, ist die hochrangige API für den Text ziemlich einfach zu bedienen. text_for_bert sollte verwendet werden, um an das Modell eine Liste von Dokumenten weiterzugeben, die nicht vorverarbeitet werden. Stattdessen sollten Sie zu text_for_bow den vorverarbeiteten Text übergeben, der zum Erstellen des Bogens verwendet wird.

Erweiterte Notizen: Auf diese Weise kann Sbert alle Informationen im Text verwenden, um die Darstellungen zu generieren.

Verwenden der Themenmodelle

Die Themen bekommen

Sobald das Modell trainiert ist, ist es sehr einfach, die Themen zu bekommen!

 ctm . get_topics ()

Vorhersage von Themen für unsichtbare Dokumente

Die Transformationsmethode kümmert sich um die meisten Dinge für Sie, zum Beispiel die Erzeugung eines entsprechenden Bogens, indem Sie nur die Wörter betrachten, die das Modell im Training gesehen hat. Dies kommt jedoch mit einigen Unebenheiten im Umgang mit dem Zeroshottm, wie wir es im nächsten Abschnitt sehen werden.

Sie können jedoch die Einbettungen manuell laden, wenn Sie möchten (siehe den erweiterten Teil dieser Dokumentation).

Mono-linguale Thema Modellierung

Wenn Sie CombinedTM verwenden, müssen Sie den Testtext für den Bogen einfügen:

 testing_dataset = qt . transform ( text_for_contextual = testing_text_for_contextual , text_for_bow = testing_text_for_bow )

# n_sample how many times to sample the distribution (see the doc)
ctm . get_doc_topic_distribution ( testing_dataset , n_samples = 20 ) # returns a (n_documents, n_topics) matrix with the topic distribution of each document

Wenn Sie Zeroshottm verwenden, müssen Sie nicht das testing_text_for_bow verwenden, da Sie, wenn Sie einen anderen Satz von Testdokumenten verwenden, einen Bug einer anderen Größe erzeugt. Der beste Weg, dies zu tun, besteht darin, nur den Text zu übergeben, der in der Eingabe an das kontexuelle Modell angegeben wird:

 testing_dataset = qt . transform ( text_for_contextual = testing_text_for_contextual )

# n_sample how many times to sample the distribution (see the doc)
ctm . get_doc_topic_distribution ( testing_dataset , n_samples = 20 )

Cross-Lingual Topic Modeling

Sobald Sie das Zeroshottm-Modell mit mehrsprachigen Einbettungen trainiert haben, können Sie diese einfache Pipeline verwenden, um die Themen für Dokumente in einer anderen Sprache vorherzusagen (solange diese Sprache durch Paraphrase-Multivingual-MPNET-Base-V2 abgedeckt wird).

 # here we have a Spanish document
testing_text_for_contextual = [
    "hola, bienvenido" ,
]

# since we are doing multilingual topic modeling, we do not need the BoW in
# ZeroShotTM when doing cross-lingual experiments (it does not make sense, since we trained with an english Bow
# to use the spanish BoW)
testing_dataset = qt . transform ( testing_text_for_contextual )

# n_sample how many times to sample the distribution (see the doc)
ctm . get_doc_topic_distribution ( testing_dataset , n_samples = 20 ) # returns a (n_documents, n_topics) matrix with the topic distribution of each document

Erweiterte Notizen: Wir müssen nicht die spanische Tüte mit Wort bestehen: Die Sack mit den Worten der beiden Sprachen wird nicht vergleichbar sein! Wir geben es aus Kompatibilitätsgründen an das Modell weiter, aber Sie können die Ausgabe des Modells (dh den vorhergesagten Bogen der geschulten Sprache) nicht erhalten und es mit der Testsprache vergleichen.

Fortgeschrittenere Sachen

Vorverarbeitung

Benötigen Sie ein kurzes Skript, um die Vorverarbeitungspipeline auszuführen? Wir haben dich bedeckt! Laden Sie Ihre Dokumente und verwenden Sie dann unsere SimpleProcessing -Klasse. Es wird automatisch seltene Wörter filtern und Dokumente entfernen, die nach dem Training leer sind. Die Vorverarbeitungsmethode gibt die vorverarbeiteten und die nichtverarbeiteten Dokumente zurück. Wir verwenden im Allgemeinen die für Bert und die Vorverarbeitung für die Sack of Word.

 from contextualized_topic_models . utils . preprocessing import WhiteSpacePreprocessing

documents = [ line . strip () for line in open ( "unpreprocessed_documents.txt" ). readlines ()]
sp = WhiteSpacePreprocessing ( documents , "english" )
preprocessed_documents , unpreprocessed_corpus , vocab , retained_indices = sp . preprocess ()

Verwenden von benutzerdefinierten Einbettungen mit Kitty

Haben Sie benutzerdefinierte Einbettungen und möchten sie für schnellere Ergebnisse verwenden? Gib sie einfach Kitty!

 from contextualized_topic_models . models . kitty_classifier import Kitty
import numpy as np

# read the training data
training_data = list ( map ( lambda x : x . strip (), open ( "train_data" ). readlines ()))
custom_embeddings = np . load ( 'custom_embeddings.npy' )

kt = Kitty ()
kt . train ( training_data , custom_embeddings = custom_embeddings , stopwords_list = [ "stopwords" ])

print ( kt . pretty_print_word_classes ())

HINWEIS: Benutzerdefinierte Einbettungen müssen numpy.Arrays sein.

Entwicklungsteam

Federico bianchi <[email protected]> bocconi Universität
Silvia Terragni <[email protected]> Universität von Mailand-Biccca
Dirk Hovy <[email protected]> Bocconi University

Softwaredetails

Kostenlose Software: MIT -Lizenz
Dokumentation: https://contextualisierte-topic-models.readthedocs.io.
Super großer Shout-Out an Stephen Carrow zum Erstellen des fantastischen https://github.com/steebandito22/pytorchavitm Paket, aus dem wir die Grundlagen dieses Pakets erstellt haben. Wir freuen uns, diese Software im Rahmen der MIT -Lizenz erneut zu verteilen.

Credits

Dieses Paket wurde mit CookieCutter und der Project-Vorlage von Audreyr/CookieCutter-Pypackage erstellt. Um die Verwendung der Bibliothek zu erleichtern, haben wir auch das RBO -Paket aufgenommen, alle Rechte, die dem Autor dieses Pakets vorbehalten sind.

Notiz

Denken Sie daran, dass dies ein Forschungsinstrument ist :)

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-15
Größe 31.9MB
Kommt von Github

Ähnliche Anwendungen

llama models

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
models

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

contextualized topic models

Kontextualisierte Themenmodelle

Themenmodellierung mit kontextualisierten Einbettungen

Tutorials

Überblick

Tl; dr

Installation

Modelle

Referenzen

Sprachspezifisch und mehrsprachig

Schnelle Übersicht

Kombiniertes Themenmodell

Null-Shot-Themenmodell

Verwenden der Themenmodelle

Die Themen bekommen

Vorhersage von Themen für unsichtbare Dokumente

Mono-linguale Thema Modellierung

Cross-Lingual Topic Modeling

Fortgeschrittenere Sachen

Vorverarbeitung

Verwenden von benutzerdefinierten Einbettungen mit Kitty

Entwicklungsteam

Softwaredetails

Credits

Notiz

llama models

GitHub sgrebnov/cordova plugin background download

models

pytorch image models

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express