Leistungsstarke Modelle für Dokumentenclustering sind unerlässlich, da sie große Dokumente effizient verarbeiten können. Diese Modelle können in vielen Bereichen hilfreich sein, einschließlich allgemeiner Forschung. Die Suche durch große Korpora von Veröffentlichungen kann eine langsame und langweilige Aufgabe sein. Solche Modelle können diese Zeit erheblich reduzieren. Wir untersuchten verschiedene Variationen eines vorgebildeten Bert-Modells, um herauszufinden, was am besten in der Lage ist, Worteinbettungen zu produzieren, um Dokumente in einem größeren Korpus darzustellen. Diese Einbettungen werden in der Dimensionalität unter Verwendung von PCA reduziert und mit K-Means eingerichtet, um Einblicke in das Modell zu erhalten, in welchem Modell die Themen innerhalb eines Korpus am besten unterscheiden können. Wir fanden heraus, dass Sbert das beste Modell für diese Aufgabe aus den getesteten Bert -Variationen war.
Voraussetzungen:
Abhängigkeiten: Das Projekt verwendet mehrere Python -Bibliotheken, die diesen Code ausführen müssen. Um den Code zu installieren, führen Sie bitte das folgende Code -Snippet in der Anaconda -Eingabeaufforderung aus.
pip install -r requirements.txt
Python Notebook: Es gibt zwei Python -Notizbücher: [1] nlp_final_project_code.ipynb und [2] Bert Cosinus -Ähnlichkeitstest.ipynb
Die Codebasis enthält die Codebasis zur Bewertung der Bert -Text -Einbettungen für das Clustering. Wir haben PCA zur Reduzierung von Dimensionalität und K-Mittel für das Clustering verwendet. Die Einbettungen werden separat berechnet und in der CSV -Datei im Ordner ./Data gespeichert.
In Bert Cosinus -Ähnlichkeitstest.IPynb testen wir die Fähigkeit der Einbettung von Bert, die Ähnlichkeit zwischen den Dokumenten zu erfassen. Zu diesem Zweck gruppierten wir Dateien basierend auf ihrem Inhalt 1) Gruppe ähnlicher Dateien und 2) Gruppe unterschiedlicher Dateien. Dann haben wir die Kosinusähnlichkeit zwischen jeder Gruppe gemessen. Wir stellten die Hypothese auf, dass Bert -Einbettungen Ähnlichkeiten zwischen dem Dokument auf der Grundlage ihrer vorbereiteten Darstellung erkennen könnten. Wir haben auch Sbert bewertet, was eine bessere Darstellung als Berts verschiedene Varianten darstellte.