Familia Download - Familia Quellcode Download

Familia

Anderer Quellcode

v.1.1.2

Herunterladen

Das Open-Source-Projekt in Familia enthält Dokumente Themen-Inferenzwerkzeuge, semantische Berechnungswerkzeuge und drei Themenmodelle, die auf Corpus-Training in Industriegröße basieren: Latent Dirichlet Allocation (LDA), Sentcelda und Topical Word Einbettung (TWE). Es unterstützt Benutzer bei der Durchführung von Forschungen und Anwendung verschiedener Szenarien wie Textklassifizierung, Textclustering und personalisierter Empfehlung auf "Ready Use" -Ston. In Anbetracht der hohen Kosten für Schulungsthemenmodelle und begrenzten Ressourcen für Open-Source-Themenmodelle werden wir nach und nach Themenmodelle in mehreren vertikalen Feldern eröffnen, die auf Corpus-Schulungen in Industriegrenzen basieren, sowie typische Anwendungsmethoden dieser Modelle in der Branche, um die wissenschaftliche Forschung und Implementierung der Themenmodell-Technologie zu unterstützen. ( Englisch )

Nachricht!!!

Kürzlich haben wir das LDA -Modell in Familia in Paddlehub 1.8 gestartet. Nach dem Datensatz ist es in LDA_News, LDA_Novel und LDA_WebPage unterteilt.

Paddlehub ist sehr bequem zu verwenden, und wir werden die Verwendung von LDA_News verwenden, um das Beispiel vorzustellen.

Bevor Sie Paddlehub verwenden, müssen Sie zunächst das Paddlepaddle Deep Learning -Framework installieren. Weitere Installationsanweisungen finden Sie in der schnellen Installation von Paddlepaddle.
Installieren Sie Paddlehub: pip install paddlehub
LDA_News Modellinstallation: hub install lda_news
Spezifische Verwendung:

 import paddlehub as hub

lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何，适合出去游玩吗" , doc_text2 = "感觉今天的天气不错，可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171

lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826

results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573}, 
#  {'word': '信息', 'similarity': 0.06139783578769882}, 
#  {'word': '找到', 'similarity': 0.055296603463188265}, 
#  {'word': '搜索', 'similarity': 0.04270794098349327}, 
#  {'word': '全球', 'similarity': 0.03773627056367886}, 
#  {'word': '超过', 'similarity': 0.03478658388202199}, 
#  {'word': '相关', 'similarity': 0.026295857219683725}, 
#  {'word': '获取', 'similarity': 0.021313585287833996}, 
#  {'word': '中文', 'similarity': 0.020187103312009513}, 
#  {'word': '搜索引擎', 'similarity': 0.007092890537169911}]

Eine spezifischere Einführungs- und Verwendungsmethode finden Sie hier: https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=semanticmodel

Anwendung Einführung

Für die entsprechende Einführung des Themasmodells, das derzeit in Familia enthalten ist, finden Sie in den entsprechenden Arbeiten.

Das Anwendungsparadigma der Themenmodelle in der Branche kann in zwei Kategorien abgegeben werden: semantische Darstellung und semantische Matching.

Die semantische Darstellung (semantische Darstellung) reduziert die Subjektabmessungen des Dokuments und erhält semantische Darstellungen des Dokuments. Diese semantischen Darstellungen können auf nachgeschaltete Anwendungen wie Textklassifizierung, Textinhaltsanalyse und CTR -Vorhersage angewendet werden.
Semantische Matching
Um den semantischen Übereinstimmungsgrad zwischen Texten zu berechnen, stellen wir zwei Ähnlichkeitsberechnung Methoden für Texttypen an:
- Kurze textlange Berechnung der textähnlichen Ähnlichkeit, Verwendungsszenarien umfassen die Dokument-Keyword-Extraktion, die Berechnung von Suchmaschinenabfragen und die Ähnlichkeit von Webseiten usw.
- Langer Text - Langtext -Ähnlichkeitsberechnung, Verwendungsszenarien umfassen die Berechnung der Ähnlichkeit zweier Dokumente, die Berechnung der Ähnlichkeit von Benutzerporträts und Nachrichten usw.

Weitere detaillierte Inhalte und industrielle Anwendungsfälle finden Sie im Familia -Wiki . Wenn Sie das obige Anwendungsparadigma basierend auf dem Web visualisieren möchten, können Sie sich auf Familia-Visualisierung beziehen.

Codekompilierung

Zu den Abhängigkeiten von Drittanbietern gehören gflags-2.0 , glogs-0.3.4 , protobuf-2.5.0 , und erfordern auch, dass der Compiler C ++ 11, g++ >= 4.8 unterstützt und mit Linux- und MAC-Betriebssystemen kompatibel ist. Standardmäßig wird die Abhängigkeiten automatisch durchführen und installiert sie automatisch.

 $ sh build.sh # 包含获取并安装第三方依赖的过程

Modell Download

 $ cd model
$ sh download_model.sh

Ausführliche Konfigurationsanweisungen für das Modell finden Sie in der Modellbeschreibung.

Wir werden nach und nach mehrere Themenmodelle in verschiedenen Bereichen öffnen, um mehr Szenarioanforderungen zu erfüllen.

Demo

Die Demo in Familia enthält die folgenden Merkmale:

Semantische Repräsentationsberechnung Verwenden Sie das Themenmodell, um Themen in das Eingabedokument zu schließen, um die Darstellung der Themenminderungsreduzierung des Dokuments zu erhalten.
Die semantische Übereinstimmung berechnet die Ähnlichkeit zwischen Texten, einschließlich der Ähnlichkeit zwischen kurzem textlichem Text, langer text langer Text.
Der Modellinhalt zeigt die Themenwörter und die schließen Nachbarwörter des Modells an, die den Benutzern das intuitive Verständnis des Themas des Modells erleichtern.

Für bestimmte Demo -Anweisungen finden Sie in der Verwendungsdokumentation.

Dinge zu beachten

Wenn in dynamischen Bibliotheken wie libglog.so, libgFlags.so usw. ein Fehler vorliegt, fügen Sie LD_LIBRARY_PATH Umgebungsvariablen die dritte_Party hinzu.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
Das einfache FMM -Word -Segmentierungs -Tool ist im Code integriert, das nur den Vokabeln entspricht, die im Themenmodell angezeigt werden. Wenn es höhere Anforderungen an Word -Segmentierung und semantische Genauigkeit gibt, wird empfohlen, ein kommerzielles Word -Segmentierungstool zu verwenden und die Funktion einer benutzerdefinierten Wortliste zu verwenden, um die Wortliste im Themenmodell zu importieren.

Fragenberatung

Willkommen, Fragen und Fehlerberichte an Github -Probleme einzureichen. Oder senden Sie eine Beratungs -E -Mail an {family} unter baidu.com

Docker

 docker run -d 
    --name familia 
    -e MODEL_NAME=news 
    -p 5000:5000 
    orctom/familia

Model_name kann einer von news / novel / webpage / webo sein

API

 http://localhost:5000/swagger/

Zitat

Der folgende Artikel beschreibt das Familia -Projekt und die Industriefälle, die nach Themenmodellierung betrieben werden. Es bündelt und übersetzt die chinesische Dokumentation der Website. Wir empfehlen, diesen Artikel als Standard zu zitieren.

Di Jiang, Yuanfeng Song, Rongzhong Lian, Siqi Bao, Jinhua Peng, Huang HE, Hua Wu. 2018. Familia: Ein konfigurierbares Themenmodellierungsrahmen für den industriellen Texttechnik. Arxiv Preprint Arxiv: 1808.03733.

 @article{jiang2018familia,
  author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
  title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
  journal = {arXiv preprint arXiv:1808.03733},
  year = {2018}
}

Weitere Lesen: Föderierte Themenmodellierung

Urheberrecht und Lizenz

Familia erfolgt unter der BSD-3-Klausel-Lizenz.

Expandieren

Zusätzliche Informationen

Version v.1.1.2
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 6MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Familia

Nachricht!!!

Anwendung Einführung

Codekompilierung

Modell Download

Demo

Dinge zu beachten

Fragenberatung

Docker

API

Zitat

Urheberrecht und Lizenz

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express