Das Open-Source-Projekt in Familia enthält Dokumente Themen-Inferenzwerkzeuge, semantische Berechnungswerkzeuge und drei Themenmodelle, die auf Corpus-Training in Industriegröße basieren: Latent Dirichlet Allocation (LDA), Sentcelda und Topical Word Einbettung (TWE). Es unterstützt Benutzer bei der Durchführung von Forschungen und Anwendung verschiedener Szenarien wie Textklassifizierung, Textclustering und personalisierter Empfehlung auf "Ready Use" -Ston. In Anbetracht der hohen Kosten für Schulungsthemenmodelle und begrenzten Ressourcen für Open-Source-Themenmodelle werden wir nach und nach Themenmodelle in mehreren vertikalen Feldern eröffnen, die auf Corpus-Schulungen in Industriegrenzen basieren, sowie typische Anwendungsmethoden dieser Modelle in der Branche, um die wissenschaftliche Forschung und Implementierung der Themenmodell-Technologie zu unterstützen. ( Englisch )
Kürzlich haben wir das LDA -Modell in Familia in Paddlehub 1.8 gestartet. Nach dem Datensatz ist es in LDA_News, LDA_Novel und LDA_WebPage unterteilt.
Paddlehub ist sehr bequem zu verwenden, und wir werden die Verwendung von LDA_News verwenden, um das Beispiel vorzustellen.
Bevor Sie Paddlehub verwenden, müssen Sie zunächst das Paddlepaddle Deep Learning -Framework installieren. Weitere Installationsanweisungen finden Sie in der schnellen Installation von Paddlepaddle.
Installieren Sie Paddlehub: pip install paddlehub
LDA_News Modellinstallation: hub install lda_news
Spezifische Verwendung:
import paddlehub as hub
lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何,适合出去游玩吗" , doc_text2 = "感觉今天的天气不错,可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171
lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826
results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573},
# {'word': '信息', 'similarity': 0.06139783578769882},
# {'word': '找到', 'similarity': 0.055296603463188265},
# {'word': '搜索', 'similarity': 0.04270794098349327},
# {'word': '全球', 'similarity': 0.03773627056367886},
# {'word': '超过', 'similarity': 0.03478658388202199},
# {'word': '相关', 'similarity': 0.026295857219683725},
# {'word': '获取', 'similarity': 0.021313585287833996},
# {'word': '中文', 'similarity': 0.020187103312009513},
# {'word': '搜索引擎', 'similarity': 0.007092890537169911}]Eine spezifischere Einführungs- und Verwendungsmethode finden Sie hier: https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=semanticmodel
Für die entsprechende Einführung des Themasmodells, das derzeit in Familia enthalten ist, finden Sie in den entsprechenden Arbeiten.
Das Anwendungsparadigma der Themenmodelle in der Branche kann in zwei Kategorien abgegeben werden: semantische Darstellung und semantische Matching.
Die semantische Darstellung (semantische Darstellung) reduziert die Subjektabmessungen des Dokuments und erhält semantische Darstellungen des Dokuments. Diese semantischen Darstellungen können auf nachgeschaltete Anwendungen wie Textklassifizierung, Textinhaltsanalyse und CTR -Vorhersage angewendet werden.
Semantische Matching
Um den semantischen Übereinstimmungsgrad zwischen Texten zu berechnen, stellen wir zwei Ähnlichkeitsberechnung Methoden für Texttypen an:
Weitere detaillierte Inhalte und industrielle Anwendungsfälle finden Sie im Familia -Wiki . Wenn Sie das obige Anwendungsparadigma basierend auf dem Web visualisieren möchten, können Sie sich auf Familia-Visualisierung beziehen.
Zu den Abhängigkeiten von Drittanbietern gehören gflags-2.0 , glogs-0.3.4 , protobuf-2.5.0 , und erfordern auch, dass der Compiler C ++ 11, g++ >= 4.8 unterstützt und mit Linux- und MAC-Betriebssystemen kompatibel ist. Standardmäßig wird die Abhängigkeiten automatisch durchführen und installiert sie automatisch.
$ sh build.sh # 包含获取并安装第三方依赖的过程
$ cd model
$ sh download_model.sh
Wir werden nach und nach mehrere Themenmodelle in verschiedenen Bereichen öffnen, um mehr Szenarioanforderungen zu erfüllen.
Die Demo in Familia enthält die folgenden Merkmale:
Semantische Repräsentationsberechnung Verwenden Sie das Themenmodell, um Themen in das Eingabedokument zu schließen, um die Darstellung der Themenminderungsreduzierung des Dokuments zu erhalten.
Die semantische Übereinstimmung berechnet die Ähnlichkeit zwischen Texten, einschließlich der Ähnlichkeit zwischen kurzem textlichem Text, langer text langer Text.
Der Modellinhalt zeigt die Themenwörter und die schließen Nachbarwörter des Modells an, die den Benutzern das intuitive Verständnis des Themas des Modells erleichtern.
Für bestimmte Demo -Anweisungen finden Sie in der Verwendungsdokumentation.
Wenn in dynamischen Bibliotheken wie libglog.so, libgFlags.so usw. ein Fehler vorliegt, fügen Sie LD_LIBRARY_PATH Umgebungsvariablen die dritte_Party hinzu.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
Das einfache FMM -Word -Segmentierungs -Tool ist im Code integriert, das nur den Vokabeln entspricht, die im Themenmodell angezeigt werden. Wenn es höhere Anforderungen an Word -Segmentierung und semantische Genauigkeit gibt, wird empfohlen, ein kommerzielles Word -Segmentierungstool zu verwenden und die Funktion einer benutzerdefinierten Wortliste zu verwenden, um die Wortliste im Themenmodell zu importieren.
Willkommen, Fragen und Fehlerberichte an Github -Probleme einzureichen. Oder senden Sie eine Beratungs -E -Mail an {family} unter baidu.com
docker run -d
--name familia
-e MODEL_NAME=news
-p 5000:5000
orctom/familia
Model_name kann einer von news / novel / webpage / webo sein
http://localhost:5000/swagger/
Der folgende Artikel beschreibt das Familia -Projekt und die Industriefälle, die nach Themenmodellierung betrieben werden. Es bündelt und übersetzt die chinesische Dokumentation der Website. Wir empfehlen, diesen Artikel als Standard zu zitieren.
Di Jiang, Yuanfeng Song, Rongzhong Lian, Siqi Bao, Jinhua Peng, Huang HE, Hua Wu. 2018. Familia: Ein konfigurierbares Themenmodellierungsrahmen für den industriellen Texttechnik. Arxiv Preprint Arxiv: 1808.03733.
@article{jiang2018familia,
author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
journal = {arXiv preprint arXiv:1808.03733},
year = {2018}
}
Weitere Lesen: Föderierte Themenmodellierung
Familia erfolgt unter der BSD-3-Klausel-Lizenz.