Le projet Open Source Familia comprend des outils d'inférence du sujet de document, des outils de calcul de correspondance sémantique et trois modèles de thème basés sur la formation de corpus de qualité industrielle: allocation latente Dirichlet (LDA), Sentenda et intégration topique des mots (TWE). Il aide les utilisateurs à effectuer la recherche et l'application de divers scénarios tels que la classification du texte, le clustering de texte et la recommandation personnalisée de manière «prête à l'usage». Compte tenu des modèles de thème de formation élevés et des ressources limitées pour les modèles de thème open source, nous ouvrirons progressivement les modèles de thème dans plusieurs domaines verticaux basés sur la formation de corpus de qualité industrielle, ainsi que les méthodes d'application typiques de ces modèles dans l'industrie, pour aider la recherche scientifique et la mise en œuvre de la technologie des modèles de thème. ( Anglais )
Récemment, nous avons lancé le modèle LDA à Familia dans Paddlehub 1.8. Selon l'ensemble de données, il est divisé en lda_news, lda_novel et lda_webpage.
PaddleHub est très pratique à utiliser, et nous utiliserons l'utilisation de LDA_NEWS pour introduire l'exemple.
Tout d'abord, avant d'utiliser PaddleHub, vous devez installer le cadre d'apprentissage en profondeur Paddlepaddle. Pour plus d'instructions d'installation, veuillez vous référer à l'installation rapide à Paddlepaddle.
Installer paddlehub: pip install paddlehub
Installation du modèle LDA_NEWS: hub install lda_news
Utilisation spécifique:
import paddlehub as hub
lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何,适合出去游玩吗" , doc_text2 = "感觉今天的天气不错,可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171
lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826
results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573},
# {'word': '信息', 'similarity': 0.06139783578769882},
# {'word': '找到', 'similarity': 0.055296603463188265},
# {'word': '搜索', 'similarity': 0.04270794098349327},
# {'word': '全球', 'similarity': 0.03773627056367886},
# {'word': '超过', 'similarity': 0.03478658388202199},
# {'word': '相关', 'similarity': 0.026295857219683725},
# {'word': '获取', 'similarity': 0.021313585287833996},
# {'word': '中文', 'similarity': 0.020187103312009513},
# {'word': '搜索引擎', 'similarity': 0.007092890537169911}]Une méthode d'introduction et d'utilisation plus spécifique peut être trouvée ici: https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=seMantModel
Pour le document correspondant, l'introduction du modèle de sujet actuellement incluse dans Familia, veuillez vous référer aux articles pertinents.
Le paradigme d'application des modèles de sujets dans l'industrie peut être résumé en deux catégories: représentation sémantique et correspondance sémantique.
La représentation sémantique (représentation sémantique) réduit les dimensions du sujet du document et obtient des représentations sémantiques du document. Ces représentations sémantiques peuvent être appliquées aux applications en aval telles que la classification du texte, l'analyse du contenu du texte et la prédiction CTR.
Correspondance sémantique
Pour calculer le degré d'appariement sémantique entre les textes, nous fournissons deux méthodes de calcul de similitude pour les types de texte:
Pour un contenu plus détaillé et des cas de candidature industrielle, veuillez vous référer au Wiki Familia . Si vous souhaitez visualiser le paradigme d'application ci-dessus basé sur le Web, vous pouvez vous référer à la visualisation familiale .
Les dépendances tierces incluent gflags-2.0 , glogs-0.3.4 , protobuf-2.5.0 , et nécessitent également que le compilateur prenne en charge C ++ 11, g++ >= 4.8 , et est compatible avec les systèmes d'exploitation Linux et Mac. Par défaut, l'exécution du script suivant obtiendra automatiquement les dépendances et les installera.
$ sh build.sh # 包含获取并安装第三方依赖的过程
$ cd model
$ sh download_model.sh
Nous ouvrirons progressivement plusieurs modèles de thème dans différents domaines pour répondre à des besoins de scénarios plus différents.
La démo à Familia comprend les caractéristiques suivantes:
Calcul de représentation sémantique Utilisez le modèle de sujet pour déduire des sujets dans le document d'entrée pour obtenir la représentation de réduction de la dimensionnalité du sujet du document.
Le calcul de correspondance sémantique calcule la similitude entre les textes, y compris la similitude entre le texte court-long du texte, le texte long du texte.
Le contenu du modèle affiche les mots du thème et les mots voisins proches du modèle, qui facilitent que les utilisateurs aient une compréhension intuitive du thème du modèle.
Pour des instructions de démonstration spécifiques, veuillez vous référer à la documentation d'utilisation.
S'il y a une erreur dans les bibliothèques dynamiques telles que libglog.so, libgflags.so, etc., veuillez ajouter Third_Party LD_LIBRARY_PATH de la variable d'environnement.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
L'outil de segmentation des mots FMM simple est construit dans le code, qui ne fait qu'à l'avant correspond aux listes de vocabulaire qui apparaissent dans le modèle de thème. S'il existe des exigences plus élevées pour la segmentation des mots et la précision sémantique, il est recommandé d'utiliser un outil de segmentation de mots commerciaux et d'utiliser la fonction d'une liste de mots personnalisée pour importer la liste des mots dans le modèle de thème.
Bienvenue pour soumettre toutes les questions et rapports de bogues aux problèmes de GitHub. Ou envoyez un e-mail de consultation à {famille} sur baidu.com
docker run -d
--name familia
-e MODEL_NAME=news
-p 5000:5000
orctom/familia
Model_name peut être l'un des news / novel / webpage / webo
http://localhost:5000/swagger/
L'article suivant décrit le projet Familia et les cas industriels propulsés par la modélisation de sujets. Il regroupe et traduit la documentation chinoise du site Web. Nous vous recommandons de citer cet article par défaut.
Di Jiang, Yuanfeng Song, Rongzhong Lian, Siqi Bao, Jinhua Peng, Huang He, Hua Wu. 2018. Familia: un cadre de modélisation de sujets configurables pour l'ingénierie de texte industrielle. ARXIV PRÉALLAGE ARXIV: 1808.03733.
@article{jiang2018familia,
author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
journal = {arXiv preprint arXiv:1808.03733},
year = {2018}
}
Lire plus approfondie: Modélisation du sujet fédéré
Familia est fournie en vertu de la licence de clause BSD-3.