Familia 오픈 소스 프로젝트에는 문서 주제 추론 도구, 시맨틱 매칭 계산 도구 및 산업 등급의 코퍼스 교육을 기반으로 한 세 가지 테마 모델이 포함되어 있습니다 : LDA (Latent Dirichlet Allocation), Sentencelda 및 Topical Word Embedding (TWE). 사용자는 "준비된 사용"방식으로 텍스트 분류, 텍스트 클러스터링 및 개인화 된 권장 사항과 같은 다양한 시나리오의 연구 및 적용을 수행 할 수 있도록 지원합니다. 오픈 소스 테마 모델을위한 높은 교육 테마 모델과 제한된 리소스를 고려할 때, 우리는 주제 모델 기술의 과학적 연구 및 구현을 돕기 위해 산업 등급의 코퍼스 교육을 기반으로 여러 수직 필드에서 테마 모델을 점차적으로 열 것입니다. ( 영어 )
최근에, 우리는 패들아 1.8에서 Familia 에서 LDA 모델을 출시했습니다. 데이터 세트에 따르면 LDA_NEWS, LDA_NOVEL 및 LDA_WEBPAGE로 나뉩니다.
PaddleHub는 사용하기에 매우 편리하며 LDA_News를 사용하여 예제를 소개합니다.
우선, PaddleHub를 사용하기 전에 PaddlePaddle 딥 러닝 프레임 워크를 설치해야합니다. 더 자세한 설치 지침은 PaddlePaddle 빠른 설치를 참조하십시오.
PADDLEHUB 설치 : pip install paddlehub
lda_news 모델 설치 : hub install lda_news
구체적인 사용 :
import paddlehub as hub
lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何,适合出去游玩吗" , doc_text2 = "感觉今天的天气不错,可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171
lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826
results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573},
# {'word': '信息', 'similarity': 0.06139783578769882},
# {'word': '找到', 'similarity': 0.055296603463188265},
# {'word': '搜索', 'similarity': 0.04270794098349327},
# {'word': '全球', 'similarity': 0.03773627056367886},
# {'word': '超过', 'similarity': 0.03478658388202199},
# {'word': '相关', 'similarity': 0.026295857219683725},
# {'word': '获取', 'similarity': 0.021313585287833996},
# {'word': '中文', 'similarity': 0.020187103312009513},
# {'word': '搜索引擎', 'similarity': 0.007092890537169911}]보다 구체적인 소개 및 사용법은 여기에서 찾을 수 있습니다 : https://www.paddlepdand.org.cn/hublist?filter=en_category&value=semanticmodel
현재 Familia 에 포함 된 주제 모델의 해당 논문 소개는 관련 논문을 참조하십시오.
업계에서 주제 모델의 응용 패러다임은 시맨틱 표현과 의미 론적 일치의 두 가지 범주로 추상화 될 수 있습니다.
시맨틱 표현 (시맨틱 표현)은 문서의 주제 차원을 줄이고 문서의 시맨틱 표현을 얻습니다. 이러한 의미 론적 표현은 텍스트 분류, 텍스트 내용 분석 및 CTR 예측과 같은 다운 스트림 응용 프로그램에 적용될 수 있습니다.
시맨틱 매칭
텍스트 사이의 의미 론적 일치 정도를 계산하기 위해 텍스트 유형에 대한 두 가지 유사성 계산 방법을 제공합니다.
자세한 내용 및 산업 신청 사례는 Familia Wiki 를 참조하십시오. 웹을 기반으로 위의 응용 프로그램 패러다임을 시각화하려면 familia-veralization 을 참조 할 수 있습니다.
타사 종속성에는 gflags-2.0 , glogs-0.3.4 , protobuf-2.5.0 이 포함되며 C ++ 11, g++ >= 4.8 지원하기 위해 컴파일러가 필요하며 Linux 및 MAC 운영 체제와 호환됩니다. 기본적으로 다음 스크립트를 실행하면 자동으로 종속성을 얻고 설치합니다.
$ sh build.sh # 包含获取并安装第三方依赖的过程
$ cd model
$ sh download_model.sh
우리는 더 많은 다른 시나리오 요구를 충족시키기 위해 다른 분야에서 여러 테마 모델을 점차적으로 열 것입니다.
Familia 의 데모에는 다음과 같은 기능이 포함되어 있습니다.
시맨틱 표현 계산 주제 모델을 사용하여 입력 문서에 주제를 추론하여 문서의 주제 차원 축소 표현을 얻습니다.
시맨틱 매칭 계산은 짧은 텍스트 텍스트, 긴 텍스트 텍스트 간의 유사성을 포함하여 텍스트 간의 유사성을 계산합니다.
모델 컨텐츠는 테마 단어와 모델의 이웃 단어를 닫으므로 사용자가 모델의 주제에 대한 직관적 인 이해를 촉진합니다.
특정 데모 지침은 사용 설명서를 참조하십시오.
libglog.so, libgflags.so 등과 같은 동적 라이브러리에 오류가 있으면 환경 변수의 LD_LIBRARY_PATH 에 Third_party를 추가하십시오.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
간단한 FMM 워드 세그먼테이션 도구는 코드에 내장되어 있으며 테마 모델에 나타나는 어휘 목록과 일치합니다. 단어 세분화 및 시맨틱 정확도에 대한 요구 사항이 더 높으면 상용 단어 세분화 도구를 사용하고 사용자 정의 단어 목록의 기능을 사용하여 테마 모델에서 단어 목록을 가져 오는 것이 좋습니다.
GitHub 문제에 대한 질문과 버그 보고서를 제출하는 데 오신 것을 환영합니다. 또는 Baidu.com에서 {family}에게 상담 이메일을 보내십시오.
docker run -d
--name familia
-e MODEL_NAME=news
-p 5000:5000
orctom/familia
Model_Name은 news / novel / webpage / webo 중 하나 일 수 있습니다.
http://localhost:5000/swagger/
다음 기사는 Familia 프로젝트 및 주제 모델링으로 구동되는 산업 사례에 대해 설명합니다. 그것은 웹 사이트의 중국 문서를 번들로 번들입니다. 이 기사를 기본값으로 인용하는 것이 좋습니다.
Di Jiang, Yuanfeng Song, Rongzhong Lian, Siqi Bao, Jinhua Peng, Huang He, Hua Wu. 2018. Familia : 산업 텍스트 엔지니어링을위한 구성 가능한 주제 모델링 프레임 워크. Arxiv preprint arxiv : 1808.03733.
@article{jiang2018familia,
author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
journal = {arXiv preprint arXiv:1808.03733},
year = {2018}
}
추가 읽기 : 연합 주제 모델링
Familia는 BSD-3-Clause 라이센스에 따라 제공됩니다.