Proyek Open Source Familia mencakup alat inferensi topik dokumen, alat perhitungan pencocokan semantik, dan tiga model tema berdasarkan pelatihan corpus tingkat industri: alokasi laten dirichlet (LDA), Kosencelda dan Topikal Word Embedding (TWE). Ini mendukung pengguna untuk melakukan penelitian dan penerapan berbagai skenario seperti klasifikasi teks, pengelompokan teks, dan rekomendasi yang dipersonalisasi dengan cara "penggunaan siap pakai". Mempertimbangkan tingginya biaya model tema pelatihan dan sumber daya yang terbatas untuk model tema open source, kami akan secara bertahap membuka model tema di berbagai bidang vertikal berdasarkan pelatihan corpus tingkat industri, serta metode aplikasi khas dari model ini di industri, untuk membantu penelitian ilmiah dan implementasi teknologi model tema. ( Bahasa inggris )
Baru -baru ini, kami meluncurkan model LDA di Familia di Paddlehub 1.8. Menurut set data, itu dibagi menjadi LDA_News, LDA_Novel dan LDA_WebPage.
Paddlehub sangat nyaman digunakan, dan kami akan menggunakan penggunaan LDA_News untuk memperkenalkan contoh.
Pertama -tama, sebelum menggunakan Paddlehub, Anda perlu menginstal kerangka pembelajaran mendalam paddlepaddle. Untuk instruksi instalasi lainnya, silakan merujuk ke Instalasi Cepat Paddlepaddle.
Instal Paddlehub: pip install paddlehub
Instalasi Model LDA_News: hub install lda_news
Penggunaan spesifik:
import paddlehub as hub
lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何,适合出去游玩吗" , doc_text2 = "感觉今天的天气不错,可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171
lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826
results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573},
# {'word': '信息', 'similarity': 0.06139783578769882},
# {'word': '找到', 'similarity': 0.055296603463188265},
# {'word': '搜索', 'similarity': 0.04270794098349327},
# {'word': '全球', 'similarity': 0.03773627056367886},
# {'word': '超过', 'similarity': 0.03478658388202199},
# {'word': '相关', 'similarity': 0.026295857219683725},
# {'word': '获取', 'similarity': 0.021313585287833996},
# {'word': '中文', 'similarity': 0.020187103312009513},
# {'word': '搜索引擎', 'similarity': 0.007092890537169911}]Metode pengantar dan penggunaan yang lebih spesifik dapat ditemukan di sini: https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=semanticmodel
Untuk makalah yang sesuai dari model topik yang saat ini termasuk dalam Familia, silakan merujuk ke makalah yang relevan.
Paradigma aplikasi model topik dalam industri dapat diabstraksi menjadi dua kategori: representasi semantik dan pencocokan semantik.
Representasi semantik (representasi semantik) mengurangi dimensi subjek dokumen dan memperoleh representasi semantik dari dokumen tersebut. Representasi semantik ini dapat diterapkan pada aplikasi hilir seperti klasifikasi teks, analisis konten teks, dan prediksi CTR.
Pencocokan semantik
Untuk menghitung tingkat pencocokan semantik antar teks, kami menyediakan dua metode perhitungan kesamaan untuk jenis teks:
Untuk konten dan kasus aplikasi industri yang lebih terperinci, silakan merujuk ke Wiki Familia . Jika Anda ingin memvisualisasikan paradigma aplikasi di atas berdasarkan web, Anda dapat merujuk ke familia-visualisasi .
Ketergantungan pihak ketiga termasuk gflags-2.0 , glogs-0.3.4 , protobuf-2.5.0 , dan juga memerlukan kompiler untuk mendukung C ++ 11, g++ >= 4.8 , dan kompatibel dengan sistem operasi Linux dan Mac. Secara default, menjalankan skrip berikut akan secara otomatis mendapatkan dependensi dan menginstalnya.
$ sh build.sh # 包含获取并安装第三方依赖的过程
$ cd model
$ sh download_model.sh
Kami secara bertahap akan membuka beberapa model tema di berbagai bidang untuk memenuhi kebutuhan skenario yang lebih berbeda.
Demo di Familia mencakup fitur -fitur berikut:
Perhitungan Representasi Semantik Gunakan model topik untuk menyimpulkan topik ke dokumen input untuk mendapatkan representasi pengurangan dimensi topik dari dokumen.
Perhitungan pencocokan semantik menghitung kesamaan antara teks, termasuk kesamaan antara teks panjang teks pendek, teks panjang teks panjang.
Konten model menampilkan kata -kata tema dan tutup kata -kata tetangga dari model, yang memfasilitasi pengguna untuk memiliki pemahaman intuitif tentang tema model.
Untuk instruksi demo tertentu, silakan merujuk ke dokumentasi penggunaan.
Jika ada kesalahan dalam pustaka dinamis seperti libglog.so, libgflags.so, dll., Tambahkan ketiga_party ke variabel lingkungan LD_LIBRARY_PATH dari lingkungan.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
Alat segmentasi kata FMM sederhana dibangun dalam kode, yang hanya sesuai dengan daftar kosakata yang muncul dalam model tema. Jika ada persyaratan yang lebih tinggi untuk segmentasi kata dan akurasi semantik, disarankan untuk menggunakan alat segmentasi kata komersial dan menggunakan fungsi daftar kata khusus untuk mengimpor daftar kata dalam model tema.
Selamat datang untuk mengirimkan pertanyaan dan laporan bug apa pun ke masalah GitHub. Atau kirim email konsultasi ke {Family} di Baidu.com
docker run -d
--name familia
-e MODEL_NAME=news
-p 5000:5000
orctom/familia
Model_name bisa menjadi salah satu news / novel / webpage / webo
http://localhost:5000/swagger/
Artikel berikut menjelaskan proyek Familia dan kasus industri yang didukung oleh pemodelan topik. Ini mengikat dan menerjemahkan dokumentasi Situs Web Tiongkok. Kami merekomendasikan mengutip artikel ini sebagai default.
Di Jiang, Lagu Yuanfeng, Rongzhong Lian, Siqi Bao, Jinhua Peng, Huang HE, Hua Wu. 2018. Familia: Kerangka pemodelan topik yang dapat dikonfigurasi untuk rekayasa teks industri. ARXIV Preprint ARXIV: 1808.03733.
@article{jiang2018familia,
author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
journal = {arXiv preprint arXiv:1808.03733},
year = {2018}
}
Bacaan lebih lanjut: Pemodelan topik federasi
Familia disediakan di bawah lisensi BSD-3-Clause.