Unduh Familia - Unduh Kode Sumber Familia

Familia

Kode sumber lainnya

v.1.1.2

Unduh

Proyek Open Source Familia mencakup alat inferensi topik dokumen, alat perhitungan pencocokan semantik, dan tiga model tema berdasarkan pelatihan corpus tingkat industri: alokasi laten dirichlet (LDA), Kosencelda dan Topikal Word Embedding (TWE). Ini mendukung pengguna untuk melakukan penelitian dan penerapan berbagai skenario seperti klasifikasi teks, pengelompokan teks, dan rekomendasi yang dipersonalisasi dengan cara "penggunaan siap pakai". Mempertimbangkan tingginya biaya model tema pelatihan dan sumber daya yang terbatas untuk model tema open source, kami akan secara bertahap membuka model tema di berbagai bidang vertikal berdasarkan pelatihan corpus tingkat industri, serta metode aplikasi khas dari model ini di industri, untuk membantu penelitian ilmiah dan implementasi teknologi model tema. ( Bahasa inggris )

Berita!!!

Baru -baru ini, kami meluncurkan model LDA di Familia di Paddlehub 1.8. Menurut set data, itu dibagi menjadi LDA_News, LDA_Novel dan LDA_WebPage.

Paddlehub sangat nyaman digunakan, dan kami akan menggunakan penggunaan LDA_News untuk memperkenalkan contoh.

Pertama -tama, sebelum menggunakan Paddlehub, Anda perlu menginstal kerangka pembelajaran mendalam paddlepaddle. Untuk instruksi instalasi lainnya, silakan merujuk ke Instalasi Cepat Paddlepaddle.
Instal Paddlehub: pip install paddlehub
Instalasi Model LDA_News: hub install lda_news
Penggunaan spesifik:

 import paddlehub as hub

lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何，适合出去游玩吗" , doc_text2 = "感觉今天的天气不错，可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171

lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826

results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573}, 
#  {'word': '信息', 'similarity': 0.06139783578769882}, 
#  {'word': '找到', 'similarity': 0.055296603463188265}, 
#  {'word': '搜索', 'similarity': 0.04270794098349327}, 
#  {'word': '全球', 'similarity': 0.03773627056367886}, 
#  {'word': '超过', 'similarity': 0.03478658388202199}, 
#  {'word': '相关', 'similarity': 0.026295857219683725}, 
#  {'word': '获取', 'similarity': 0.021313585287833996}, 
#  {'word': '中文', 'similarity': 0.020187103312009513}, 
#  {'word': '搜索引擎', 'similarity': 0.007092890537169911}]

Metode pengantar dan penggunaan yang lebih spesifik dapat ditemukan di sini: https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=semanticmodel

PENDAHULUAN APLIKASI

Untuk makalah yang sesuai dari model topik yang saat ini termasuk dalam Familia, silakan merujuk ke makalah yang relevan.

Paradigma aplikasi model topik dalam industri dapat diabstraksi menjadi dua kategori: representasi semantik dan pencocokan semantik.

Representasi semantik (representasi semantik) mengurangi dimensi subjek dokumen dan memperoleh representasi semantik dari dokumen tersebut. Representasi semantik ini dapat diterapkan pada aplikasi hilir seperti klasifikasi teks, analisis konten teks, dan prediksi CTR.
Pencocokan semantik
Untuk menghitung tingkat pencocokan semantik antar teks, kami menyediakan dua metode perhitungan kesamaan untuk jenis teks:
- Perhitungan kesamaan teks panjang teks, skenario penggunaan termasuk ekstraksi kata kunci dokumen, perhitungan kueri mesin pencari dan kesamaan halaman web, dll.
- Teks Panjang - Perhitungan kesamaan teks panjang, skenario penggunaan termasuk menghitung kesamaan dua dokumen, menghitung kesamaan potret dan berita pengguna, dll.

Untuk konten dan kasus aplikasi industri yang lebih terperinci, silakan merujuk ke Wiki Familia . Jika Anda ingin memvisualisasikan paradigma aplikasi di atas berdasarkan web, Anda dapat merujuk ke familia-visualisasi .

Kompilasi Kode

Ketergantungan pihak ketiga termasuk gflags-2.0 , glogs-0.3.4 , protobuf-2.5.0 , dan juga memerlukan kompiler untuk mendukung C ++ 11, g++ >= 4.8 , dan kompatibel dengan sistem operasi Linux dan Mac. Secara default, menjalankan skrip berikut akan secara otomatis mendapatkan dependensi dan menginstalnya.

 $ sh build.sh # 包含获取并安装第三方依赖的过程

Download model

 $ cd model
$ sh download_model.sh

Untuk instruksi konfigurasi terperinci untuk model, silakan merujuk ke deskripsi model.

Kami secara bertahap akan membuka beberapa model tema di berbagai bidang untuk memenuhi kebutuhan skenario yang lebih berbeda.

Demo

Demo di Familia mencakup fitur -fitur berikut:

Perhitungan Representasi Semantik Gunakan model topik untuk menyimpulkan topik ke dokumen input untuk mendapatkan representasi pengurangan dimensi topik dari dokumen.
Perhitungan pencocokan semantik menghitung kesamaan antara teks, termasuk kesamaan antara teks panjang teks pendek, teks panjang teks panjang.
Konten model menampilkan kata -kata tema dan tutup kata -kata tetangga dari model, yang memfasilitasi pengguna untuk memiliki pemahaman intuitif tentang tema model.

Untuk instruksi demo tertentu, silakan merujuk ke dokumentasi penggunaan.

Hal -hal yang perlu diperhatikan

Jika ada kesalahan dalam pustaka dinamis seperti libglog.so, libgflags.so, dll., Tambahkan ketiga_party ke variabel lingkungan LD_LIBRARY_PATH dari lingkungan.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
Alat segmentasi kata FMM sederhana dibangun dalam kode, yang hanya sesuai dengan daftar kosakata yang muncul dalam model tema. Jika ada persyaratan yang lebih tinggi untuk segmentasi kata dan akurasi semantik, disarankan untuk menggunakan alat segmentasi kata komersial dan menggunakan fungsi daftar kata khusus untuk mengimpor daftar kata dalam model tema.

Konsultasi pertanyaan

Selamat datang untuk mengirimkan pertanyaan dan laporan bug apa pun ke masalah GitHub. Atau kirim email konsultasi ke {Family} di Baidu.com

Buruh pelabuhan

 docker run -d 
    --name familia 
    -e MODEL_NAME=news 
    -p 5000:5000 
    orctom/familia

Model_name bisa menjadi salah satu news / novel / webpage / webo

API

 http://localhost:5000/swagger/

Kutipan

Artikel berikut menjelaskan proyek Familia dan kasus industri yang didukung oleh pemodelan topik. Ini mengikat dan menerjemahkan dokumentasi Situs Web Tiongkok. Kami merekomendasikan mengutip artikel ini sebagai default.

Di Jiang, Lagu Yuanfeng, Rongzhong Lian, Siqi Bao, Jinhua Peng, Huang HE, Hua Wu. 2018. Familia: Kerangka pemodelan topik yang dapat dikonfigurasi untuk rekayasa teks industri. ARXIV Preprint ARXIV: 1808.03733.

 @article{jiang2018familia,
  author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
  title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
  journal = {arXiv preprint arXiv:1808.03733},
  year = {2018}
}

Bacaan lebih lanjut: Pemodelan topik federasi

Hak Cipta dan Lisensi

Familia disediakan di bawah lisensi BSD-3-Clause.

Memperluas

Informasi Tambahan

Versi v.1.1.2
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 6MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua