يشتمل مشروع Familia Open Source على أدوات استدلال موضوع المستند ، وأدوات حساب المطابقة الدلالية ، وثلاثة نماذج موضوعية تعتمد على تدريب الجسوس الصناعية: تخصيص Dirichlet Catent (LDA) ، Sentencelda وتضمين الكلمات الموضعية (TWE). وهو يدعم المستخدمين لإجراء البحوث وتطبيق سيناريوهات مختلفة مثل تصنيف النص ، وتجميع النص ، والتوصية الشخصية بطريقة "جاهزة". بالنظر إلى التكلفة العالية لنماذج موضوع التدريب والموارد المحدودة لنماذج السمة مفتوحة المصدر ، سنفتح تدريجياً نماذج الموضوع في مجالات عمودية متعددة تعتمد على تدريب الجسوس الصناعية ، وكذلك طرق التطبيق النموذجية لهذه النماذج في الصناعة ، لمساعدة البحث العلمي وتنفيذ تقنية نموذج الموضوع. ( إنجليزي )
في الآونة الأخيرة ، أطلقنا نموذج LDA في Familia في Paddlehub 1.8. وفقًا لمجموعة البيانات ، يتم تقسيمها إلى LDA_News و LDA_NOVEL و LDA_WEBPAGE.
يعد Paddlehub مناسبًا جدًا للاستخدام ، وسنستخدم استخدام LDA_News لتقديم المثال.
بادئ ذي بدء ، قبل استخدام Paddlehub ، تحتاج إلى تثبيت إطار التعلم العميق PaddlePaddle. لمزيد من تعليمات التثبيت ، يرجى الرجوع إلى التثبيت السريع PaddlePaddle.
تثبيت Paddlehub: pip install paddlehub
تثبيت نموذج LDA_News: hub install lda_news
استخدام محدد:
import paddlehub as hub
lda_news = hub . Module ( name = "lda_news" )
jsd , hd = lda_news . cal_doc_distance ( doc_text1 = "今天的天气如何,适合出去游玩吗" , doc_text2 = "感觉今天的天气不错,可以出去玩一玩了" )
# jsd = 0.003109, hd = 0.0573171
lda_sim = lda_news . cal_query_doc_similarity ( query = '百度搜索引擎' , document = '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# LDA similarity = 0.06826
results = lda_news . cal_doc_keywords_similarity ( '百度是全球最大的中文搜索引擎、致力于让网民更便捷地获取信息,找到所求。百度超过千亿的中文网页数据库,可以瞬间找到相关的搜索结果。' )
# [{'word': '百度', 'similarity': 0.12943492762349573},
# {'word': '信息', 'similarity': 0.06139783578769882},
# {'word': '找到', 'similarity': 0.055296603463188265},
# {'word': '搜索', 'similarity': 0.04270794098349327},
# {'word': '全球', 'similarity': 0.03773627056367886},
# {'word': '超过', 'similarity': 0.03478658388202199},
# {'word': '相关', 'similarity': 0.026295857219683725},
# {'word': '获取', 'similarity': 0.021313585287833996},
# {'word': '中文', 'similarity': 0.020187103312009513},
# {'word': '搜索引擎', 'similarity': 0.007092890537169911}]يمكن الاطلاع على طريقة ومقدمة أكثر تحديدًا هنا: https://www.paddlepaddle.org.cn/hublist؟filter=en_category&value=semanticmodel
لإدخال الورقة المقابلة لنموذج الموضوع المدرج حاليًا في Familia ، يرجى الرجوع إلى الأوراق ذات الصلة.
يمكن استخلاص نموذج التطبيق لنماذج الموضوع في الصناعة إلى فئتين: التمثيل الدلالي والمطابقة الدلالية.
التمثيل الدلالي (التمثيل الدلالي) يقلل من أبعاد موضوع الوثيقة ويحصل على تمثيلات دلالية للوثيقة. يمكن تطبيق هذه التمثيلات الدلالية على تطبيقات المصب مثل تصنيف النص ، وتحليل محتوى النص ، والتنبؤ بنك النقر إلى الورق.
المطابقة الدلالية
لحساب درجة المطابقة الدلالية بين النصوص ، نقدم طريقتين لحساب التشابه لأنواع النص:
لمزيد من المحتوى التفصيلي وحالات التطبيق الصناعي ، يرجى الرجوع إلى Wiki Familia . إذا كنت ترغب في تصور نموذج التطبيق أعلاه استنادًا إلى الويب ، فيمكنك الرجوع إلى التصور العائلي .
تتضمن تبعيات الطرف الثالث gflags-2.0 و glogs-0.3.4 و protobuf-2.5.0 ، وتتطلب أيضًا من المترجم دعم C ++ 11 ، g++ >= 4.8 ، وهو متوافق مع أنظمة تشغيل Linux و MAC. بشكل افتراضي ، سيحصل تنفيذ البرنامج النصي التالي تلقائيًا على التبعيات وتثبيتها.
$ sh build.sh # 包含获取并安装第三方依赖的过程
$ cd model
$ sh download_model.sh
سنفتح تدريجياً نماذج موضوع متعددة في مجالات مختلفة لتلبية المزيد من احتياجات السيناريو المختلفة.
يتضمن العرض التوضيحي في Familia الميزات التالية:
حساب التمثيل الدلالي استخدم نموذج الموضوع لاستنتاج الموضوعات إلى مستند الإدخال للحصول على تمثيل تخفيض الأبعاد للموضوع للوثيقة.
حساب المطابقة الدلالية يحسب التشابه بين النصوص ، بما في ذلك التشابه بين النص القصير النص القصير ، ونص طويل طويل النصوص.
يعرض محتوى النموذج كلمات الموضوع والكلمات المجاورة للنموذج ، مما يسهل المستخدمين إلى فهم بديهي لموضوع النموذج.
للحصول على تعليمات تجريبية محددة ، يرجى الرجوع إلى وثائق الاستخدام.
إذا كان هناك خطأ في المكتبات الديناميكية مثل libglog.so ، libgflags.so ، وما إلى ذلك ، يرجى إضافة third_party إلى LD_LIBRARY_PATH من متغير البيئة.
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
تم تصميم أداة تجزئة Word Simple FMM في الكود ، والتي تتطابق فقط مع قوائم المفردات التي تظهر في نموذج السمة. إذا كانت هناك متطلبات أعلى لتجزئة الكلمات والدقة الدلالية ، فمن المستحسن استخدام أداة تجزئة الكلمات التجارية واستخدام وظيفة قائمة الكلمات المخصصة لاستيراد قائمة الكلمات في نموذج السمة.
مرحبًا بك في تقديم أي أسئلة وتقارير الأخطاء لقضايا GitHub. أو أرسل بريدًا إلكترونيًا للتشاور إلى {Family} على baidu.com
docker run -d
--name familia
-e MODEL_NAME=news
-p 5000:5000
orctom/familia
يمكن أن يكون Model_name أحد news / novel / webpage / webo
http://localhost:5000/swagger/
تصف المقالة التالية مشروع Familia والحالات الصناعية مدعومة بنمذجة الموضوع. إنه يحدد ويترجم الوثائق الصينية للموقع. نوصي بالذكر هذا المقال على أنها افتراضية.
Di Jiang ، Yuanfeng Song ، Rongzhong Lian ، Siqi Bao ، Jinhua Peng ، Huang He ، Hua Wu. 2018. Familia: إطار نمذجة موضوع قابل للتكوين لهندسة النص الصناعية. Arxiv preprint Arxiv: 1808.03733.
@article{jiang2018familia,
author = {Di Jiang and Yuanfeng Song and Rongzhong Lian and Siqi Bao and Jinhua Peng and Huang He and Hua Wu},
title = {{Familia: A Configurable Topic Modeling Framework for Industrial Text Engineering}},
journal = {arXiv preprint arXiv:1808.03733},
year = {2018}
}
مزيد من القراءة: نمذجة الموضوع الفيدرالية
يتم توفير Familia بموجب ترخيص BSD-3-Cause.