تنزيل tomotopy - تنزيل رمز المصدر tomotopy

tomotopy

شفرة المصدر الأخرى

0.13.0

تنزيل

توموتوبي

الإنجليزية ، 한국어.

ما هو tomotopy؟

TomOtopy هو امتداد Python لـ Tomoto (أداة نمذجة الموضوع) وهي مكتبة نموذج قائمة على عينة Gibbs مكتوبة في C ++. يستخدم عودة من وحدات المعالجة المركزية الحديثة لزيادة السرعة. يدعم الإصدار الحالي من Tomoto العديد من نماذج الموضوعات الرئيسية بما في ذلك

تخصيص Dirichlet الكامن (tomotopy.ldamodel)
المسمى LDA (tomotopy.lldamodel)
LDA المسمى جزئيًا (tomotopy.pldamodel)
LDA تحت إشراف (tomotopy.sldamodel)
الانحدار متعدد الحدود Dirichlet (tomotopy.dmrmodel)
الانحدار المتعدد الحدود Dirichlet المعمم (tomotopy.gdmrmodel)
عملية dirichlet الهرمية (tomotopy.hdpmodel)
LDA الهرمي (tomotopy.hldamodel)
Multi Grain LDA (tomotopy.mgldamodel)
تخصيص Pachinko (tomotopy.pamodel)
السلطة الفلسطينية الهرمية (tomotopy.hpamodel)
نموذج موضوع مرتبط (tomotopy.ctmodel)
نموذج الموضوع الديناميكي (tomotopy.dtmodel)
نموذج موضوع قائم على الوضع الزائفة (tomotopy.ptmodel).

يرجى زيارة https://bab2min.github.io/tomotopy لمعرفة مزيد من المعلومات.

ابدء

يمكنك تثبيت tomotopy بسهولة باستخدام PIP. (https://pypi.org/project/tomotopy/)

 $ pip install -reprage pip
$ pip تثبيت tomotopy

إصدارات OS و Python المدعومة هي:

Linux (x86-64) مع Python> = 3.6
macos> = 10.13 مع python> = 3.6
Windows 7 أو أحدث (x86 ، x86-64) مع Python> = 3.6
نظام تشغيل آخر مع Python> = 3.6: التجميع من رمز المصدر المطلوب (مع برنامج التحويل البرمجي المتوافق C ++ 14)

بعد التثبيت ، يمكنك بدء تشغيل tomotopy بمجرد الاستيراد.

 استيراد tomotopy كـ TP
طباعة (tp.isa) # يطبع "AVX2" أو "AVX" أو "SSE2" أو "لا شيء"

حاليًا ، يمكن أن يستغل Tomotopy تعليمات AVX2 أو AVX أو SSE2 SIMD لزيادة الأداء. عندما يتم استيراد الحزمة ، ستتحقق من مجموعات التعليمات المتاحة وتحديد الخيار الأفضل. إذا لم يخبر TP.ISA أي شيء ، فقد يستغرق تكرارات التدريب وقتًا طويلاً. ولكن نظرًا لأن معظم CPUs Modern Intel أو AMD توفر مجموعة تعليمات SIMD ، فقد يظهر تسارع SIMD تحسنًا كبيرًا.

فيما يلي نموذج رمز لتدريب LDA البسيط للنصوص من ملف "sample.txt".

 استيراد tomotopy كـ TP
MDL = tp.ldamodel (k = 20)
لخط في Open ('sample.txt'):
    mdl.add_doc (line.strip (). split ())

لأني في المدى (0 ، 100 ، 10):
    MDL.Train (10)
    print ('التكرار: {}  tlog-likelihood: {}'. Format (i ، mdl.ll_per_word))

لـ K في المدى (MDL.K):
    PRINT ('Top 10 Words of Topic #{}'. Format (k))
    print (mdl.get_topic_words (k ، top_n = 10))

MDL.Summary ()

أداء tomotopy

يستخدم Tomotopy عينة Gibbs المنهارة (CGS) لاستنتاج توزيع الموضوعات وتوزيع الكلمات. عمومًا ، تتقارب CGS ببطء أكثر من Bayes variational (VB) التي يستخدمها Ldamodel من Gensim ، ولكن يمكن حساب تكرارها بشكل أسرع بكثير. بالإضافة إلى ذلك ، يمكن أن يستفيد Tomotopy من وحدات المعالجة المركزية متعددة الأوساخ مع مجموعة تعليمات SIMD ، والتي يمكن أن تؤدي إلى تكرار أسرع.

يوضح الرسم البياني التالي مقارنة وقت تشغيل طراز LDA بين Tomotopy و Gensim. تتكون بيانات الإدخال من 1000 وثيقة عشوائية من ويكيبيديا الإنجليزية مع 1506،966 كلمة (حوالي 10.1 ميغابايت). توموتوبي يدرب 200 تكرار وقطارات Gensim 10 تكرار.

الأداء في Intel i5-6600 ، x86-64 (4 نوى)

الأداء في Intel Xeon E5-2620 V4 ، x86-64 (8 نوى ، 16 مؤشر ترابط)

على الرغم من تكرار توموتوبي 20 مرة ، إلا أن وقت التشغيل الإجمالي كان أسرع 5 ~ 10 مرات من Gensim. وهو ينتج عن نتيجة مستقرة.

من الصعب مقارنة CGS و VB مباشرة لأنها تقنيات مختلفة تمامًا. ولكن من وجهة نظر عملية ، يمكننا مقارنة السرعة والنتيجة بينهما. يعرض الرسم البياني التالي نتيجة احتمالية سجل لكل كلمة من النموذجين.

مجموعة تعليمات SIMD لها تأثير كبير على الأداء. فيما يلي مقارنة بين مجموعات تعليمات SIMD.

لحسن الحظ ، توفر معظم وحدات المعالجة المركزية X86-64 الحديثة مجموعة تعليمات AVX2 ، حتى نتمكن من الاستمتاع بأداء AVX2.

النموذج حفظ وتحميل

يوفر Tomotopy طريقة حفظ وتحميل كل فئة نموذج موضوع ، بحيث يمكنك حفظ النموذج في الملف وقتما تشاء ، وإعادة تحميله من الملف.

 استيراد tomotopy كـ TP

mdl = tp.hdpmodel ()
لخط في Open ('sample.txt'):
    mdl.add_doc (line.strip (). split ())

لأني في المدى (0 ، 100 ، 10):
    MDL.Train (10)
    print ('التكرار: {}  tlog-likelihood: {}'. Format (i ، mdl.ll_per_word))

# حفظ في الملف
mdl.save ('sample_hdp_model.bin')

# التحميل من الملف
mdl = tp.hdpmodel.load ('sample_hdp_model.bin')
لـ K في المدى (MDL.K):
    إذا لم يكن mdl.is_live_topic (k): تابع
    PRINT ('Top 10 Words of Topic #{}'. Format (k))
    print (mdl.get_topic_words (k ، top_n = 10))

# النموذج المحفوظ هو نموذج HDP ،
# لذلك عندما تقوم بتحميله بواسطة طراز LDA ، فإنه سيؤدي إلى استثناء
mdl = tp.ldamodel.load ('sample_hdp_model.bin')

عند تحميل النموذج من ملف ، يجب أن يتطابق نوع النموذج في الملف مع فئة الطرق.

شاهد المزيد في tomotopy.ldamodel.save و tomotopy.ldamodel.load أساليب.

عارض النموذج التفاعلي

Interactive_model_viewer_demo.mp4

يمكنك رؤية نتيجة النمذجة باستخدام المشاهد التفاعلي منذ V0.13.0.

 استيراد tomotopy كـ TP
النموذج = tp.ldamodel (...)
# ... بعض رموز التدريب ...
tp.viewer.open_viewer (نموذج ، مضيف = "LocalHost" ، Port = 9999)
# وفتح http: // localhost: 9999 في متصفح الويب الخاص بك!

إذا كان لديك ملف طراز محفوظ ، فيمكنك أيضًا استخدام سطر الأوامر التالي.

 Python -M tomotopy.viewer a_trained_model.bin -host localhost -port 9999

شاهد المزيد في وحدة Tomotopy.Viewer.

المستندات في النموذج والخروج من النموذج

يمكننا استخدام نموذج الموضوع لغرضين رئيسيين. الأساسي هو اكتشاف موضوعات من مجموعة من المستندات نتيجة للنموذج المدرب ، والأكثر تقدماً هو استنتاج توزيعات الموضوع للوثائق غير المرئية باستخدام النموذج المدرب.

قمنا بتسمية المستند في الغرض السابق (المستخدم للتدريب النموذجي) كوثائق في النموذج ، والوثيقة في الغرض اللاحق (الوثيقة غير المرئية أثناء التدريب) كوثيقة خارج النموذج .

في tomotopy ، يتم إنشاء هذين النوعين المختلفين من المستندات بشكل مختلف. يمكن إنشاء مستند في النموذج بواسطة طريقة tomotopy.ldamodel.add_doc. يمكن استدعاء add_doc قبل بدء tomotopy.ldamodel.train. بمعنى آخر ، بعد استدعاء القطار ، لا يمكن لـ ADD_DOC إضافة مستند إلى النموذج لأن مجموعة المستندات المستخدمة للتدريب قد تم إصلاحها.

للحصول على مثيل المستند الذي تم إنشاؤه ، يجب عليك استخدام tomotopy.ldamodel.docs مثل:

 MDL = tp.ldamodel (k = 20)
idx = mdl.add_doc (كلمات)
إذا idx <0: رفع Runtimeerror ("فشل في إضافة مستند")
doc_inst = mdl.docs [idx]
# doc_inst هو مثيل للوثيقة المضافة

يتم إنشاء مستند خارج النموذج بواسطة طريقة tomotopy.ldamodel.make_doc. لا يمكن استدعاء Make_doc إلا بعد بدء القطار. إذا كنت تستخدم Make_doc قبل أن تصبح مجموعة المستند المستخدم للتدريب ثابتًا ، فقد تحصل على نتائج خاطئة. نظرًا لأن Make_doc يقوم بإرجاع المثيل مباشرةً ، يمكنك استخدام قيمة الإرجاع الخاصة به للتلاعب الأخرى.

 MDL = tp.ldamodel (k = 20)
# add_doc ...
MDL.Train (100)
doc_inst = mdl.make_doc (unseen_doc) # doc_inst هو مثيل لمستند غير مرئي

الاستدلال على الوثائق غير المرئية

إذا تم إنشاء مستند جديد بواسطة tomotopy.ldamodel.make_doc ، فيمكن استنتاج توزيع موضوعه بواسطة النموذج. يجب إجراء الاستدلال للوثيقة غير المرئية باستخدام طريقة tomotopy.ldamodel.infer.

 MDL = tp.ldamodel (k = 20)
# add_doc ...
MDL.Train (100)
doc_inst = mdl.make_doc (unseen_doc)
topic_dist ، ll = mdl.infer (doc_inst)
طباعة ("توزيع الموضوع لمستندات غير مرئية:" ، topic_dist)
طباعة ("احتمالية سجل الاستدلال:" ، LL)

يمكن أن تستنتج طريقة الاستنتاج مثيلًا واحدًا فقط من tomotopy.document أو قائمة من مثيلات tomotopy.document. انظر المزيد في tomotopy.ldamodel.infer.

مجموعة وتحويل

كل نموذج موضوع في tomotopy له نوع المستند الداخلي الخاص به. يمكن إنشاء مستند وإضافته إلى كل نموذج من خلال طريقة ADD_DOC الخاصة بكل طراز. ومع ذلك ، فإن محاولة إضافة نفس قائمة المستندات إلى نماذج مختلفة تصبح غير مريحة تمامًا ، لأنه يجب استدعاء Add_doc لنفس قائمة المستندات لكل نموذج مختلف. وبالتالي ، يوفر Tomotopy فئة tomotopy.utils.corpus التي تحمل قائمة بالوثائق. يمكن إدراج tomotopy.utils.corpus في أي نموذج عن طريق تمرير كحجة وسيطة إلى طريقة __init__ أو add_corpus لكل نموذج. لذلك ، فإن إدخال tomotopy.utils.corpus له نفس التأثير على إدخال المستندات التي يحملها Corpus.

تتطلب بعض نماذج الموضوع بيانات مختلفة لمستنداتها. على سبيل المثال ، يتطلب tomotopy.dmrmodel بيانات الوسيطة في نوع STR ، لكن tomotopy.pldamodel يتطلب ملصقات وسيطة في قائمة [str]. نظرًا لأن tomotopy.Utils.Corpus يحتفظ بمجموعة مستقلة من المستندات بدلاً من ربطها بنموذج موضوع معين ، فقد تكون أنواع البيانات المطلوبة بواسطة نموذج الموضوع غير متسقة عند إضافة مجموعة إلى نموذج الموضوع. في هذه الحالة ، يمكن تحويل البيانات المتنوعة لتكون نموذج موضوع الهدف باستخدام تحويل الوسيطة. انظر المزيد من التفاصيل في الكود التالي:

 من tomotopy import dmrmodel
من tomotopy.utils استيراد مجموعة

corpus = corpus ()
corpus.add_doc ("ABCDE" .Split () ، a_data = 1)
corpus.add_doc ("efghi" .split () ، a_data = 2)
corpus.add_doc ("ijklm" .split () ، a_data = 3)

النموذج = dmrmodel (k = 10)
model.add_corpus (corpus)
# تفقد حقل "A_DATA" في "Corpus" ،
# و "البيانات الوصفية" التي يتطلبها "dmrmodel" تملأ بالقيمة الافتراضية ، STR فارغة.

نموذج تأكيد. docs [0] .metadata == ''
نموذج تأكيد. docs [1] .metadata == ''
نموذج تأكيد. docs [2]

def transform_a_data_to_metadata (misc: dict):
    إرجاع {'metadata': str (misc ['a_data'])}
# هذه الوظيفة تحول `a_data` إلى metadata`

النموذج = dmrmodel (k = 10)
model.add_corpus (corpus ، transform = transform_a_data_to_metadata)
# الآن مستندات في "النموذج" لا تحتوي على "بيانات التعريف" ، والتي تم إنشاؤها من حقل "A_DATA".

نموذج تأكيد. docs [0] .metadata == '1'
نموذج تأكيد. docs [1] .metadata == '2'
نموذج تأكيد. docs [2]

خوارزميات أخذ العينات الموازية

منذ الإصدار 0.5.0 ، يتيح لك tomotopy اختيار خوارزمية التوازي. الخوارزمية المقدمة في الإصدارات قبل 0.4.2 هي Copy_merge ، والتي يتم توفيرها لجميع نماذج الموضوع. يجعل قسم الخوارزمية الجديدة ، المتاح منذ 0.5.0 ، التدريب بشكل عام أسرع وأكثر كفاءة في الذاكرة ، ولكنه متوفر في جميع نماذج الموضوعات.

يوضح الرسم البياني التالي فرق السرعة بين الخوارزميات بناءً على عدد الموضوعات وعدد العمال.

الأداء حسب الإصدار

يتم عرض تغييرات الأداء حسب الإصدار في الرسم البياني التالي. تم قياس الوقت الذي يستغرقه تشغيل قطار طراز LDA مع 1000 تكرار. (مستندات: 11314 ، المفردات: 60382 ، الكلمات: 2364724 ، Intel Xeon Gold 5120 @2.2Ghz)

مواضيع pining باستخدام priors Word

منذ الإصدار 0.6.0 ، تمت إضافة طريقة جديدة tomotopy.ldamodel.set_word_prior. يسمح لك بالتحكم في كلمة مسبقًا لكل موضوع. على سبيل المثال ، يمكننا ضبط وزن كلمة "الكنيسة" إلى 1.0 في الموضوع 0 ، والوزن إلى 0.1 في بقية المواضيع باتباع الرموز. هذا يعني أن احتمال أن يتم تعيين كلمة "الكنيسة" للموضوع 0 أعلى 10 مرات من احتمال تعيينه لموضوع آخر. لذلك ، يتم تعيين معظم "الكنيسة" للموضوع 0 ، لذلك يحتوي الموضوع 0 على العديد من الكلمات المتعلقة بـ "الكنيسة". هذا يسمح بمعالجة بعض الموضوعات لوضعها على رقم موضوع معين.

 استيراد tomotopy كـ TP
MDL = tp.ldamodel (k = 20)

# أضف مستندات إلى "MDL"

# إعداد كلمة سابقة
mdl.set_word_prior ('Church' ، [1.0 if k == 0 else 0.1 for k in range (20)])

راجع Word_Prior_example في example.py لمزيد من التفاصيل.

أمثلة

يمكنك العثور على مثال رمز Python من tomotopy على https://github.com/bab2min/tomotopy/blob/main/examples/.

يمكنك أيضًا الحصول على ملف البيانات المستخدم في رمز المثال على https://drive.google.com/file/d/18opnijd4iwpyyz2o7pqopyetakexa71j/view.

رخصة

تم ترخيص Tomotopy بموجب شروط ترخيص معهد ماساتشوستس للتكنولوجيا ، مما يعني أنه يمكنك استخدامه لأي غرض معقول والبقاء في ملكية كاملة لجميع الوثائق التي تنتجها.

تاريخ

0.13.0 (2024-08-05)
- ميزات جديدة
  الميزات الرئيسية لمشاهد نموذج الموضوع tomotopy.viewer.open_viewer () جاهزة الآن.
  تتم إضافة tomotopy.ldamodel.get_hash (). يمكنك الحصول على قيمة تجزئة 128 بت النموذج.
  أضف وسيطة ngram_list إلى tomotopy.utils.simpletokenizer.
- إصلاحات الأخطاء
  تم استدعاء أخطاء غير متسقة ثابتة بعد corpus.concat_ngrams.
  تحسين عنق الزجاجة من tomotopy.ldamodel.load () و tomotopy.ldamodel.save () وتحسين سرعته أكثر من 10 مرات.
0.12.7 (2023-12-19)
- ميزات جديدة
  تمت إضافة عارض نموذج Tomotopy.viewer.open_viewer ()
  تحسين أداء tomotopy.utils.corpus.process ()
- إصلاحات الأخطاء
  document.span الآن يعيد النطاقات في وحدة الأحرف ، وليس في وحدة البايت.
0.12.6 (2023-12-11)
- ميزات جديدة
  تمت إضافة بعض ميزات الراحة إلى tomotopy.ldamodel.train و tomotopy.ldamodel.set_word_prior.
  ldamodel.train لديها الآن وسيطات جديدة رد الاتصال ، callback_interval و show_progres لمراقبة تقدم التدريب.
  يمكن الآن لـ ldamodel.set_word_prior قبول نوع dict [int ، float] كوسيطة سابقة.
0.12.5 (2023-08-03)
- ميزات جديدة
  وأضاف الدعم لعمارة Linux ARM64.
0.12.4 (2023-01-22)
- ميزات جديدة
  وأضاف الدعم لعمارة MacOS ARM64.
- إصلاحات الأخطاء
  تم إصلاح مشكلة حيث يثير tomotopy.document.get_sub_topic_dist () استثناء وسيطة سيئة.
  تم إصلاح مشكلة حيث يثير استثناء في بعض الأحيان يعطل.
0.12.3 (2022-07-19)
- ميزات جديدة
  الآن ، إدراج مستند فارغ باستخدام tomotopy.ldamodel.add_doc () يتجاهله بدلاً من رفع استثناء. إذا تم ضبط الوسيطة المضافة حديثًا على تجاهل _pmty_words على خطأ ، يتم إثارة استثناء كما كان من قبل.
  تتم توموتوبي.
- إصلاحات الأخطاء
  تم إصلاح مشكلة تمنع تعيين القيم المحددة للمستخدم لـ NUSQ في tomotopy.sldamodel (بواسطة @JucendRero).
  تم إصلاح قضية حيث لم يعمل tomotopy.Utils.Coherence مع tomotopy.dtmodel.
  تم إصلاح مشكلة غالبًا ما تحطمت عند استدعاء Make_dic () قبل استدعاء Train ().
  حل المشكلة أن نتائج tomotopy.dmrmodel و tomotopy.gdmrmodel مختلفة حتى عندما يتم إصلاح البذور.
  تم تحسين عملية تحسين المعلمة لـ tomotopy.dmrmodel و tomotopy.gdmrmodel.
  تم إصلاح مشكلة تحطمت أحيانًا عند استدعاء tomotopy.ptmodel.copy ().
0.12.2 (2021-09-06)
- مشكلة عند الاتصال convert_to_lda من tomotopy.hdpmodel مع min_cf> 0 ، min_df> 0 أو rm_top> 0 قد تم إصلاح حادث تحطم.
- تتم إضافة وسيطة جديدة من _pseudo_doc إلى tomotopy.document.get_topics و tomotopy.document.get_topic_dist. هذه الوسيطة صالحة فقط لمستندات PTModel ، فهي تتيح التحكم في مصدر لحساب توزيع موضوع.
- تم تغيير القيمة الافتراضية للوسيطة P من tomotopy.ptmodel. القيمة الافتراضية الجديدة هي K * 10.
- استخدام المستندات التي تم إنشاؤها بواسطة Make_doc دون استدعاء الاستدلال لم يعد يتسبب في تعطل ، ولكن مجرد طباعة رسائل التحذير.
- مشكلة لا يتم فيها تجميع رمز C ++ الداخلي في بيئة Clang C ++ 17.
0.12.1 (2021-06-20)
- مشكلة حيث تسبب tomotopy.ldamodel.set_word_prior () تم إصلاح حادث تحطم.
- الآن tomotopy.ldamodel.perplexity و tomotopy.ldamodel.ll_per_word إرجاع القيمة الدقيقة عندما لا يكون المصطلح واحد.
- تم إضافة tomotopy.ldamodel.used_vocab_weighted_freq ، والذي يعيد ترددات الكلمات المرجحة.
- الآن يظهر Tomotopy.ldamodel.summary () ليس فقط إنتروبيا الكلمات ، ولكن أيضًا إنتروبيا الكلمات المرتفعة.
0.12.0 (2021-04-26)
- الآن tomotopy.dmrmodel و tomotopy.gdmrmodel تدعم قيم متعددة من البيانات الوصفية (انظر https://github.com/bab2min/tomotopy/blob/main/examples/dmr_multi_label.py)
- تم تحسين أداء tomotopy.gdmrmodel.
- تمت إضافة طريقة نسخة () لجميع نماذج الموضوع للقيام بنسخة عميقة.
- تم إصلاح مشكلة حيث يتم استبعاد الكلمات التي يتم استبعادها من التدريب (بواسطة min_cf ، min_df) معرف موضوع غير صحيح. الآن جميع الكلمات المستبعدة لها -1 كمعرف الموضوع.
- الآن جميع الاستثناءات والتحذيرات التي تم إنشاؤها بواسطة tomotopy تتبع أنواع بيثون القياسية.
- تم رفع متطلبات البرمجيات إلى C ++ 14.
0.11.1 (2021-03-28)
- تم إصلاح خطأ حرج من ألفا غير متماثلة. بسبب هذا الخطأ ، تمت إزالة الإصدار 0.11.0 من الإصدارات.
0.11.0 (2021-03-26) (تمت إزالته)
- تمت إضافة نموذج جديد tomotopy.ptmodel للنصوص القصيرة في الحزمة.
- تم إصلاح مشكلة حيث يتسبب tomotopy.hdpmodel.infer في حدوث خطأ تجزئة في بعض الأحيان.
- تم إصلاح عدم تطابق إصدار API Numpy.
- الآن يتم دعم priors الوثيقة غير المتماثلة.
- يتم دعم نماذج الموضوع التسلسلية للبايت في الذاكرة.
- تمت إضافة وسيطة تطبيع إلى get_topic_dist () و get_topic_word_dist () و get_sub_topic_dist () للتحكم في تطبيع النتائج.
- الآن tomotopy.dmrmodel.lambdas و tomotopy.dmrmodel.alpha إعطاء القيم الصحيحة.
- تمت إضافة دعم البيانات الوصفية الفئوية لـ tomotopy.gdmrmodel (انظر https://github.com/bab2min/tomotopy/blob/main/examples/gdmr_both_categorical_and_numerical.py).
- تم إسقاط دعم Python3.5.
0.10.2 (2021-02-16)
- تم إصلاح مشكلة حيث فشل tomotopy.ctmodel.train مع K.
- تم إصلاح مشكلة حيث تفقد Tomotopy.Utils.Corpus قيم UID الخاصة بهم.
0.10.1 (2021-02-14)
- تم إصلاح مشكلة حيث توموتوبي.
- تم إصلاح مشكلة حيث يثير tomotopy.ldamodel.infer استثناء مع مدخلات صالحة.
- تم إصلاح مشكلة حيث توموتوبي.
- نظرًا لوجود معلمة جديدة تجميد _topics لـ tomotopy.hldamodel.train ، يمكنك التحكم في ما إذا كنت تريد إنشاء موضوع جديد أم لا عند التدريب.
0.10.0 (2020-12-19)
- تم توحيد واجهة tomotopy.utils.corpus و tomotopy.ldamodel.docs. الآن يمكنك الوصول إلى المستند في Corpus بنفس الطريقة.
- __GetItem__ من tomotopy.utils.corpus تم تحسينها. ليس فقط الفهرسة من قبل int ، ولكن أيضا من قبل ithable [int] ، يتم دعم التقطيع. أيضا فهرسة من قبل UID مدعوم.
- طرق جديدة tomotopy.utils.corpus.extract_ngrams و tomotopy.utils.corpus.concat_ngrams تمت إضافة. أنها تستخرج n-gram collocations باستخدام PMI وتلقياتها في كلمات واحدة.
- تمت إضافة طريقة جديدة tomotopy.ldamodel.add_corpus ، ويمكن أن يتمكن tomotopy.ldamodel.infer من الحصول على مجموعة كمدخلات.
- تمت إضافة وحدة جديدة tomotopy.coherence. يوفر الطريق لحساب تماسك النموذج.
- تمت إضافة window_size paramter إلى tomotopy.label.forelevance.
- تم إصلاح مشكلة حيث تحدث NAN في كثير من الأحيان عند تدريب tomotopy.hdpmodel.
- الآن Python3.9 مدعوم.
- تمت إزالة الاعتماد على py-cpuinfo وتحسين تهيئة الوحدة النمطية.
0.9.1 (2020-08-08)
- تم إصلاح تسرب الذاكرة من الإصدار 0.9.0.
- تم إصلاح tomotopy.ctmodel.summary ().
0.9.0 (2020-08-04)
- تم إضافة طريقة tomotopy.ldamodel.summary () ، التي تطبع ملخصًا قابل للقراءة الإنسان للنموذج.
- تم استبدال مولد الأرقام العشوائية للحزمة بـ eigenrand. إنه يسرع من توليد العدد العشوائي ويحل فرق النتيجة بين المنصات.
- بسبب أعلاه ، حتى لو كانت البذور هي نفسها ، فقد تكون نتيجة تدريب النموذج مختلفة عن الإصدار قبل 0.9.0.
- إصلاح خطأ في التدريب في tomotopy.hdpmodel.
- tomotopy.dmrmodel.alpha يعرض الآن dirichlet قبل توزيع موضوع لكل مستودع بواسطة البيانات الوصفية.
- تم تعديل tomotopy.dtmodel.get_count_by_topics () لإرجاع ndarray ثنائي الأبعاد.
- تم تعديل tomotopy.dtmodel.alpha لإرجاع نفس قيمة tomotopy.dtmodel.get_alpha ().
- تم إصلاح مشكلة حيث لا يمكن الحصول على قيمة البيانات الوصفية لوثيقة tomotopy.gdmrmodel.
- tomotopy.hldamodel.alpha يعرض الآن Dirichlet قبل توزيع عمق كل مستند.
- تم إضافة tomotopy.ldamodel.global_step.
- tomotopy.mgldamodel.get_count_by_topics () يعيد الآن عدد الكلمات لكل من المواضيع العالمية والمحلية.
- تم إضافة tomotopy.pamodel.alpha ، tomotopy.pamodel.subalpha ، و tomotopy.pamodel.get_count_by_super_topic ().

0.8.2 (2020-07-14)
- خصائص جديدة توموتوبي.
- خطأ يسبب نتائج مختلفة مع النظام الأساسي المختلفة حتى لو كانت البذور هي نفسها تم إصلاحها جزئيًا. نتيجة لهذا الإصلاح ، فإن Tomotopy الآن في 32 بت تعطي نتائج تدريب مختلفة من الإصدار السابق.
0.8.1 (2020-06-08)
- خلل حيث تم إصلاح tomotopy.ldamodel.used_vocabs تم إصلاح قيمة غير صحيحة.
- الآن tomotopy.ctmodel.prior_cov إرجاع مصفوفة التباين مع الشكل [k ، k].
- الآن توموتوبي.
0.8.0 (2020-06-06)
- منذ أن تم تقديم Numpy في tomotopy ، فإن العديد من الأساليب وخصائص Tomotopy لا ترجع فقط القائمة ، ولكن numpy.ndarray الآن.
- Tomotopy لديه تبعية جديدة numpy> = 1.10.0.
- تم إصلاح تقدير خاطئ لـ tomotopy.hdpmodel.infer.
- تمت إضافة طريقة جديدة حول تحويل HDPModel إلى Ldamodel.
- تم إضافة خصائص جديدة بما في ذلك tomotopy.ldamodel.used_vocabs و tomotopy.ldamodel.used_vocab_freq و tomotopy.ldamodel.used_vocab_df في نماذج الموضوع.
- تمت إضافة نموذج موضوع G-DMR جديد (tomotopy.gdmrmodel).
- تم إصلاح خطأ في تهيئة tomotopy.label.ForeLevance في MacOS.
- تم إصلاح الخطأ الذي حدث عند استخدام tomotopy.utils.corpus التي تم إنشاؤها بدون معلمات RAW.
0.7.1 (2020-05-08)
- تمت إضافة tomotopy.document.path إلى tomotopy.hldamodel.
- تم إصلاح حشرة الفساد في الذاكرة في tomotopy.label.pmiextractor.
- تم إصلاح خطأ تجميع في GCC 7.
0.7.0 (2020-04-18)
- تمت إضافة tomotopy.dtmodel في الحزمة.
- تم إصلاح خطأ في tomotopy.utils.corpus.save.
- تم إضافة طريقة جديدة tomotopy.document.get_count_vector في فئة المستند.
- الآن تستخدم توزيعات Linux ManyLinux2010 ويتم تطبيق تحسين إضافي.
0.6.2 (2020-03-28)
- تم إصلاح الخلل الحرج المتعلق بحفظ وحمل. تمت إزالة الإصدار 0.6.0 و 0.6.1 من الإصدارات.
0.6.1 (2020-03-22) (تمت إزالته)
- تم إصلاح الخلل المتعلق بتحميل الوحدة النمطية.
0.6.0 (2020-03-22) (تمت إزالته)
- توموتوبي.
- tomotopy.ldamodel.set_word_prior طريقة تتحكم في صالات توبيد الكلمات من نماذج الموضوع.
- تم إضافة وسيطة جديدة min_df التي تقوم بتصفية الكلمات بناءً على تردد المستند في كل نموذج موضوع __init__.
- tomotopy.label ، تمت إضافة الجهاز الفرعي حول وضع العلامات على الموضوع. حاليًا ، يتم توفير tomotopy.label.forelevance فقط.
0.5.2 (2020-03-01)
- تم إصلاح مشكلة خطأ تجزئة في tomotopy.lldamodel.add_doc.
- تم إصلاح الخلل الذي يستنتج tomotopy.hdpmodel في بعض الأحيان يعطل البرنامج.
- تم إصلاح مشكلة التعطل من tomotopy.ldamodel.infer مع ps = tomotopy.parallelscheme.partition ، معا = صحيح.
0.5.1 (2020-01-11)
- تم إصلاح الخلل الذي لا يدعم tomotopy.sldamodel.make_doc القيم المفقودة لـ y.
- الآن tomotopy.sldamodel يدعم تماما القيم المفقودة لمتغيرات الاستجابة y. يتم تضمين المستندات ذات القيم المفقودة (NAN) في موضوع النمذجة ، ولكن يتم استبعادها من انحدار متغيرات الاستجابة.
0.5.0 (2019-12-30)
- الآن tomotopy.pamodel.infer إرجاع كلا التوزيع المواضيع التوزيع الثاني.
- تم إضافة طرق جديدة get_sub_topics و get_sub_topic_dist إلى tomotopy.document. (للبامودل)
- تمت إضافة معلمة جديدة بالتوازي لطريقة tomotopy.ldamodel.train و tomotopy.ldamodel.infer. يمكنك تحديد خوارزمية التوازي عن طريق تغيير هذه المعلمة.
- تم إضافة tomotopy.parallelscheme.partition ، وهي خوارزمية جديدة. إنه يعمل بكفاءة عندما يكون عدد العمال كبيرًا ، أو عدد الموضوعات أو حجم المفردات كبيرة.
- تم إصلاح الخلل الذي لم يعمل فيه rm_top على min_cf <2.
0.4.2 (2019-11-30)
- تم إصلاح تعيينات الموضوع الخاطئة لـ tomotopy.lldamodel و tomotopy.pldamodel.
- قابلة للقراءة __repr__ من tomotopy.document و tomotopy.dictionary تم تنفيذها.
0.4.1 (2019-11-27)
- تم إصلاح خطأ في وظيفة init من tomotopy.pldamodel.
0.4.0 (2019-11-18)
- تمت إضافة نماذج جديدة بما في ذلك tomotopy.pldamodel و tomotopy.hldamodel في الحزمة.
0.3.1 (2019-11-05)
- مشكلة حيث تقوم GET_TOPIC_DIST () بإرجاع قيمة غير صحيحة عند ضبط MIN_CF أو RM_TOP.
- تم إصلاح قيمة الإرجاع لمستند get_topic_dist () من مستند tomotopy.mgldamodel لتشمل الموضوعات المحلية.
- تم تحسين سرعة التقدير مع TW = واحد.
0.3.0 (2019-10-06)
- تم إضافة نموذج جديد ، tomotopy.lldamodel في الحزمة.
- تم إصلاح قضية تعطل من HDPModel.
- منذ أن تم تنفيذ تقدير HDPMORETER HDPMODEL ، قد تختلف نتيجة HDPMOREL عن الإصدارات السابقة.
  إذا كنت ترغب في إيقاف تشغيل تقدير HDPModel المفرط ، فقم بتعيين Optim_Interval على الصفر.
0.2.0 (2019-08-18)
- تمت إضافة نماذج جديدة بما في ذلك tomotopy.ctmodel و tomotopy.sldamodel في الحزمة.
- تمت إضافة خيار معلمة جديد RM_TOP لجميع نماذج الموضوع.
- تم إصلاح المشكلات في طريقة الحفظ والتحميل ل pamodel و hpamodel.
- تم إصلاح حادث حادث في تحميل HDPModel.
- تم حساب المشكلة التي تم حساب LL_PER_WORD بشكل غير صحيح عند إصلاح min_cf> 0.
0.1.6 (2019-08-09)
- تم إصلاح أخطاء تجميع في Clang مع بيئة MacOS.
0.1.4 (2019-08-05)
- المشكلة عند استلام ADD_DOC قائمة فارغة حيث تم إصلاح الإدخال.
- المشكلة التي لم يتم إصلاح القضية التي لا تستخلصها توزيع كلمة التوزيع في النطاقات الفرعية.
0.1.3 (2019-05-19)
- تمت إضافة المعلمة min_cf ووظيفة إعادة التوقف الخاصة بها لجميع نماذج الموضوع.
0.1.0 (2019-05-12)
- الإصدار الأول من tomotopy

روابط للغات الأخرى

Ruby: https://github.com/ankane/tomoto

المكتبات المجمعة ورخصتها

EIGEN: يستخدم هذا التطبيق الميزات المرخصة من MPL2 لـ EIGEN ، مكتبة قالب C ++ للجبر الخطي. تتوفر نسخة من ترخيص MPL2 على https://www.mozilla.org/en-us/mpl/2.0/. يمكن الحصول على الكود المصدري لمكتبة Eigen على http://eigen.tuxfamily.org/.
eigenrand: رخصة معهد ماساتشوستس للتكنولوجيا
متغير MAPBOX: ترخيص BSD

اقتباس

 software {minchul_lee_2022_6868418 ،
  المؤلف = {minchul lee} ،
  العنوان = {bab2min/tomotopy: 0.12.3} ،
  الشهر = يوليو ،
  السنة = 2022 ،
  Publisher = {Zenodo} ،
  الإصدار = {v0.12.3} ،
  doi = {10.5281/Zenodo.6868418} ،
  url = {https://doi.org/10.5281/zenodo.6868418}
}

يوسع

معلومات إضافية

الإصدار 0.13.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-17
الحجم 1.14MB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل