tomotopy下載 - tomotopy源代碼下載

tomotopy

其他源碼

0.13.0

下載

上交

英語，한국어。

什麼是上交？

Tomotopy是Tomoto（主題建模工具）的Python擴展，它是基於吉布斯採樣的主題模型庫，編寫了C ++。它利用現代CPU的矢量化來最大化速度。當前版本的Tomoto支持幾個主要主題模型，包括

潛在的dirichlet分配（tomotopy.ldamodel）
標記的LDA（tomotopy.lldamodel）
部分標記的LDA（tomotopy.pldamodel）
監督LDA（Tomotopy.sldamodel）
DIRICHLET多項式回歸（Tomotopy.dmrmodel）
廣義的dirichlet多項式回歸（tomotopy.gdmrmodel）
分層dirichlet過程（tomotopy.hdpmodel）
分層LDA（tomotopy.hldamodel）
多穀物LDA（tomotopy.mgldamodel）
Pachinko分配（Tomotopy.pamodel）
分層PA（tomotopy.hpamodel）
相關主題模型（tomotopy.ctmodel）
動態主題模型（tomotopy.dtmodel）
基於偽文檔的主題模型（tomotopy.ptmodel）。

請訪問https://bab2min.github.io/tomotopy，以查看更多信息。

入門

您可以使用PIP輕鬆安裝上述過程。（https://pypi.org/project/tomotopy/）

 $ pip安裝 - 升級PIP
$ pip安裝上交

支持的OS和Python版本是：

Linux（x86-64），帶Python> = 3.6
macos> = 10.13 with python> = 3.6
Windows 7或更高版本（x86，x86-64）帶有Python> = 3.6
帶有Python> = 3.6的其他OS：需要源代碼的編譯（使用C ++ 14兼容編譯器）

安裝後，您可以通過導入啟動上交。

導入上調作為TP
打印（tp.isa）＃打印'avx2'，'avx'，'sse2'或'none'

當前，Tomotopy可以利用AVX2，AVX或SSE2 SIMD指令集以最大化性能。導入軟件包時，它將檢查可用的指令集並選擇最佳選項。如果TP.ISA沒有說，培訓的迭代可能需要很長時間。但是，由於大多數現代英特爾或AMD CPU都提供SIMD指令集，因此SIMD加速可能會顯示出很大的進步。

這是一個示例代碼，可簡單地從“ sample.txt”文件中對文本進行簡單培訓。

導入上調作為TP
mdl = tp.ldamodel（k = 20）
對於打開的行（'sample.txt'）：
    mdl.add_doc（line.strip（）。split（））

對於我的範圍（0、100、10）：
    MDL.Train（10）
    print（'迭代：{}  tlog-likelihoodhieny：{}'。格式（i，mdl.ll_per_word））

對於K範圍（MDL.K）：
    print（'主題＃{}'的十大單詞。格式（k））
    打印（mdl.get_topic_words（k，top_n = 10））

mdl.summary（）

表演的表現

Tomotopy使用崩潰的吉布斯採樣（CGS）來推斷主題的分佈和單詞的分佈。通常，CGS比Gensim的LDamodel使用的變異貝葉斯（VB）更慢，但是可以將其迭代計算得更快。此外，Thmotopy可以使用SIMD指令集利用多核CPU，這可能會導致更快的迭代。

以下圖表顯示了LDA模型在上述過程和Gensim之間的運行時間的比較。輸入數據由1000個來自英語Wikipedia的隨機文檔組成，其中包含1,506,966個單詞（約10.1 MB）。 Tomotopy訓練200次迭代和Gensim訓練10次迭代。

Intel i5-6600，X86-64（4核）的性能

Intel Xeon E5-2620 V4中的性能

儘管上音迭代多20倍，但總運行時間比Gensim快5至10倍。它產生穩定的結果。

很難直接比較CGS和VB，因為它們是完全不同的技術。但是從實際的角度來看，我們可以比較它們之間的速度及其結果。以下圖表顯示了兩個模型結果的日誌樣式。

SIMD指令集對性能有很大的影響。以下是SIMD指令集之間的比較。

幸運的是，最近的X86-64 CPU中的大多數CPU都提供AVX2指令集，因此我們可以享受AVX2的性能。

保存和加載

Tomotopy為每個主題模型類提供保存和加載方法，因此您可以隨時將模型保存到文件中，並將其從文件中重新加載。

導入上調作為TP

mdl = tp.hdpmodel（）
對於打開的行（'sample.txt'）：
    mdl.add_doc（line.strip（）。split（））

對於我的範圍（0、100、10）：
    MDL.Train（10）
    print（'迭代：{}  tlog-likelihoodhieny：{}'。格式（i，mdl.ll_per_word））

＃保存到文件中
mdl.save（'sample_hdp_model.bin'）

＃從文件加載
mdl = tp.hdpmodel.load（'sample_hdp_model.bin'）
對於K範圍（MDL.K）：
    如果不是mdl.is_live_topic（k）：繼續
    print（'主題＃{}'的十大單詞。格式（k））
    打印（mdl.get_topic_words（k，top_n = 10））

＃保存的模型是HDP模型，
＃因此，當您通過LDA型號加載它時，它將引起異常
mdl = tp.ldamodel.load（'sample_hdp_model.bin'）

當您從文件加載模型時，文件中的模型類型應與方法類匹配。

請參閱tomotopy.ldamodel.save and tomotopy.ldamodel.load方法的更多信息。

交互式模型查看器

Interactive_model_viewer_demo.mp4

您可以看到自V0.13.0以來使用交互式查看器建模的結果。

導入上調作為TP
型號= tp.ldamodel（...）
＃...一些培訓代碼...
tp.viewer.open_viewer（模型，host =“ localhost”，port = 9999）
＃並打開http：// localhost：9999在您的Web瀏覽器中！

如果您有保存的模型文件，也可以使用以下命令行。

 Python -M Tomotopy.Viewer A_TRAIND_MODEL.BIN-主機主機-Port 9999

請參閱Tomotopy.Ciewer模塊的更多信息。

模型和模型中的文檔

我們可以將主題模型用於兩個主要目的。基本的是，由於訓練有素的模型，從一組文檔中發現主題，而更先進的是通過使用訓練有素的模型來推斷不見文檔的主題分佈。

我們將文檔命名為以前的目的（用於模型培訓）為模型中的文檔，而該文檔則將文檔（在培訓期間看不見的文檔）作為模型中的文檔。

在上述過程中，這兩種不同類型的文檔的生成不同。模型中的文檔可以通過tomotopy.ldamodel.add_doc方法創建。可以在tomotopy.ldamodel.Train開始之前調用add_doc。換句話說，在火車調用後，add_doc無法將文檔添加到模型中，因為用於培訓的文檔集已固定。

要獲取創建文檔的實例，您應該使用tomotopy.ldamodel.docs，例如：

 mdl = tp.ldamodel（k = 20）
idx = mdl.add_doc（單詞）
如果IDX <0：提高RuntimeError（“無法添加DOC”）
doc_inst = mdl.docs [idx]
＃doc_inst是添加文檔的實例

模型中的文檔是由Tomotopy.ldamodel.make_doc方法生成的。只有在火車開始後才能調用make_doc。如果您在使用培訓的文檔集已固定之前使用make_doc，則可能會遇到錯誤的結果。由於Make_Doc直接返回實例，因此您可以將其返回值用於其他操作。

 mdl = tp.ldamodel（k = 20）
＃add_doc ...
MDL.Train（100）
doc_inst = mdl.make_doc（unseen_doc）＃doc_inst是看不見文檔的實例

看不見的文件的推斷

如果Tomotopy.ldamodel.make_doc創建了一個新文檔，則可以通過模型來推斷其主題分佈。應使用Tomotopy.ldamodel.infer方法進行未見文檔的推斷。

 mdl = tp.ldamodel（k = 20）
＃add_doc ...
MDL.Train（100）
doc_inst = mdl.make_doc（unseen_doc）
topic_dist，ll = mdl.infer（doc_inst）
打印（“看不見文檔的主題分發：”，topic_dist）
打印（“推理的log-likelione：”，LL）

推斷方法只能推斷出一個thmotopy的實例。文檔或tomotopy.document的實例列表。請參閱tomotopy.ldamodel.infer的更多信息。

語料庫和變換

上交中的每個主題模型都有其自己的內部文檔類型。可以通過每個模型的add_doc方法創建文檔並將其添加到適合每個模型中。但是，嘗試在不同模型中添加相同的文檔列表變得非常不便，因為應要求add_doc列出每個不同模型的文檔列表。因此，Tomotopy提供了Tomotopy.utils.utils.corpus類，其中包含文檔列表。 tomotopy.utils.corpus可以通過將作為參數語料庫傳遞到__init__或每個模型的add_corpus方法來插入任何模型。因此，插入thmotopy.utils.corpus只是插入語料庫所包含的文檔的效果相同。

某些主題模型需要不同的文檔數據。例如，tomotopy.dmrmodel需要str類型中的參數元數據，但是tomotopy.pldamodel需要列表中的參數標籤[str]類型。由於tomotopy.utils.corpus擁有一組獨立的文檔，而不是與特定主題模型相關聯，因此當將語料庫添加到該主題模型中時，主題模型所需的數據類型可能是不一致的。在這種情況下，可以使用參數轉換將其他數據轉換為擬合目標主題模型。在以下代碼中查看更多詳細信息：

從上交dmrmodel中
來自thmotopy.utils進口語料庫

語料庫= copus（）
corpus.add_doc（“ abcde” .split（），a_data = 1）
corpus.add_doc（“ efghi” .split（），a_data = 2）
colpus.add_doc（“ ijklm” .split（），a_data = 3）

型號= dmrmodel（k = 10）
model.add_corpus（copus）
＃你在`
＃和`dmrmodel'要求的元數據中填充了默認值為空str。

assert model.docs [0] .metadata =='''
assert model.docs [1] .metadata =='''
assert model.docs [2] .metadata =='''

def transform_a_data_to_metadata（MISC：dict）：
    返回{'metadata'：str（misc ['a_data']）}}
＃此函數將`a_data``變成'元數據了

型號= dmrmodel（k = 10）
model.Add_corpus（copus，transform = transform_a_data_to_metadata）
＃現在，``模型''中的文檔具有從a_data`字段生成的非默認元素。

assert model.docs [0] .metadata =='1'
assert model.docs [1] .metadata =='2'
assert model.docs [2] .metadata =='3'

並行採樣算法

由於版本為0.5.5，因此允許您選擇平行算法。在0.4.2之前以版本提供的算法是Copy_merge，該算法為所有主題模型提供。自0.5.0以來可用的新算法分區通常可以使培訓通常更快，更高，但並非所有主題模型都可以使用。

以下圖表顯示了基於主題數量和工人數量的兩種算法之間的速度差。

按版本進行性能

以下圖中顯示了按版本進行的性能更改。測量了使用1000次迭代運行LDA型號的時間。（文檔：11314，詞彙：60382，單詞：2364724，英特爾Xeon Gold 5120 @2.2GHz）

使用文字固定主題

由於版本為0.6.0，因此添加了一種新的方法tomotopy.ldamodel.set_word_prior。它允許您控制每個主題的先驗。例如，我們可以將“教堂”一詞的重量設置為主題0中的1.0，而在其餘主題中，通過以下代碼將重量設置為0.1。這意味著將“教堂”一詞分配給主題0的概率比將其分配給另一個主題的概率高10倍。因此，大多數“教會”被分配到主題0，因此主題0包含許多與“教堂”有關的單詞。這允許操縱某些主題以特定主題編號。

導入上調作為TP
mdl = tp.ldamodel（k = 20）

＃將文檔添加到`mdl'

＃設置Word先驗
mdl.set_word_prior（'church'，[1.0如果k == 0 else 0 0.1，範圍內的k（20）））））

有關更多詳細信息，請參見example.py中的word_prior_example。

例子

您可以在https://github.com/bab2min/tomotopy/blob/main/main/examples/上找到python tomotopy的示例。

您還可以在https://drive.google.com/file/d/18opnijd4iwpyyz2o7pqopyetakexa71j/view中獲取示例代碼中使用的數據文件。

執照

Thmotopy是根據MIT許可條款獲得許可的，這意味著您可以將其用於任何合理目的，並保留所有您生產的文檔的完全所有權。

歷史

0.13.0（2024-08-05）
- 新功能
  主題模型查看器tomotopy.viewer.open_viewer（）的主要功能已準備就緒。
  添加了tomotopy.ldamodel.get_hash（）。您可以獲得模型的128位哈希值。
  將參數ngram_list添加到tomotopy.utils.simpletokenizer。
- 錯誤修復
  固定不一致的跨越bug。 concat_ngrams被調用。
  優化了tomotopy.ldamodel.load（）和tomotopy.ldamodel.save（）的瓶頸，並提高了其速度超過10倍。
0.12.7（2023-12-19）
- 新功能
  添加了主題模型查看器tomotopy.viewer.open_viewer（）
  優化了tomotopy.utils.corpus.process（）的性能
- 錯誤修復
  document.span現在返回字符單元中的範圍，而不是字節單元中的範圍。
0.12.6（2023-12-11）
- 新功能
  添加了一些便利性功能。 ldamodel.trainand tomotopy.ldamodel.set_word_prior。
  LDAMODEL.TRAIN現在有新的參數回調，Callback_interval和Show_progres來監視培訓進度。
  ldamodel.set_word_prior現在可以接受dict [int，float]鍵入其參數。
0.12.5（2023-08-03）
- 新功能
  添加了對Linux ARM64體系結構的支持。
0.12.4（2023-01-22）
- 新功能
  增加了對MacOS ARM64體系結構的支持。
- 錯誤修復
  修復了thmotopy.document.get_sub_topic_dist（）提出不良論點異常的問題。
  修復了一個例外升高有時會導致崩潰的問題。
0.12.3（2022-07-19）
- 新功能
  現在，使用Tomotopy.ldamodel.add_doc（）插入一個空文檔只是忽略它而不是提高異常。如果新添加的參數image_empty_words設置為false，則像以前一樣提出異常。
  添加tomotopy.hdpmodel.purge_dead_topics（）方法以從模型中刪除非活性主題。
- 錯誤修復
  修復了一個問題，該問題可防止在thmotopy.sldamodel中設置NUSQ的用戶定義值（@jucendrero）。
  修復了thmotopy.utils.coherence不起作用的問題。 dtmodel。
  修復了在調用train（）之前調用make_dic（）時通常崩潰的問題。
  解決了tomotopy.dmrmodel和tomotopy.gdmrmodel的結果的問題，即使種子固定也不同。
  tomotopy.dmrmodel和thmotopy.gdmrmodel的參數優化過程已得到改善。
  修復了調用Tomotopy.ptmodel.copy（）時有時會崩潰的問題。
0.12.2（2021-09-06）
- 一個問題，即使用min_cf> 0，min_df> 0或rm_top> 0引起convert_to_lda。
- _pseudo_doc的一個新參數添加到tomotopy.document.get_topics and tomotopy.document.get_topic_dist。該參數僅對PTModel文檔有效，它可以控制計算主題分佈的源。
- tomotopy.ptmodel的參數p的默認值已更改。新的默認值為k * 10。
- 使用make_doc生成的文檔而不調用推斷不會導致崩潰，而只是打印警告消息。
- 在Clang C ++ 17環境中未編譯內部C ++代碼的問題已解決。
0.12.1（2021-06-20）
- tomotopy.ldamodel.set_word_prior（）導致崩潰的問題已被修復。
- 現在tomotopy.ldamodel.perplexity and tomotopy.ldamodel.ll_per_word返回準確的值，而術語重量不是一個。
- 添加了tomotopy.damodel.used_vocab_weighted_freq，返回單詞的術語加權頻率。
- 現在，tomotopy.ldamodel.summary（）不僅顯示單詞的熵，還顯示術語加權單詞的熵。
0.12.0（2021-04-26）
- 現在tomotopy.dmrmodel和tomotopy.gdmrmodel支持元數據的多個值（請參閱https://github.com/bab2min/tomotopy/blob/main/main/main/examples/dmr_multi_label.py）
- tomotopy.gdmrmodel的性能得到了改善。
- 為所有主題模型添加了複製（）方法，以進行深層副本。
- 解決問題的問題是，在訓練之外的單詞（min_cf，min_df）的單詞不正確。現在，所有排除的單詞都具有-1為主題ID。
- 現在，在上述過程中產生的所有例外和警告都遵循標準的Python類型。
- 編譯器要求已提高到C ++ 14。
0.11.1（2021-03-28）
- 固定了不對稱alpha的關鍵錯誤。由於此錯誤，版本0.11.0已從版本中刪除。
0.11.0（2021-03-26）（已刪除）
- 一個新主題模型tomotopy.ptmodel用於簡短的文本。
- 在thmotopy.hdpmodel.infer有時會導致分割故障的情況下解決問題。
- 修復了Numpy API版本的不匹配。
- 現在支持不對稱的文檔主題先驗。
- 支持內存中的主題模型。
- 將一個參數歸一化添加到get_topic_dist（），get_topic_word_dist（）和get_sub_topic_dist（）中，以控制結果的歸一化。
- 現在tomotopy.dmrmodel.lambdas和tomotopy.dmrmodel.alpha給出正確的值。
- 添加了分類的元數據支持。 gdmrmmodel（請參閱https://github.com/bab2min/tomotopy/blob/main/main/examples/gdmr_both_categorical_categorical_and_and_numerical.py）。
- python3.5支持下降。
0.10.2（2021-02-16）
- 在thmotopy.ctmodel.train失敗的情況下，解決了問題。
- 在thmotopy.utils.utils.corpus失去其UID值的情況下，問題是固定的。
0.10.1（2021-02-14）
- 問題是在tomotopy.utils.corpus.extract_ngrams帶有空輸入的情況下修復的。
- 問題是固定的，其中tomotopy.ldamodel.infer提出了有效輸入的例外。
- tomotopy.hldamodel.infer會產生錯誤的tomotopy.document.path的問題。
- 由於添加了用於tomotopy.hldamodel.Train的新參數Freeze_Topics，因此您可以控制是否在訓練時創建一個新主題。
0.10.0（2020-12-19）
- tomotopy.utils.corpus和thmotopy.ldamodel.docs的界面統一。現在，您可以以相同的方式以語料庫訪問文檔。
- _________________________________erpus得到了改善。不僅由INT索引，而且還支持了切片。也支持UID索引。
- 添加了新方法tomotopy.utils.corpus.extract_ngrams and tomotopy.utils.corpus.concat_ngrams。他們使用PMI提取N-Gram搭配，並將它們串成一個單詞。
- 添加了一種新方法tomotopy.ldamodel.add_corpus，並tomotopy.ldamodel.infer可以接收語料庫作為輸入。
- 添加了一個新的模塊上述。它提供了計算模型連貫性的方法。
- paramter window_size添加到tomotopy.label.forelevance中。
- 在訓練Tomotopy.hdpmodel時，NAN經常發生的問題是解決的。
- 現在支持Python3.9。
- 除去了對Py-cpuinfo的依賴，並提高了模塊的初始化。
0.9.1（2020-08-08）
- 版本0.9.0的內存洩漏已固定。
- tomotopy.ctmodel.summary（）固定。
0.9.0（2020-08-04）
- 已添加了印刷模型的人類可讀摘要的tomotopy.ldamodel.summary（）方法。
- 軟件包的隨機數生成器已被特徵替換。它加快了隨機數生成的速度，並解決了平台之間的結果差異。
- 由於上述種子，即使種子相同，模型訓練結果也可能與0.9.0之前的版本不同。
- 修復了thmotopy.hdpmodel中的訓練錯誤。
- tomotopy.dmrmodel.alpha現在顯示元數據主題分佈的事先。
- tomotopy.dtmodel.get_count_by_topics（）已修改以返回二維ndarray。
- tomotopy.dtmodel.alpha已修改以返回與tomotopy.dtmodel.get_alpha（）相同的值。
- 修復了無法獲得tomotopy.gdmrmodel文檔的元數據值的問題。
- tomotopy.hldamodel.alpha現在顯示每件文檔深度分佈的事先。
- tomotopy.ldamodel.global_step已添加。
- tomotopy.mgldamodel.get_count_by_topics（）現在返回全局和本地主題的單詞計數。
- tomotopy.pamodel.alpha，tomotopy.pamodel.subalpha和tomotopy.pamodel.get_count_by_super_topic（）已被添加。

0.8.2（2020-07-14）
- 已添加了新屬性tomotopy.dtmodel.num_timepoints and tomotopy.dtmodel.num_docs_by_timepoint。
- 即使種子相同的種子部分固定，也會導致不同平台導致不同結果的錯誤。由於此修復程序，現在以32位的上述術與早期版本產生不同的訓練結果。
0.8.1（2020-06-08）
- tomotopy.ldamodel.used_vocabs返回錯誤的一個錯誤值。
- 現在tomotopy.ctmodel.prior_cov返回具有形狀[K，K]的協方差矩陣。
- 現在，tomotopy.ctmodel.get_corryations用空參數返回與形狀[k，k]的相關矩陣。
0.8.0（2020-06-06）
- 由於在上述過程中引入了numpy，因此，上述拷貝的許多方法和屬性返回列表，而是numpy.ndarray。
- 上交有一個新的依賴項numpy> = 1.10.0。
- 固定的tomotopy.hdpmodel的錯誤估計。
- 添加了一種將HDPModel轉換為LDAMODEL的新方法。
- 包括tomotopy.ldamodel.used_vocabs，tomotopy.ldamodel.used_vocab_freq和tomotopy.ldamodel.used_vocab_df在內的新屬性已添加到主題模型中。
- 添加了一種新的G-DMR主題模型（Tomotopy.gdmrmodel）。
- 固定MacOS中的forelevance時，固定了初始化的上述過程中的錯誤。
- 使用Tomotopy.utils.corpus創建的沒有原始參數的corpus時發生的錯誤是固定的。
0.7.1（2020-05-08）
- tomotopy.document.path添加了tomotopy.hldamodel。
- tomotopy.label.pmiextractor中的內存損壞錯誤已修復。
- 固定了GCC 7中的編譯誤差。
0.7.0（2020-04-18）
- tomotopy.dtmodel被添加到包裝中。
- tomotopy.utils.corpus.save中的一個錯誤是固定的。
- 新方法tomotopy.document.get_count_vector被添加到文檔類中。
- 現在，Linux分佈使用Manylinux2010，並應用了其他優化。
0.6.2（2020-03-28）
- 與保存和負載相關的關鍵錯誤已修復。版本0.6.0和0.6.1已從版本中刪除。
0.6.1（2020-03-22）（刪除）
- 與模塊加載有關的錯誤已修復。
0.6.0（2020-03-22）（刪除）
- tomotopy.utils.corpus類很容易地管理多個文檔。
- tomotopy.ldamodel.set_word_prior方法添加了主題模型的單詞主題先驗。
- 將基於文檔頻率過濾單詞的新參數min_df添加到每個主題模型的__init__中。
- tomotopy.label，添加了有關主題標籤的子模塊。目前，僅提供tomotopy.label.forelevance。
0.5.2（2020-03-01）
- tomotopy.lldamodel.add_doc解決了分割故障問題。
- 修復了一個錯誤的推斷。 hdpmodel有時會崩潰該程序。
- tomotopy.ldamodel.infer with ps = tomotopy.parallelscheme.partition，partition，fordit = true = true。
0.5.1（2020-01-11）
- 修復了一個錯誤，該錯誤是thmotopy.sldamodel.make_doc不支持y的缺失值。
- 現在，thmotopy.sldamodel完全支持響應變量y的缺失值。具有缺失值（NAN）的文檔包含在建模主題中，但不包括響應變量的回歸。
0.5.0（2019-12-30）
- 現在tomotopy.pamodel.infer返回兩個主題分佈和亞主題分佈。
- 新方法get_sub_topics和get_sub_topic_dist被添加到thmotopy.document中。（對於pamodel）
- 添加了用於tomotopy.ldamodel.train和tomotopy.ldamodel.infer方法的新參數。您可以通過更改此參數選擇並行性算法。
- tomotopy.parallelscheme.partition是一種新算法。當工人數量較大時，主題數量或詞彙量的大小很大，它有效地工作。
- RM_TOP在min_cf <2上無法使用的一個錯誤是固定的。
0.4.2（2019-11-30）
- tomotopy.lldamodel和thmotopy.pldamodel的錯誤主題分配固定。
- 可讀的__repr__ tomotopy.document和thmotopy。
0.4.1（2019-11-27）
- pldamodel的init函數中的一個錯誤是固定的。
0.4.0（2019-11-18）
- 包裝中添加了包括Tomotopy.pldamodel和Tomotopy.hldamodel在內的新型號。
0.3.1（2019-11-05）
- 當修復了min_cf或rm_top時，get_topic_dist（）返回不正確的值的問題。
- tomotopy.mgldamodel文檔的get_topic_dist（）的返回值已固定為包括本地主題。
- 帶有TW =一個的估計速度得到了提高。
0.3.0（2019-10-06）
- 一個新的型號Tomotopy.lldamodel被添加到包裝中。
- HDPModel的崩潰問題已解決。
- 由於實現了HDPModel的高參數估計，因此HDPModel的結果可能與以前的版本不同。
  如果要關閉HDPModel的超參數估計，請將Optim_interval設置為零。
0.2.0（2019-08-18）
- 包括Tomotopy.ctModel和Tomotopy.sldamodel在內的新型號被添加到包裝中。
- 為所有主題模型添加了一個新的參數選項RM_TOP。
- 固定了Pamodel和Hpamodel的保存和負載方法的問題。
- 固定了加載HDPModel中的偶爾崩潰。
- 固定min_cf> 0時，錯誤地計算了ll_per_word的問題。
0.1.6（2019-08-09）
- 固定在clang上的clang誤差固定。
0.1.4（2019-08-05）
- 當ADD_DOC收到一個空列表時，該問題已修復了輸入。
- tomotopy.pamodel.get_topic_words的問題未固定固定字節的單詞分佈。
0.1.3（2019-05-19）
- 為所有主題模型添加了參數MIN_CF及其停止詞變形函數。
0.1.0（2019-05-12）
- 第一版

其他語言的綁定

Ruby：https：//github.com/ankane/tomoto

捆綁圖書館及其許可證

EIGEN：此應用程序使用線性代數的C ++模板庫EIGEN的MPL2許可功能。 MPL2許可證的副本可在https://www.mozilla.org/en-us/mpl/2.0/上獲得。可以在http://eigen.tuxfamily.org/上獲取特徵庫的源代碼。
EIGENRAND：麻省理工學院許可證
MAPBOX變體：BSD許可證

引用

@software {minchul_lee_2022_6868418，
  作者= {minchul lee}，
  title = {bab2min/thmotopy：0.12.3}，，
  月份= 7月，
  年= 2022，
  publisher = {zenodo}，
  版本= {v0.12.3}，
  doi = {10.5281/zenodo.6868418}，
  url = {https://doi.org/10.5281/zenodo.6868418}
}

展開

附加信息

版本 0.13.0
類型其他源碼
更新時間 2025-04-17
大小 1.14MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部