tomotopy下载 - tomotopy源代码下载

tomotopy

其他源码

0.13.0

下载

上交

英语，한국어。

什么是上交？

Tomotopy是Tomoto（主题建模工具）的Python扩展，它是基于吉布斯采样的主题模型库，编写了C ++。它利用现代CPU的矢量化来最大化速度。当前版本的Tomoto支持几个主要主题模型，包括

潜在的dirichlet分配（tomotopy.ldamodel）
标记的LDA（tomotopy.lldamodel）
部分标记的LDA（tomotopy.pldamodel）
监督LDA（Tomotopy.sldamodel）
DIRICHLET多项式回归（Tomotopy.dmrmodel）
广义的dirichlet多项式回归（tomotopy.gdmrmodel）
分层dirichlet过程（tomotopy.hdpmodel）
分层LDA（tomotopy.hldamodel）
多谷物LDA（tomotopy.mgldamodel）
Pachinko分配（Tomotopy.pamodel）
分层PA（tomotopy.hpamodel）
相关主题模型（tomotopy.ctmodel）
动态主题模型（tomotopy.dtmodel）
基于伪文档的主题模型（tomotopy.ptmodel）。

请访问https://bab2min.github.io/tomotopy，以查看更多信息。

入门

您可以使用PIP轻松安装上述过程。（https://pypi.org/project/tomotopy/）

 $ pip安装 - 升级PIP
$ pip安装上交

支持的OS和Python版本是：

Linux（x86-64），带Python> = 3.6
macos> = 10.13 with python> = 3.6
Windows 7或更高版本（x86，x86-64）带有Python> = 3.6
带有Python> = 3.6的其他OS：需要源代码的编译（使用C ++ 14兼容编译器）

安装后，您可以通过导入启动上交。

导入上调作为TP
打印（tp.isa）＃打印'avx2'，'avx'，'sse2'或'none'

当前，Tomotopy可以利用AVX2，AVX或SSE2 SIMD指令集以最大化性能。导入软件包时，它将检查可用的指令集并选择最佳选项。如果TP.ISA没有说，培训的迭代可能需要很长时间。但是，由于大多数现代英特尔或AMD CPU都提供SIMD指令集，因此SIMD加速可能会显示出很大的进步。

这是一个示例代码，可简单地从“ sample.txt”文件中对文本进行简单培训。

导入上调作为TP
mdl = tp.ldamodel（k = 20）
对于打开的行（'sample.txt'）：
    mdl.add_doc（line.strip（）。split（））

对于我的范围（0、100、10）：
    MDL.Train（10）
    print（'迭代：{}  tlog-likelihoodhieny：{}'。格式（i，mdl.ll_per_word））

对于K范围（MDL.K）：
    print（'主题＃{}'的十大单词。格式（k））
    打印（mdl.get_topic_words（k，top_n = 10））

mdl.summary（）

表演的表现

Tomotopy使用崩溃的吉布斯采样（CGS）来推断主题的分布和单词的分布。通常，CGS比Gensim的LDamodel使用的变异贝叶斯（VB）更慢，但是可以将其迭代计算得更快。此外，Thmotopy可以使用SIMD指令集利用多核CPU，这可能会导致更快的迭代。

以下图表显示了LDA模型在上述过程和Gensim之间的运行时间的比较。输入数据由1000个来自英语Wikipedia的随机文档组成，其中包含1,506,966个单词（约10.1 MB）。 Tomotopy训练200次迭代和Gensim训练10次迭代。

Intel i5-6600，X86-64（4核）的性能

Intel Xeon E5-2620 V4中的性能

尽管上音迭代多20倍，但总运行时间比Gensim快5至10倍。它产生稳定的结果。

很难直接比较CGS和VB，因为它们是完全不同的技术。但是从实际的角度来看，我们可以比较它们之间的速度及其结果。以下图表显示了两个模型结果的日志样式。

SIMD指令集对性能有很大的影响。以下是SIMD指令集之间的比较。

幸运的是，最近的X86-64 CPU中的大多数CPU都提供AVX2指令集，因此我们可以享受AVX2的性能。

保存和加载

Tomotopy为每个主题模型类提供保存和加载方法，因此您可以随时将模型保存到文件中，并将其从文件中重新加载。

导入上调作为TP

mdl = tp.hdpmodel（）
对于打开的行（'sample.txt'）：
    mdl.add_doc（line.strip（）。split（））

对于我的范围（0、100、10）：
    MDL.Train（10）
    print（'迭代：{}  tlog-likelihoodhieny：{}'。格式（i，mdl.ll_per_word））

＃保存到文件中
mdl.save（'sample_hdp_model.bin'）

＃从文件加载
mdl = tp.hdpmodel.load（'sample_hdp_model.bin'）
对于K范围（MDL.K）：
    如果不是mdl.is_live_topic（k）：继续
    print（'主题＃{}'的十大单词。格式（k））
    打印（mdl.get_topic_words（k，top_n = 10））

＃保存的模型是HDP模型，
＃因此，当您通过LDA型号加载它时，它将引起异常
mdl = tp.ldamodel.load（'sample_hdp_model.bin'）

当您从文件加载模型时，文件中的模型类型应与方法类匹配。

请参阅tomotopy.ldamodel.save and tomotopy.ldamodel.load方法的更多信息。

交互式模型查看器

Interactive_model_viewer_demo.mp4

您可以看到自V0.13.0以来使用交互式查看器建模的结果。

导入上调作为TP
型号= tp.ldamodel（...）
＃...一些培训代码...
tp.viewer.open_viewer（模型，host =“ localhost”，port = 9999）
＃并打开http：// localhost：9999在您的Web浏览器中！

如果您有保存的模型文件，也可以使用以下命令行。

 Python -M Tomotopy.Viewer A_TRAIND_MODEL.BIN-主机主机-Port 9999

请参阅Tomotopy.Ciewer模块的更多信息。

模型和模型中的文档

我们可以将主题模型用于两个主要目的。基本的是，由于训练有素的模型，从一组文档中发现主题，而更先进的是通过使用训练有素的模型来推断不见文档的主题分布。

我们将文档命名为以前的目的（用于模型培训）为模型中的文档，而该文档则将文档（在培训期间看不见的文档）作为模型中的文档。

在上述过程中，这两种不同类型的文档的生成不同。模型中的文档可以通过tomotopy.ldamodel.add_doc方法创建。可以在tomotopy.ldamodel.Train开始之前调用add_doc。换句话说，在火车调用后，add_doc无法将文档添加到模型中，因为用于培训的文档集已固定。

要获取创建文档的实例，您应该使用tomotopy.ldamodel.docs，例如：

 mdl = tp.ldamodel（k = 20）
idx = mdl.add_doc（单词）
如果IDX <0：提高RuntimeError（“无法添加DOC”）
doc_inst = mdl.docs [idx]
＃doc_inst是添加文档的实例

模型中的文档是由Tomotopy.ldamodel.make_doc方法生成的。只有在火车开始后才能调用make_doc。如果您在使用培训的文档集已固定之前使用make_doc，则可能会遇到错误的结果。由于Make_Doc直接返回实例，因此您可以将其返回值用于其他操作。

 mdl = tp.ldamodel（k = 20）
＃add_doc ...
MDL.Train（100）
doc_inst = mdl.make_doc（unseen_doc）＃doc_inst是看不见文档的实例

看不见的文件的推断

如果Tomotopy.ldamodel.make_doc创建了一个新文档，则可以通过模型来推断其主题分布。应使用Tomotopy.ldamodel.infer方法进行未见文档的推断。

 mdl = tp.ldamodel（k = 20）
＃add_doc ...
MDL.Train（100）
doc_inst = mdl.make_doc（unseen_doc）
topic_dist，ll = mdl.infer（doc_inst）
打印（“看不见文档的主题分发：”，topic_dist）
打印（“推理的log-likelione：”，LL）

推断方法只能推断出一个thmotopy的实例。文档或tomotopy.document的实例列表。请参阅tomotopy.ldamodel.infer的更多信息。

语料库和变换

上交中的每个主题模型都有其自己的内部文档类型。可以通过每个模型的add_doc方法创建文档并将其添加到适合每个模型中。但是，尝试在不同模型中添加相同的文档列表变得非常不便，因为应要求add_doc列出每个不同模型的文档列表。因此，Tomotopy提供了Tomotopy.utils.utils.corpus类，其中包含文档列表。 tomotopy.utils.corpus可以通过将作为参数语料库传递到__init__或每个模型的add_corpus方法来插入任何模型。因此，插入thmotopy.utils.corpus只是插入语料库所包含的文档的效果相同。

某些主题模型需要不同的文档数据。例如，tomotopy.dmrmodel需要str类型中的参数元数据，但是tomotopy.pldamodel需要列表中的参数标签[str]类型。由于tomotopy.utils.corpus拥有一组独立的文档，而不是与特定主题模型相关联，因此当将语料库添加到该主题模型中时，主题模型所需的数据类型可能是不一致的。在这种情况下，可以使用参数转换将其他数据转换为拟合目标主题模型。在以下代码中查看更多详细信息：

从上交dmrmodel中
来自thmotopy.utils进口语料库

语料库= copus（）
corpus.add_doc（“ abcde” .split（），a_data = 1）
corpus.add_doc（“ efghi” .split（），a_data = 2）
colpus.add_doc（“ ijklm” .split（），a_data = 3）

型号= dmrmodel（k = 10）
model.add_corpus（copus）
＃你在`
＃和`dmrmodel'要求的元数据中填充了默认值为空str。

assert model.docs [0] .metadata =='''
assert model.docs [1] .metadata =='''
assert model.docs [2] .metadata =='''

def transform_a_data_to_metadata（MISC：dict）：
    返回{'metadata'：str（misc ['a_data']）}}
＃此函数将`a_data``变成'元数据了

型号= dmrmodel（k = 10）
model.Add_corpus（copus，transform = transform_a_data_to_metadata）
＃现在，``模型''中的文档具有从a_data`字段生成的非默认元素。

assert model.docs [0] .metadata =='1'
assert model.docs [1] .metadata =='2'
assert model.docs [2] .metadata =='3'

并行采样算法

由于版本为0.5.5，因此允许您选择平行算法。在0.4.2之前以版本提供的算法是Copy_merge，该算法为所有主题模型提供。自0.5.0以来可用的新算法分区通常可以使培训通常更快，更高，但并非所有主题模型都可以使用。

以下图表显示了基于主题数量和工人数量的两种算法之间的速度差。

按版本进行性能

以下图中显示了按版本进行的性能更改。测量了使用1000次迭代运行LDA型号的时间。（文档：11314，词汇：60382，单词：2364724，英特尔Xeon Gold 5120 @2.2GHz）

使用文字固定主题

由于版本为0.6.0，因此添加了一种新的方法tomotopy.ldamodel.set_word_prior。它允许您控制每个主题的先验。例如，我们可以将“教堂”一词的重量设置为主题0中的1.0，而在其余主题中，通过以下代码将重量设置为0.1。这意味着将“教堂”一词分配给主题0的概率比将其分配给另一个主题的概率高10倍。因此，大多数“教会”被分配到主题0，因此主题0包含许多与“教堂”有关的单词。这允许操纵某些主题以特定主题编号。

导入上调作为TP
mdl = tp.ldamodel（k = 20）

＃将文档添加到`mdl'

＃设置Word先验
mdl.set_word_prior（'church'，[1.0如果k == 0 else 0 0.1，范围内的k（20）））））

有关更多详细信息，请参见example.py中的word_prior_example。

例子

您可以在https://github.com/bab2min/tomotopy/blob/main/main/examples/上找到python tomotopy的示例。

您还可以在https://drive.google.com/file/d/18opnijd4iwpyyz2o7pqopyetakexa71j/view中获取示例代码中使用的数据文件。

执照

Thmotopy是根据MIT许可条款获得许可的，这意味着您可以将其用于任何合理目的，并保留所有您生产的文档的完全所有权。

历史

0.13.0（2024-08-05）
- 新功能
  主题模型查看器tomotopy.viewer.open_viewer（）的主要功能已准备就绪。
  添加了tomotopy.ldamodel.get_hash（）。您可以获得模型的128位哈希值。
  将参数ngram_list添加到tomotopy.utils.simpletokenizer。
- 错误修复
  固定不一致的跨越bug。concat_ngrams被调用。
  优化了tomotopy.ldamodel.load（）和tomotopy.ldamodel.save（）的瓶颈，并提高了其速度超过10倍。
0.12.7（2023-12-19）
- 新功能
  添加了主题模型查看器tomotopy.viewer.open_viewer（）
  优化了tomotopy.utils.corpus.process（）的性能
- 错误修复
  document.span现在返回字符单元中的范围，而不是字节单元中的范围。
0.12.6（2023-12-11）
- 新功能
  添加了一些便利性功能。ldamodel.trainand tomotopy.ldamodel.set_word_prior。
  LDAMODEL.TRAIN现在有新的参数回调，Callback_interval和Show_progres来监视培训进度。
  ldamodel.set_word_prior现在可以接受dict [int，float]键入其参数。
0.12.5（2023-08-03）
- 新功能
  添加了对Linux ARM64体系结构的支持。
0.12.4（2023-01-22）
- 新功能
  增加了对MacOS ARM64体系结构的支持。
- 错误修复
  修复了thmotopy.document.get_sub_topic_dist（）提出不良论点异常的问题。
  修复了一个例外升高有时会导致崩溃的问题。
0.12.3（2022-07-19）
- 新功能
  现在，使用Tomotopy.ldamodel.add_doc（）插入一个空文档只是忽略它而不是提高异常。如果新添加的参数image_empty_words设置为false，则像以前一样提出异常。
  添加tomotopy.hdpmodel.purge_dead_topics（）方法以从模型中删除非活性主题。
- 错误修复
  修复了一个问题，该问题可防止在thmotopy.sldamodel中设置NUSQ的用户定义值（@jucendrero）。
  修复了thmotopy.utils.coherence不起作用的问题。dtmodel。
  修复了在调用train（）之前调用make_dic（）时通常崩溃的问题。
  解决了tomotopy.dmrmodel和tomotopy.gdmrmodel的结果的问题，即使种子固定也不同。
  tomotopy.dmrmodel和thmotopy.gdmrmodel的参数优化过程已得到改善。
  修复了调用Tomotopy.ptmodel.copy（）时有时会崩溃的问题。
0.12.2（2021-09-06）
- 一个问题，即使用min_cf> 0，min_df> 0或rm_top> 0引起convert_to_lda。
- _pseudo_doc的一个新参数添加到tomotopy.document.get_topics and tomotopy.document.get_topic_dist。该参数仅对PTModel文档有效，它可以控制计算主题分布的源。
- tomotopy.ptmodel的参数p的默认值已更改。新的默认值为k * 10。
- 使用make_doc生成的文档而不调用推断不会导致崩溃，而只是打印警告消息。
- 在Clang C ++ 17环境中未编译内部C ++代码的问题已解决。
0.12.1（2021-06-20）
- tomotopy.ldamodel.set_word_prior（）导致崩溃的问题已被修复。
- 现在tomotopy.ldamodel.perplexity and tomotopy.ldamodel.ll_per_word返回准确的值，而术语重量不是一个。
- 添加了tomotopy.damodel.used_vocab_weighted_freq，返回单词的术语加权频率。
- 现在，tomotopy.ldamodel.summary（）不仅显示单词的熵，还显示术语加权单词的熵。
0.12.0（2021-04-26）
- 现在tomotopy.dmrmodel和tomotopy.gdmrmodel支持元数据的多个值（请参阅https://github.com/bab2min/tomotopy/blob/main/main/main/examples/dmr_multi_label.py）
- tomotopy.gdmrmodel的性能得到了改善。
- 为所有主题模型添加了复制（）方法，以进行深层副本。
- 解决问题的问题是，在训练之外的单词（min_cf，min_df）的单词不正确。现在，所有排除的单词都具有-1为主题ID。
- 现在，在上述过程中产生的所有例外和警告都遵循标准的Python类型。
- 编译器要求已提高到C ++ 14。
0.11.1（2021-03-28）
- 固定了不对称alpha的关键错误。由于此错误，版本0.11.0已从版本中删除。
0.11.0（2021-03-26）（已删除）
- 一个新主题模型tomotopy.ptmodel用于简短的文本。
- 在thmotopy.hdpmodel.infer有时会导致分割故障的情况下解决问题。
- 修复了Numpy API版本的不匹配。
- 现在支持不对称的文档主题先验。
- 支持内存中的主题模型。
- 将一个参数归一化添加到get_topic_dist（），get_topic_word_dist（）和get_sub_topic_dist（）中，以控制结果的归一化。
- 现在tomotopy.dmrmodel.lambdas和tomotopy.dmrmodel.alpha给出正确的值。
- 添加了分类的元数据支持。gdmrmmodel（请参阅https://github.com/bab2min/tomotopy/blob/main/main/examples/gdmr_both_categorical_categorical_and_and_numerical.py）。
- python3.5支持下降。
0.10.2（2021-02-16）
- 在thmotopy.ctmodel.train失败的情况下，解决了问题。
- 在thmotopy.utils.utils.corpus失去其UID值的情况下，问题是固定的。
0.10.1（2021-02-14）
- 问题是在tomotopy.utils.corpus.extract_ngrams带有空输入的情况下修复的。
- 问题是固定的，其中tomotopy.ldamodel.infer提出了有效输入的例外。
- tomotopy.hldamodel.infer会产生错误的tomotopy.document.path的问题。
- 由于添加了用于tomotopy.hldamodel.Train的新参数Freeze_Topics，因此您可以控制是否在训练时创建一个新主题。
0.10.0（2020-12-19）
- tomotopy.utils.corpus和thmotopy.ldamodel.docs的界面统一。现在，您可以以相同的方式以语料库访问文档。
- _________________________________erpus得到了改善。不仅由INT索引，而且还支持了切片。也支持UID索引。
- 添加了新方法tomotopy.utils.corpus.extract_ngrams and tomotopy.utils.corpus.concat_ngrams。他们使用PMI提取N-Gram搭配，并将它们串成一个单词。
- 添加了一种新方法tomotopy.ldamodel.add_corpus，并tomotopy.ldamodel.infer可以接收语料库作为输入。
- 添加了一个新的模块上述。它提供了计算模型连贯性的方法。
- paramter window_size添加到tomotopy.label.forelevance中。
- 在训练Tomotopy.hdpmodel时，NAN经常发生的问题是解决的。
- 现在支持Python3.9。
- 除去了对Py-cpuinfo的依赖，并提高了模块的初始化。
0.9.1（2020-08-08）
- 版本0.9.0的内存泄漏已固定。
- tomotopy.ctmodel.summary（）固定。
0.9.0（2020-08-04）
- 已添加了印刷模型的人类可读摘要的tomotopy.ldamodel.summary（）方法。
- 软件包的随机数生成器已被特征替换。它加快了随机数生成的速度，并解决了平台之间的结果差异。
- 由于上述种子，即使种子相同，模型训练结果也可能与0.9.0之前的版本不同。
- 修复了thmotopy.hdpmodel中的训练错误。
- tomotopy.dmrmodel.alpha现在显示元数据主题分布的事先。
- tomotopy.dtmodel.get_count_by_topics（）已修改以返回二维ndarray。
- tomotopy.dtmodel.alpha已修改以返回与tomotopy.dtmodel.get_alpha（）相同的值。
- 修复了无法获得tomotopy.gdmrmodel文档的元数据值的问题。
- tomotopy.hldamodel.alpha现在显示每件文档深度分布的事先。
- tomotopy.ldamodel.global_step已添加。
- tomotopy.mgldamodel.get_count_by_topics（）现在返回全局和本地主题的单词计数。
- tomotopy.pamodel.alpha，tomotopy.pamodel.subalpha和tomotopy.pamodel.get_count_by_super_topic（）已被添加。

0.8.2（2020-07-14）
- 已添加了新属性tomotopy.dtmodel.num_timepoints and tomotopy.dtmodel.num_docs_by_timepoint。
- 即使种子相同的种子部分固定，也会导致不同平台导致不同结果的错误。由于此修复程序，现在以32位的上述术与早期版本产生不同的训练结果。
0.8.1（2020-06-08）
- tomotopy.ldamodel.used_vocabs返回错误的一个错误值。
- 现在tomotopy.ctmodel.prior_cov返回具有形状[K，K]的协方差矩阵。
- 现在，tomotopy.ctmodel.get_corryations用空参数返回与形状[k，k]的相关矩阵。
0.8.0（2020-06-06）
- 由于在上述过程中引入了numpy，因此，上述拷贝的许多方法和属性返回列表，而是numpy.ndarray。
- 上交有一个新的依赖项numpy> = 1.10.0。
- 固定的tomotopy.hdpmodel的错误估计。
- 添加了一种将HDPModel转换为LDAMODEL的新方法。
- 包括tomotopy.ldamodel.used_vocabs，tomotopy.ldamodel.used_vocab_freq和tomotopy.ldamodel.used_vocab_df在内的新属性已添加到主题模型中。
- 添加了一种新的G-DMR主题模型（Tomotopy.gdmrmodel）。
- 固定MacOS中的forelevance时，固定了初始化的上述过程中的错误。
- 使用Tomotopy.utils.corpus创建的没有原始参数的corpus时发生的错误是固定的。
0.7.1（2020-05-08）
- tomotopy.document.path添加了tomotopy.hldamodel。
- tomotopy.label.pmiextractor中的内存损坏错误已修复。
- 固定了GCC 7中的编译误差。
0.7.0（2020-04-18）
- tomotopy.dtmodel被添加到包装中。
- tomotopy.utils.corpus.save中的一个错误是固定的。
- 新方法tomotopy.document.get_count_vector被添加到文档类中。
- 现在，Linux分布使用Manylinux2010，并应用了其他优化。
0.6.2（2020-03-28）
- 与保存和负载相关的关键错误已修复。版本0.6.0和0.6.1已从版本中删除。
0.6.1（2020-03-22）（删除）
- 与模块加载有关的错误已修复。
0.6.0（2020-03-22）（删除）
- tomotopy.utils.corpus类很容易地管理多个文档。
- tomotopy.ldamodel.set_word_prior方法添加了主题模型的单词主题先验。
- 将基于文档频率过滤单词的新参数min_df添加到每个主题模型的__init__中。
- tomotopy.label，添加了有关主题标签的子模块。目前，仅提供tomotopy.label.forelevance。
0.5.2（2020-03-01）
- tomotopy.lldamodel.add_doc解决了分割故障问题。
- 修复了一个错误的推断。hdpmodel有时会崩溃该程序。
- tomotopy.ldamodel.infer with ps = tomotopy.parallelscheme.partition，partition，fordit = true = true。
0.5.1（2020-01-11）
- 修复了一个错误，该错误是thmotopy.sldamodel.make_doc不支持y的缺失值。
- 现在，thmotopy.sldamodel完全支持响应变量y的缺失值。具有缺失值（NAN）的文档包含在建模主题中，但不包括响应变量的回归。
0.5.0（2019-12-30）
- 现在tomotopy.pamodel.infer返回两个主题分布和亚主题分布。
- 新方法get_sub_topics和get_sub_topic_dist被添加到thmotopy.document中。（对于pamodel）
- 添加了用于tomotopy.ldamodel.train和tomotopy.ldamodel.infer方法的新参数。您可以通过更改此参数选择并行性算法。
- tomotopy.parallelscheme.partition是一种新算法。当工人数量较大时，主题数量或词汇量的大小很大，它有效地工作。
- RM_TOP在min_cf <2上无法使用的一个错误是固定的。
0.4.2（2019-11-30）
- tomotopy.lldamodel和thmotopy.pldamodel的错误主题分配固定。
- 可读的__repr__ tomotopy.document和thmotopy。
0.4.1（2019-11-27）
- pldamodel的init函数中的一个错误是固定的。
0.4.0（2019-11-18）
- 包装中添加了包括Tomotopy.pldamodel和Tomotopy.hldamodel在内的新型号。
0.3.1（2019-11-05）
- 当修复了min_cf或rm_top时，get_topic_dist（）返回不正确的值的问题。
- tomotopy.mgldamodel文档的get_topic_dist（）的返回值已固定为包括本地主题。
- 带有TW =一个的估计速度得到了提高。
0.3.0（2019-10-06）
- 一个新的型号Tomotopy.lldamodel被添加到包装中。
- HDPModel的崩溃问题已解决。
- 由于实现了HDPModel的高参数估计，因此HDPModel的结果可能与以前的版本不同。
  如果要关闭HDPModel的超参数估计，请将Optim_interval设置为零。
0.2.0（2019-08-18）
- 包括Tomotopy.ctModel和Tomotopy.sldamodel在内的新型号被添加到包装中。
- 为所有主题模型添加了一个新的参数选项RM_TOP。
- 固定了Pamodel和Hpamodel的保存和负载方法的问题。
- 固定了加载HDPModel中的偶尔崩溃。
- 固定min_cf> 0时，错误地计算了ll_per_word的问题。
0.1.6（2019-08-09）
- 固定在clang上的clang误差固定。
0.1.4（2019-08-05）
- 当ADD_DOC收到一个空列表时，该问题已修复了输入。
- tomotopy.pamodel.get_topic_words的问题未固定固定字节的单词分布。
0.1.3（2019-05-19）
- 为所有主题模型添加了参数MIN_CF及其停止词变形函数。
0.1.0（2019-05-12）
- 第一版

其他语言的绑定

Ruby：https：//github.com/ankane/tomoto

捆绑图书馆及其许可证

EIGEN：此应用程序使用线性代数的C ++模板库EIGEN的MPL2许可功能。 MPL2许可证的副本可在https://www.mozilla.org/en-us/mpl/2.0/上获得。可以在http://eigen.tuxfamily.org/上获取特征库的源代码。
EIGENRAND：麻省理工学院许可证
MAPBOX变体：BSD许可证

引用

@software {minchul_lee_2022_6868418，
  作者= {minchul lee}，
  title = {bab2min/thmotopy：0.12.3}，，
  月份= 7月，
  年= 2022，
  publisher = {zenodo}，
  版本= {v0.12.3}，
  doi = {10.5281/zenodo.6868418}，
  url = {https://doi.org/10.5281/zenodo.6868418}
}

展开

附加信息

版本 0.13.0
类型其他源码
更新时间 2025-04-17
大小 1.14MB
来自于 Github

tomotopy

上交

什么是上交？

入门

表演的表现

保存和加载

交互式模型查看器

模型和模型中的文档

看不见的文件的推断

语料库和变换

并行采样算法

按版本进行性能

使用文字固定主题

例子

执照

历史

其他语言的绑定

捆绑图书馆及其许可证

引用

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express