tomotopyダウンロードtomotopyソースコードのダウンロード

tomotopy

その他のソースコード

0.13.0

ダウンロード

トモトピー

英語、한국어。

トモトピーとは何ですか？

Tomotopyは、C ++で書かれたギブスサンプリングベースのトピックモデルライブラリであるTomoto（トピックモデリングツール）のPython拡張です。速度を最大化するために、最新のCPUのベクトル化を利用します。トモトの現在のバージョンは、

潜在ディリクレの割り当て（tomotopy.ldamodel）
ラベル付きLDA（tomotopy.lldamodel）
部分的にラベル付きLDA（tomotopy.pldamodel）
監視されたLDA（tomotopy.sldamodel）
Dirichlet多項回帰（tomotopy.dmrmodel）
一般化されたディリクレの多項回帰（tomotopy.gdmrmodel）
階層型ディリクレプロセス（tomotopy.hdpmodel）
階層LDA（tomotopy.hldamodel）
マルチグレインLDA（tomotopy.mgldamodel）
パチンコの割り当て（tomotopy.pamodel）
階層pa（tomotopy.hpamodel）
相関トピックモデル（tomotopy.ctmodel）
動的トピックモデル（tomotopy.dtmodel）
擬似ドキュメントベースのトピックモデル（tomotopy.ptmodel）。

詳細については、https：//bab2min.github.io/tomotopyにアクセスしてください。

はじめる

PIPを使用してTomoTopyを簡単にインストールできます。（https://pypi.org/project/tomotopy/）

 $ PIPインストール - アップグレードPIP
$ pipインストールtomotopy

サポートされているOSおよびPythonバージョンは次のとおりです。

Python> = 3.6を搭載したLinux（x86-64）
macOS> = 10.13 Python> = 3.6
Windows 7以降（x86、x86-64）python> = 3.6
Pythonを使用したその他のOS> = 3.6：ソースコードからのコンピレーションが必要です（C ++ 14互換性のあるコンパイラを使用）

インストール後、インポートするだけでトモトピーを開始できます。

 TPとしてトモトピーをインポートします
print（tp.isa）＃ 'avx2'、 'avx'、 'sse2'または 'none' prints 'avx2'、 'sse2'、

現在、Tomotopyは、パフォーマンスを最大化するためにAVX2、AVX、またはSSE2 SIMD命令セットを活用できます。パッケージがインポートされると、利用可能な命令セットを確認し、最適なオプションを選択します。 TP.ISAが何も言わない場合、トレーニングの反復には時間がかかる場合があります。しかし、現代のIntelまたはAMD CPUのほとんどはSIMD命令セットを提供するため、SIMD加速度は大きな改善を示す可能性があります。

「sample.txt」ファイルからのテキストの単純なLDAトレーニングのサンプルコードを次に示します。

 TPとしてトモトピーをインポートします
mdl = tp.ldamodel（k = 20）
Open（ 'sample.txt'）のラインの場合：
    mdl.add_doc（line.strip（）。split（））

範囲のIの場合（0、100、10）：
    mdl.train（10）
    print（ 'iteration：{}  tlog-likelihood：{}'。形式（i、mdl.ll_per_word））

範囲（mdl.k）のkの場合：
    印刷（ 'トピックのトップ10ワード＃{}'。フォーマット（k））
    print（mdl.get_topic_words（k、top_n = 10））

mdl.summary（）

トモトピーのパフォーマンス

トモトピーは、崩壊したギブスサンプリング（CGS）を使用して、トピックの分布と単語の分布を推測します。一般に、CGSは、GensimのLdamodelが使用する変分ベイズ（VB）よりもゆっくりと収束しますが、その反復ははるかに速く計算できます。さらに、TomotopyはSIMD命令セットを備えたマルチコアCPUを利用することができます。これにより、繰り返しが速くなる可能性があります。

次のチャートは、TomotopyとGensimの間のLDAモデルの実行時間の比較を示しています。入力データは、1,506,966語（約10.1 MB）の英語ウィキペディアからの1000のランダムドキュメントで構成されています。 Tomotopyは200回の反復を訓練し、Gensim Trains 10 Iterations。

Intel I5-6600、X86-64（4コア）のパフォーマンス

Intel Xeon E5-2620 V4、X86-64（8コア、16スレッド）のパフォーマンス

Tomotopyは20倍多く繰り返されましたが、全体的な実行時間はGensimの5〜10倍高速でした。そして、それは安定した結果をもたらします。

CGSとVBを完全に異なる技術であるため、直接比較することは困難です。しかし、実用的な観点からは、速度と結果を比較することができます。次のチャートは、2つのモデルの結果の単語ごとの対数尤度を示しています。

SIMD命令セットは、パフォーマンスに大きな影響を与えます。以下は、SIMD命令セットの比較です。

幸いなことに、最近のX86-64 CPUのほとんどはAVX2命令セットを提供するため、AVX2のパフォーマンスを楽しむことができます。

モデルの保存とロード

Tomotopyは、各トピックモデルクラスに保存およびロード方法を提供するため、いつでもモデルをファイルに保存し、ファイルから再ロードできます。

 TPとしてトモトピーをインポートします

mdl = tp.hdpmodel（）
Open（ 'sample.txt'）のラインの場合：
    mdl.add_doc（line.strip（）。split（））

範囲のIの場合（0、100、10）：
    mdl.train（10）
    print（ 'iteration：{}  tlog-likelihood：{}'。形式（i、mdl.ll_per_word））

＃ファイルに保存します
mdl.save（ 'sample_hdp_model.bin'）

＃ファイルから読み込みます
mdl = tp.hdpmodel.load（ 'sample_hdp_model.bin'）
範囲（mdl.k）のkの場合：
    そうでない場合、mdl.is_live_topic（k）：続行します
    印刷（ 'トピックのトップ10ワード＃{}'。フォーマット（k））
    print（mdl.get_topic_words（k、top_n = 10））

＃保存されたモデルはHDPモデルです。
＃したがって、LDAモデルでロードすると、例外が発生します
mdl = tp.ldamodel.load（ 'sample_hdp_model.bin'）

ファイルからモデルをロードすると、ファイルのモデルタイプはメソッドのクラスと一致する必要があります。

詳細については、tomotopy.ldamodel.saveおよびtomotopy.ldamodel.loadメソッドを参照してください。

インタラクティブモデルビューアー

Interactive_model_viewer_demo.mp4

V0.13.0以降、インタラクティブビューアを使用したモデリングの結果を確認できます。

 TPとしてトモトピーをインポートします
モデル= tp.ldamodel（...）
＃...いくつかのトレーニングコード...
tp.viewer.open_viewer（model、host = "localhost"、port = 9999）
＃そしてhttp：// localhost：9999をWebブラウザーで開きます！

保存されたモデルファイルがある場合は、次のコマンドラインを使用することもできます。

 python -m tomotopy.viewer a_trained_model.bin  -  host localhost -port 9999

詳細については、Tomotopy.Viewerモジュールをご覧ください。

モデル内およびモデル外のドキュメント

2つの主要な目的でトピックモデルを使用できます。基本的なものは、訓練されたモデルの結果として一連のドキュメントからトピックを発見することであり、より高度なものは、訓練されたモデルを使用して、目に見えないドキュメントのトピック分布を推測することです。

以前の目的（モデルトレーニングに使用）でドキュメントをモデルのドキュメントとして、後の目的のドキュメント（トレーニング中に目に見えないドキュメント）をモデルの外出文書として指定しました。

Tomotopyでは、これら2つの異なる種類のドキュメントが異なる方法で生成されます。モデルのドキュメントは、 tomotopy.ldamodel.add_docメソッドによって作成できます。 add_docは、tomotopy.ldamodel.trainが起動する前に呼び出すことができます。言い換えれば、Trainが電話をかけた後、Add_Docはトレーニングに使用されるドキュメントのセットが固定されているため、モデルにドキュメントを追加できません。

作成されたドキュメントのインスタンスを取得するには、次のようなtomotopy.ldamodel.docsを使用する必要があります。

 mdl = tp.ldamodel（k = 20）
idx = mdl.add_doc（words）
IDX <0の場合：RuntimeErrorを上げる（ "ドキュメントの追加に失敗しました"）
doc_inst = mdl.docs [idx]
＃doc_instは、追加されたドキュメントのインスタンスです

モデルからのドキュメントは、 tomotopy.ldamodel.make_docメソッドによって生成されます。 make_docは、列車の開始後にのみ呼び出すことができます。トレーニングに使用されるドキュメントのセットが修正される前にmake_docを使用すると、誤った結果が得られる場合があります。 make_docはインスタンスを直接返すため、他の操作にその返品値を使用できます。

 mdl = tp.ldamodel（k = 20）
＃add_doc ...
mdl.train（100）
doc_inst = mdl.make_doc（unseen_doc）＃doc_instは目に見えないドキュメントのインスタンスです

目に見えないドキュメントへの推論

新しいドキュメントがtomotopy.ldamodel.make_docによって作成されている場合、そのトピック分布はモデルによって推測できます。目に見えないドキュメントの推論は、tomotopy.ldamodel.inferメソッドを使用して実行する必要があります。

 mdl = tp.ldamodel（k = 20）
＃add_doc ...
mdl.train（100）
doc_inst = mdl.make_doc（unseen_doc）
topic_dist、ll = mdl.infer（doc_inst）
print（ "目に見えないドキュメントのトピック分布："、topic_dist）
print（ "推論のlog-likelihood："、ll）

推測方法は、Tomotopy.Documentの1つのインスタンスまたはTomotopy.Documentのインスタンスのリストのみを推測できます。詳細については、tomotopy.ldamodel.inferをご覧ください。

コーパスと変換

Tomotopyのすべてのトピックモデルには、独自の内部ドキュメントタイプがあります。ドキュメントを作成して、各モデルのADD_DOCメソッドを介して各モデルに適したものに追加できます。ただし、異なるモデルに同じドキュメントのリストを異なるモデルに追加しようとすることは非常に不便になります。これは、それぞれの異なるモデルに同じドキュメントのリストを求める必要があるためです。したがって、Tomotopyは、ドキュメントのリストを保持するTomotopy.utils.corpusクラスを提供します。 tomotopy.utils.corpusは、各モデルの__init__またはadd_corpusメソッドに引数corpusとして渡すことにより、任意のモデルに挿入できます。したがって、Tomotopy.utils.corpusを挿入することは、コーパスが保持している文書を挿入するのと同じ効果を持っています。

一部のトピックモデルでは、ドキュメントに異なるデータが必要です。たとえば、tomotopy.dmrmodelにはstrタイプの引数メタデータが必要ですが、tomotopy.pldamodelはリスト[str]タイプの引数ラベルが必要です。 Tomotopy.utils.corpusは特定のトピックモデルに縛られるのではなく、独立したドキュメントセットを保持しているため、トピックモデルに必要なデータ型は、コーパスがそのトピックモデルに追加されると一貫性がありません。この場合、その他のデータを変換して、引数変換を使用してターゲットトピックモデルに適合することができます。詳細については、次のコードをご覧ください。

 Tomotopy Import dmrmodelから
Tomotopy.utilsインポートコーパスから

corpus = corpus（）
corpus.add_doc（ "abcde" .split（）、a_data = 1）
corpus.add_doc（ "efghi" .split（）、a_data = 2）
corpus.add_doc（ "ijklm" .split（）、a_data = 3）

モデル= dmrmodel（k = 10）
model.add_corpus（コーパス）
＃あなたは「コーパス」で「a_data」フィールドを失います、
＃および「dmrmodel」が必要とする「メタデータ」は、デフォルト値、空のstrで満たされています。

assert model.docs [0] .metadata == ''
assert model.docs [1] .metadata == ''
assert model.docs [2] .metadata == ''

def transform_a_data_to_metadata（その他：dict）：
    return {'metadata'：str（misc ['a_data']）}
＃この関数は、「a_data」を「メタデータ」に変換します

モデル= dmrmodel（k = 10）
model.add_corpus（corpus、transform = transform_a_data_to_metadata）
＃「モデル」のドキュメントには、「a_data」フィールドから生成された非デフォルト「メタデータ」があります。

assert model.docs [0] .metadata == '1'
assert model.docs [1] .metadata == '2'
assert model.docs [2] .metadata == '3'

並列サンプリングアルゴリズム

バージョン0.5.0以降、Tomotopyを使用すると、並列性アルゴリズムを選択できます。 0.4.2より前のバージョンで提供されているアルゴリズムは、すべてのトピックモデルに提供されるCopy_Mergeです。 0.5.0から利用可能な新しいアルゴリズムパーティションは、トレーニングを一般的により速く、よりメモリ効率の高いものにしますが、すべてのトピックモデルではありません。

次のチャートは、トピックの数と労働者の数に基づいて、2つのアルゴリズムの速度差を示しています。

バージョン別のパフォーマンス

バージョンごとのパフォーマンスの変更は、次のグラフに示されています。 1000回の反復でLDAモデルトレインを実行するのにかかる時間を測定しました。（Docs：11314、Vocab：60382、Words：2364724、Intel Xeon Gold 5120 @2.2GHz）

Word Priorsを使用してトピックをピン留めします

バージョン0.6.0以降、新しい方法tomotopy.ldamodel.set_word_priorが追加されました。これにより、各トピックに対して以前の単語を制御できます。たとえば、トピック0の「教会」という言葉の重みを1.0に設定し、次のコードで残りのトピックで0.1に重みを設定できます。これは、「教会」という単語がトピック0に割り当てられる確率が、別のトピックに割り当てられる確率よりも10倍高いことを意味します。したがって、「教会」のほとんどはトピック0に割り当てられているため、トピック0には「教会」に関連する多くの単語が含まれています。これにより、いくつかのトピックを操作して、特定のトピック番号に配置できます。

 TPとしてトモトピーをインポートします
mdl = tp.ldamodel（k = 20）

＃ドキュメントを「mdl」に追加します

＃単語を設定します
mdl.set_word_prior（ 'Church'、[1.0 if k == 0 else 0.1 in range（20）]））

詳細については、example.pyのword_prior_exampleを参照してください。

例

https://github.com/bab2min/tomotopy/blob/main/examples/で、TomotopyのPythonコードの例を見つけることができます。

https://drive.google.com/file/d/18opnijd4iwpyyz2o7pqopyetakexa71j/viewのサンプルコードで使用されるデータファイルを取得することもできます。

ライセンス

TomotopyはMITライセンスの条件に基づいてライセンスされています。つまり、合理的な目的のために使用し、作成したすべてのドキュメントの完全な所有権を維持できます。

歴史

0.13.0（2024-08-05）
- 新機能
  トピックモデルViewer tomotopy.viewer.open_viewer（）の主要な機能が準備ができました。
  tomotopy.ldamodel.get_hash（）が追加されました。モデルの128ビットハッシュ値を取得できます。
  tomotopy.utils.simpletokenizerに引数ngram_listを追加します。
- バグ修正
  Corpus.concat_ngramsが呼び出された後、一貫性のない一貫性のないスパンバグが修正されました。
  tomotopy.ldamodel.load（）およびtomotopy.ldamodel.save（）のボトルネックを最適化し、速度を10回以上改善しました。
0.12.7（2023-12-19）
- 新機能
  追加のトピックモデルViewer Tomotopy.viewer.open_viewer（）
  tomotopy.utils.corpus.process（）のパフォーマンスを最適化しました
- バグ修正
  document.spanは、バイトユニットではなく、文字ユニットの範囲を返すようになりました。
0.12.6（2023-12-11）
- 新機能
  Tomotopy.ldamodel.trainおよびtomotopy.ldamodel.set_word_priorにいくつかの便利な機能を追加しました。
  ldamodel.trainは、トレーニングの進捗を監視するために、新しい引数Callback、callback_intervalおよびshow_progresがあるようになりました。
  ldamodel.set_word_priorは、以前の引数としてdict [int、float]タイプを受け入れることができます。
0.12.5（2023-08-03）
- 新機能
  Linux ARM64アーキテクチャのサポートを追加しました。
0.12.4（2023-01-22）
- 新機能
  MacOS ARM64アーキテクチャのサポートを追加しました。
- バグ修正
  tomotopy.document.get_sub_topic_dist（）が悪い引数の例外を提起する問題を修正しました。
  例外を上げるとクラッシュが発生する場合がある問題を修正しました。
0.12.3（2022-07-19）
- 新機能
  次に、tomotopy.ldamodel.add_doc（）を使用して空のドキュメントを挿入することは、例外を提起する代わりにそれを無視するだけです。新しく追加された引数がnagrore_empty_wordsがfalseに設定されている場合、以前のように例外が提起されます。
  tomotopy.hdpmodel.purge_dead_topics（）メソッドが追加されて、モデルから非ライブトピックを削除します。
- バグ修正
  tomotopy.sldamodel（@jucendreroによる）で、nusqのユーザー定義値の設定を防ぐ問題を修正しました。
  tomotopy.utils.coherenceがtomotopy.dtmodelで機能しなかった問題を修正しました。
  train（）を呼び出す前に、make_dic（）を呼び出すときにしばしばクラッシュした問題を修正しました。
  tomotopy.dmrmodelとtomotopy.gdmrmodelの結果が、種子が固定されていても異なるという問題を解決しました。
  tomotopy.dmrmodelとtomotopy.gdmrmodelのパラメーター最適化プロセスが改善されました。
  tomotopy.ptmodel.copy（）に電話するときに時々クラッシュする問題を修正しました。
0.12.2（2021-09-06）
- min_cf> 0、min_df> 0、またはrm_top> 0でtomotopy.hdpmodelのconvert_to_ldaを呼び出す問題がクラッシュが修正されました。
- from_pseudo_docからの新しい引数がtomotopy.document.get_topicsおよびtomotopy.document.get_topic_distに追加されます。この引数は、PTModelのドキュメントに対してのみ有効であり、トピック分布を計算するソースを制御できます。
- tomotopy.ptmodelの引数pのデフォルト値が変更されました。新しいデフォルト値はk * 10です。
- MAKE_DOCによって生成されたドキュメントを呼び出すことなく使用するドキュメントを使用すると、クラッシュが発生しなくなりますが、警告メッセージを印刷するだけです。
- Clang C ++ 17環境で内部C ++コードがコンパイルされていない問題が修正されました。
0.12.1（2021-06-20）
- tomotopy.ldamodel.set_word_prior（）がクラッシュを引き起こす問題が修正されました。
- Tomotopy.ldamodel.perplexity and tomotopy.ldamodel.ll_per_word Termweightが1つではない場合、正確な値を返します。
- tomotopy.ldamodel.used_vocab_weighted_freqが追加されました。これにより、用語加重頻度の単語が返されます。
- 現在、tomotopy.ldamodel.summary（）は、単語のエントロピーだけでなく、用語加重単語のエントロピーも示しています。
0.12.0（2021-04-26）
- Tomotopy.dmrmodel and tomotopy.gdmrmodelはメタデータの複数の値をサポートしています（https://github.com/bab2min/tomotopy/blob/main/examples/dmr_multi_label.pyp
- tomotopy.gdmrmodelのパフォーマンスが改善されました。
- すべてのトピックモデルにコピー（）メソッドが追加され、ディープコピーを作成します。
- トレーニングから除外されている単語（min_cf、min_df）に誤ったトピックIDがある場合、問題が修正されました。これで、すべての除外された単語は、トピックIDとして-1になります。
- 現在、Tomotopyによって生成されたすべての例外と警告は、標準のPythonタイプに従います。
- コンパイラの要件がC ++ 14に提起されました。
0.11.1（2021-03-28）
- 非対称アルファの重要なバグが修正されました。このバグにより、バージョン0.11.0がリリースから削除されました。
0.11.0（2021-03-26）（削除）
- 短いテキスト用の新しいトピックモデルtomotopy.ptmodelがパッケージに追加されました。
- Tomotopy.hdpmodel.inferがセグメンテーション障害を引き起こす場合がある場合、問題が修正されました。
- Numpy APIバージョンの不一致が修正されました。
- 現在、非対称のドキュメントトピックプライアーがサポートされています。
- メモリ内のバイトへのシリアル化トピックモデルがサポートされています。
- 結果の正規化を制御するために、引数がget_topic_dist（）、get_topic_word_dist（）、get_sub_topic_dist（）に正規化されました。
- Tomotopy.dmrmodel.lambdasとtomotopy.dmrmodel.alphaは正しい値を与えます。
- tomotopy.gdmrmodelのカテゴリーメタデータサポートが追加されました（https://github.com/bab2min/tomotopy/blob/main/examples/gdmr_both_categorical_and_numerical.pyを参照）。
- Python3.5サポートが削除されました。
0.10.2（2021-02-16）
- Tomotopy.ctmodel.trainが大きなKで失敗する場合、問題が修正されました。
- Tomotopy.utils.corpusがUID値を失うという問題が修正されました。
0.10.1（2021-02-14）
- Tomotopy.utils.corpus.extract_ngramsのcrachesが空の入力でcrachesである場合、問題が修正されました。
- Tomotopy.ldamodel.inferが有効な入力で例外を提起する場合、問題が修正されました。
- Tomotopy.hldamodel.inferが間違ったtomotopy.document.pathを生成する場合、問題が修正されました。
- tomotopy.hldamodel.trainの新しいパラメーターFreeze_topicsが追加されたため、トレーニング時に新しいトピックを作成するかどうかを制御できます。
0.10.0（2020-12-19）
- tomotopy.utils.corpusとtomotopy.ldamodel.docsのインターフェイスが統一されました。これで、同じ方法でコーパスのドキュメントにアクセスできます。
- __getitem__ tomotopy.utils.corpusの改善。 INTによるインデックス作成だけでなく、反復可能な[int]によるインデックス付けも、スライスがサポートされています。また、UIDによるインデックス付けもサポートされています。
- 新しい方法tomotopy.utils.corpus.extract_ngrams and tomotopy.utils.corpus.concat_ngramsが追加されました。それらは、PMIを使用してn-gramコロケーションを抽出し、それらを単一の単語に連結します。
- 新しい方法tomotopy.ldamodel.add_corpusが追加され、tomotopy.ldamodel.inferが入力としてコーパスを受信できます。
- 新しいモジュールtomotopy.coherenceが追加されました。モデルの一貫性を計算する方法を提供します。
- paramter window_sizeがtomotopy.label.forelevanceに追加されました。
- tomotopy.hdpmodelをトレーニングするときにnanが頻繁に発生する場合、問題が修正されました。
- 現在、Python3.9がサポートされています。
- py-cpuinfoへの依存関係が削除され、モジュールの初期化が改善されました。
0.9.1（2020-08-08）
- バージョン0.9.0のメモリリークが修正されました。
- tomotopy.ctmodel.summary（）が修正されました。
0.9.0（2020-08-04）
- モデルの人間が読みやすい要約を印刷するTomotopy.ldamodel.summary（）メソッドが追加されました。
- パッケージの乱数ジェネレーターは、Eigenrandに置き換えられました。乱数の生成を高速化し、プラットフォーム間の結果の違いを解決します。
- 上記のため、たとえシードが同じであっても、モデルトレーニングの結果は0.9.0以前のバージョンとは異なる場合があります。
- tomotopy.hdpmodelのトレーニングエラーを修正しました。
- tomotopy.dmrmodel.alphaは、メタデータによるドキュメントごとのトピック分布の前にディリクレを表示するようになりました。
- tomotopy.dtmodel.get_count_by_topics（）は、2次元ndarrayを返すように変更されました。
- tomotopy.dtmodel.alphaは、tomotopy.dtmodel.get_alpha（）と同じ値を返すように変更されました。
- tomotopy.gdmrmodelのドキュメントについてメタデータ値を取得できなかった問題を修正しました。
- tomotopy.hldamodel.alphaは、ドキュメントごとの深さ分布の前にディリクレを表示するようになりました。
- tomotopy.ldamodel.global_stepが追加されました。
- tomotopy.mgldamodel.get_count_by_topics（）は、グローバルトピックとローカルトピックの両方の単語数を返すようになりました。
- tomotopy.pamodel.alpha、tomotopy.pamodel.subalpha、およびtomotopy.pamodel.get_count_by_super_topic（）が追加されました。

0.8.2（2020-07-14）
- 新しいプロパティtomotopy.dtmodel.num_timepointsおよびtomotopy.dtmodel.num_docs_by_timepointが追加されました。
- 種子が同じであっても、異なるプラットフォームで異なる結果を引き起こすバグが部分的に固定されていました。この修正の結果、32ビットのトモトピーは、以前のバージョンから異なるトレーニング結果をもたらします。
0.8.1（2020-06-08）
- Tomotopy.ldamodel.used_vocabsが誤った値を返したバグが修正されました。
- Tomotopy.ctmodel.prior_covは、形状[k、k]の共分散マトリックスを返します。
- 今、Tomotopy.ctmodel.get_correlations空の引数を使用して、形状と相関マトリックスを返します[k、k]。
0.8.0（2020-06-06）
- numpyがTomotopyで導入されて以来、Tomotopyの多くの方法と特性はリストだけでなく、numpy.ndarrayに戻ります。
- Tomotopyには、新しい依存関係numpy> = 1.10.0があります。
- tomotopy.hdpmodel.inferの誤った推定が修正されました。
- HDPModelをLdamodelに変換することに関する新しい方法が追加されました。
- tomotopy.ldamodel.used_vocabs、tomotopy.ldamodel.used_vocab_freq、tomotopy.ldamodel.used_vocab_dfなどの新しいプロパティがトピックモデルに追加されました。
- 新しいG-DMRトピックモデル（tomotopy.gdmrmodel）が追加されました。
- Tomotopy.label.の初期化のエラーが修正されました。
- 生のパラメーターなしで作成されたtomotopy.utils.corpusを使用したときに発生したエラーが修正されました。
0.7.1（2020-05-08）
- tomotopy.document.pathがtomotopy.hldamodelに追加されました。
- tomotopy.label.pmiextractorの記憶腐敗バグが修正されました。
- GCC 7のコンパイルエラーが修正されました。
0.7.0（2020-04-18）
- tomotopy.dtmodelがパッケージに追加されました。
- tomotopy.utils.corpus.saveのバグが修正されました。
- 新しい方法tomotopy.document.get_count_vectorがドキュメントクラスに追加されました。
- Linux分布はManylinux2010を使用し、追加の最適化が適用されます。
0.6.2（2020-03-28）
- 保存と負荷に関連する重要なバグが修正されました。バージョン0.6.0および0.6.1がリリースから削除されました。
0.6.1（2020-03-22）（削除）
- モジュールの読み込みに関連するバグが修正されました。
0.6.0（2020-03-22）（削除）
- 複数のドキュメントを簡単に管理するTomotopy.utils.corpusクラスが追加されました。
- Tomotopy.ldamodel.set_word_priorトピックモデルのワードトピックプリエを制御するメソッドが追加されました。
- ドキュメントの頻度に基づいて単語をフィルタリングする新しい引数min_dfは、すべてのトピックモデルの__init__に追加されました。
- tomotopy.label、トピックラベル付けに関するサブモジュールが追加されました。現在、tomotopy.label.forelevanceのみが提供されています。
0.5.2（2020-03-01）
- セグメンテーション障害問題は、tomotopy.lldamodel.add_docで修正されました。
- Tomotopy.hdpmodelの推測がプログラムをクラッシュすることがあるというバグが修正されました。
- ps = tomotopy.parallelscheme.partitionを使用したtomotopy.ldamodel.inferのクラッシュの問題が固定されました。
0.5.1（2020-01-11）
- Tomotopy.sldamodel.make_docがyの欠損値をサポートしていないというバグが修正されました。
- 次に、tomotopy.sldamodelは応答変数yの欠損値を完全にサポートします。欠損値（NAN）を持つドキュメントは、モデリングトピックに含まれていますが、応答変数の回帰から除外されます。
0.5.0（2019-12-30）
- 現在、tomotopy.pamodel.inferは両方のトピック分布ndサブトピック分布を返します。
- 新しい方法get_sub_topicsおよびget_sub_topic_distがtomotopy.documentに追加されました。（パモデル用）
- Tomotopy.ldamodel.trainおよびtomotopy.ldamodel.inferメソッドには、新しいパラメーターパラレルが追加されました。このパラメーターを変更して、並列系アルゴリズムを選択できます。
- Tomotopy.parallelscheme.partition、新しいアルゴリズムが追加されました。労働者の数が多い場合、トピックの数や語彙のサイズが大きい場合に効率的に機能します。
- RM_TOPがmin_cf <2で動作しなかったバグが修正されました。
0.4.2（2019-11-30）
- Tomotopy.lldamodelとtomotopy.pldamodelの間違ったトピックの割り当てが修正されました。
- Tomotopy.DocumentおよびTomotopy.Dictionaryの読み取り可能な__Repr__が実装されました。
0.4.1（2019-11-27）
- tomotopy.pldamodelのinit関数でのバグが固定されました。
0.4.0（2019-11-18）
- tomotopy.pldamodelやtomotopy.hldamodelを含む新しいモデルがパッケージに追加されました。
0.3.1（2019-11-05）
- get_topic_dist（）がmin_cfまたはrm_topが設定されたときに誤った値を返す問題が修正されました。
- tomotopy.mgldamodelドキュメントのget_topic_dist（）の返品値は、ローカルトピックを含めるように修正されました。
- TW = 1の推定速度が改善されました。
0.3.0（2019-10-06）
- 新しいモデル、Tomotopy.lldamodelがパッケージに追加されました。
- HDPModelのクラッシュ問題が修正されました。
- HDPModelのハイパーパラメーター推定が実装されたため、HDPModelの結果は以前のバージョンと異なる場合があります。
  HDPModelのハイパーパラメーター推定をオフにする場合は、optime_intervalをゼロに設定します。
0.2.0（2019-08-18）
- tomotopy.ctmodelやtomotopy.sldamodelを含む新しいモデルがパッケージに追加されました。
- すべてのトピックモデルに新しいパラメーターオプションRM_TOPが追加されました。
- PamodelとHpamodelの保存および負荷方法の問題が修正されました。
- HDPMODELのロードでの機会クラッシュが固定されました。
- LL_PER_WORDがMIN_CF> 0が修正されたときに誤って計算された問題。
0.1.6（2019-08-09）
- MacOS環境でClangでエラーをコンパイルすることが修正されました。
0.1.4（2019-08-05）
- ADD_DOCが入力が修正されたときに空のリストを受信した場合の問題。
- tomotopy.pamodel.get_topic_wordsがサブトピックの単語分布を抽出しないという問題は修正されました。
0.1.3（2019-05-19）
- すべてのトピックモデルに対して、パラメーターmin_cfとそのストップワードリモービング関数が追加されました。
0.1.0（2019-05-12）
- Tomotopyの最初のバージョン

他の言語のバインディング

Ruby：https：//github.com/ankane/tomoto

バンドルされた図書館とそのライセンス

Eigen：このアプリケーションは、線形代数のC ++テンプレートライブラリであるEigenのMPL2ライセンス機能を使用しています。 MPL2ライセンスのコピーは、https：//www.mozilla.org/en-us/mpl/2.0/で入手できます。 Eigenライブラリのソースコードは、http：//eigen.tuxfamily.org/で取得できます。
Eigenrand：MITライセンス
マップボックスバリアント：BSDライセンス

引用

@software {minchul_lee_2022_6868418、
  著者= {Minchul Lee}、
  title = {bab2min/tomotopy：0.12.3}、
  月= 7月、
  年= 2022、
  Publisher = {Zenodo}、
  バージョン= {v0.12.3}、
  doi = {10.5281/zenodo.6868418}、
  url = {https://doi.org/10.5281/zenodo.6868418}
}

拡大する

追加情報

バージョン 0.13.0
タイプその他のソースコード
更新時間 2025-04-17
サイズ 1.14MB
から Github

tomotopy

トモトピー

トモトピーとは何ですか？

はじめる

トモトピーのパフォーマンス

モデルの保存とロード

インタラクティブモデルビューアー

モデル内およびモデル外のドキュメント

目に見えないドキュメントへの推論

コーパスと変換

並列サンプリングアルゴリズム

バージョン別のパフォーマンス

Word Priorsを使用してトピックをピン留めします

例

ライセンス

歴史

他の言語のバインディング

バンドルされた図書館とそのライセンス

引用

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express