text segmentationダウンロード - text segmentationソースコードのダウンロード

text segmentation

その他のソースコード

1.0.0

ダウンロード

監視された学習タスクとしてのテキストセグメンテーション

このリポジトリには、ペーパーテキストセグメンテーションで監視された学習タスクとして説明されているように、モデルをトレーニングおよび評価するために必要なコードと補足資料が含まれています

Downalodにはリソースが必要でした

WIKI-727K、WIKI-50データセット：

https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0

word2vec：

https://drive.google.com/a/audioburst.com/uc?export=download&confirm=zrin&id=0b7xkcwpi5kdynlnuttlss21pqmm

configgenerator.pyの関連パスを入力し、スクリプトを実行します（gitリポジトリにはchoiデータセットが含まれます）

環境の作成：

 conda create -n textseg python=2.7 numpy scipy gensim ipython 
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl 
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor

トレーニングプロセスを実行する方法は？

 python run.py --help

例：

 python run.py --cuda --model max_sentence_embedding --wiki

訓練されたモデルを評価する方法（WIKI-727/CHOIデータセット）？

 python test_accuracy.py  --help

例：

 python test_accuracy.py --cuda --model <path_to_model> --wiki

新しいウィキペディアデータセットの作成方法：

 python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>

入力はウィキペディアダンプへのフルパスであり、Tempは一時ファイルフォルダーへのパスであり、出力は新しく生成されたウィキペディアデータセットへのパスです。

ウィキペディアダンプは、次のURLからダウンロードできます。

https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-19
サイズ 5.04MB
から Github

text segmentation

監視された学習タスクとしてのテキストセグメンテーション

Downalodにはリソースが必要でした

環境の作成：

トレーニングプロセスを実行する方法は？

訓練されたモデルを評価する方法（WIKI-727/CHOIデータセット）？

新しいウィキペディアデータセットの作成方法：

イエスとのテキストメッセージ中国語

イエスとのテキストメッセージ

イエスとテキストメッセージ中国語版

テキスト・オア・ダイ

RTE (リッチテキストエディター) ASP.NET

PHPテキストリンク交換

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express