Repositori ini berisi kode dan bahan tambahan yang diperlukan untuk melatih dan mengevaluasi model seperti yang dijelaskan dalam segmentasi teks kertas sebagai tugas pembelajaran yang diawasi
Wiki-727K, set data Wiki-50:
https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0
Word2Vec:
https://drive.google.com/a/audioburst.com/uc?export=download&confirm=zrin&id=0b7xkcwpi5kdynlnuttlss21pqmm
Isi jalur yang relevan di configGenerator.py, dan jalankan skrip (git repositori termasuk dataset choi)
conda create -n textseg python=2.7 numpy scipy gensim ipython
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor
python run.py --help
Contoh:
python run.py --cuda --model max_sentence_embedding --wiki
python test_accuracy.py --help
Contoh:
python test_accuracy.py --cuda --model <path_to_model> --wiki
python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>
Input adalah jalur lengkap ke tempat pembuangan wikipedia, suhu adalah jalur ke folder file sementara, dan output adalah jalur ke dataset Wikipedia yang baru dihasilkan.
Dump Wikipedia dapat diunduh dari URL berikut:
https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2