ที่เก็บนี้มีรหัสและวัสดุเสริมที่จำเป็นในการฝึกอบรมและประเมินแบบจำลองตามที่อธิบายไว้ในการแบ่งส่วนข้อความกระดาษเป็นงานการเรียนรู้ภายใต้
WIKI-727K, ชุดข้อมูล WIKI-50:
https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0
Word2vec:
https://drive.google.com/a/audioburst.com/uc?export=download&confirm=zrin&id=0b7xkcwpi5kdynlnuttlss21pqmm
เติมพา ธ ที่เกี่ยวข้องใน configGenerator.py และเรียกใช้สคริปต์ (พื้นที่เก็บข้อมูล GIT รวมถึงชุดข้อมูล Choi)
conda create -n textseg python=2.7 numpy scipy gensim ipython
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor
python run.py --help
ตัวอย่าง:
python run.py --cuda --model max_sentence_embedding --wiki
python test_accuracy.py --help
ตัวอย่าง:
python test_accuracy.py --cuda --model <path_to_model> --wiki
python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>
อินพุตเป็นเส้นทางเต็มรูปแบบไปยัง Wikipedia Dump, Temp เป็นเส้นทางไปยังโฟลเดอร์ไฟล์ชั่วคราวและเอาต์พุตเป็นเส้นทางไปยังชุดข้อมูล Wikipedia ที่สร้างขึ้นใหม่
Wikipedia Dump สามารถดาวน์โหลดได้จาก URL ต่อไปนี้:
https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2