text segmentation
1.0.0
이 저장소에는 감독 학습 과제로 종이 텍스트 세분화에 설명 된 모델을 교육하고 평가하는 데 필요한 코드 및 보충 자료가 포함되어 있습니다.
Wiki-727K, Wiki-50 데이터 세트 :
https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0
Word2Vec :
https://drive.google.com/a/audioburst.com/uc?export=download&confirm=zrin&id=0b7xkcwpi5kdynlnuttlsss21pqmm
configgenerator.py에서 관련 경로를 채우고 스크립트를 실행합니다 (Git Repository 포함 Choi Dataset 포함)
conda create -n textseg python=2.7 numpy scipy gensim ipython
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor
python run.py --help
예:
python run.py --cuda --model max_sentence_embedding --wiki
python test_accuracy.py --help
예:
python test_accuracy.py --cuda --model <path_to_model> --wiki
python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>
입력은 Wikipedia 덤프의 전체 경로이며, Temp는 임시 파일 폴더의 경로이며 출력은 새로 생성 된 Wikipedia 데이터 세트의 경로입니다.
Wikipedia 덤프는 다음 URL에서 다운로드 할 수 있습니다.
https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2