Ce référentiel contient du code et des documents supplémentaires qui sont nécessaires pour former et évaluer un modèle comme décrit dans la segmentation du texte papier comme une tâche d'apprentissage supervisée
ensembles de données Wiki-727K, Wiki-50:
https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0
word2vec:
https://drive.google.com/a/audioburst.com/uc?export=download&confirm=zrin&id=0B7XKCWPI5KDYNLNUTTLSS21PQMM
Remplissez les chemins pertinents dans ConfigGenerator.py et exécutez le script (le référentiel GIT inclut un ensemble de données ChOI)
conda create -n textseg python=2.7 numpy scipy gensim ipython
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor
python run.py --help
Exemple:
python run.py --cuda --model max_sentence_embedding --wiki
python test_accuracy.py --help
Exemple:
python test_accuracy.py --cuda --model <path_to_model> --wiki
python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>
L'entrée est le chemin complet du vidage Wikipedia, la température est le chemin d'accès au dossier des fichiers temporaires et la sortie est le chemin d'accès à l'ensemble de données Wikipedia nouvellement généré.
Le vidage Wikipedia peut être téléchargé à partir de l'URL suivante:
https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2