text segmentation herunterladen - text segmentation herunterladen

text segmentation

Anderer Quellcode

1.0.0

Herunterladen

Textsegmentierung als beaufsichtigte Lernaufgabe

Dieses Repository enthält Code und ergänzende Materialien, die zum Training und Bewertung eines Modells erforderlich sind, wie in der Papiertextsegmentierung als beaufsichtigte Lernaufgabe beschrieben

Downalod benötigte Ressourcen

Wiki-727K, Wiki-50-Datensätze:

https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0

Word2VEC:

https://drive.google.com/a/audioburst.com/uc?export=downsloLe&confirm=zrin&id=0B7XKCWPI5KDYNLNUTTLSS21PQMM

Füllen Sie die relevanten Pfade in Configgenerator.py und führen Sie das Skript aus (Git -Repository enthält den Choi -Datensatz).

Erstellen einer Umgebung:

 conda create -n textseg python=2.7 numpy scipy gensim ipython 
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl 
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor

Wie führe ich einen Trainingsprozess aus?

 python run.py --help

Beispiel:

 python run.py --cuda --model max_sentence_embedding --wiki

Wie bewerten Sie das geschulte Modell (auf Wiki-727/CHOI-Datensatz)?

 python test_accuracy.py  --help

Beispiel:

 python test_accuracy.py --cuda --model <path_to_model> --wiki

So erstellen Sie einen neuen Wikipedia -Datensatz:

 python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>

Die Eingabe ist der vollständige Pfad zum Wikipedia -Dump, Temp ist der Pfad zum Ordner Temporary Dateien und die Ausgabe ist der Pfad zum neu generierten Wikipedia -Datensatz.

Wikipedia Dump kann von der folgenden URL heruntergeladen werden: