Téléchargement text segmentation - Téléchargement du code source text segmentation

text segmentation

Autre code source

1.0.0

Télécharger

La segmentation du texte comme tâche d'apprentissage supervisée

Ce référentiel contient du code et des documents supplémentaires qui sont nécessaires pour former et évaluer un modèle comme décrit dans la segmentation du texte papier comme une tâche d'apprentissage supervisée

Downalod requis les ressources

ensembles de données Wiki-727K, Wiki-50:

https://www.dropbox.com/sh/k3jh0fjbyr0gw0a/aadzad9sdtrbnvs1qlcjy5cza?dl=0

word2vec:

https://drive.google.com/a/audioburst.com/uc?export=download&confirm=zrin&id=0B7XKCWPI5KDYNLNUTTLSS21PQMM

Remplissez les chemins pertinents dans ConfigGenerator.py et exécutez le script (le référentiel GIT inclut un ensemble de données ChOI)

Création d'un environnement:

 conda create -n textseg python=2.7 numpy scipy gensim ipython 
source activate textseg
pip install http://download.pytorch.org/whl/cu80/torch-0.3.0-cp27-cp27mu-linux_x86_64.whl 
pip install tqdm pathlib2 segeval tensorboard_logger flask flask_wtf nltk
pip install pandas xlrd xlsxwriter termcolor

Comment exécuter le processus de formation?

 python run.py --help

Exemple:

 python run.py --cuda --model max_sentence_embedding --wiki

Comment évaluer le modèle formé (sur le jeu de données Wiki-727 / ChOI)?

 python test_accuracy.py  --help

Exemple:

 python test_accuracy.py --cuda --model <path_to_model> --wiki

Comment créer un nouvel ensemble de données Wikipedia:

 python wiki_processor.py --input <input> --temp <temp_files_folder> --output <output_folder> --train <ratio> --test <ratio>

L'entrée est le chemin complet du vidage Wikipedia, la température est le chemin d'accès au dossier des fichiers temporaires et la sortie est le chemin d'accès à l'ensemble de données Wikipedia nouvellement généré.

Le vidage Wikipedia peut être téléchargé à partir de l'URL suivante:

https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-19
taille 5.04MB
Provenant de Github

Applications connexes

Texte avec Jésus chinois

2023-08-23
Texte avec Jésus

2023-08-17
Texte Avec Jésus version chinoise

2023-08-17
Envoyez un SMS ou mourez

2023-07-03
RTE (éditeur de texte enrichi) ASP.NET

2011-05-25
Échange de liens texte PHP

2009-04-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout