L'environnement de construction du corpus unifié pour les modèles de langue.
langumo est un environnement de construction de corpus unifié pour les modèles de langue . langumo fournit des pipelines pour créer des ensembles de données textuels. La construction d'ensembles de données nécessite des pipelines complexes (par exemple, l'analyse, les mélanges et les tokenisation). De plus, si les corpus sont collectés à partir de différentes sources, il serait un problème d'extraire des données de divers formats. langumo aide à construire un ensemble de données avec les divers formats simplement à la fois.
langumo peut être installé à l'aide de pip comme suit:
$ pip install langumo Vous pouvez installer langumo à partir de la source en clonage le référentiel et en cours d'exécution:
$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install Créons un ensemble de données Wikipedia . Tout d'abord, installez langumo dans votre Environment virtuel.
$ pip install langumo Après avoir installé langumo , créez un espace de travail à utiliser dans Build.
$ mkdir workspace
$ cd workspace Avant de créer l'ensemble de données, nous avons besoin d'un fichier de vidage Wikipedia (qui est une source de l'ensemble de données). Vous pouvez obtenir diverses versions de fichiers de vidage Wikipedia à partir d'ici. Dans ce tutoriel, nous utiliserons une partie du fichier de vidage Wikipedia. Téléchargez le fichier avec votre navigateur et déplacez-vous vers workspace/src . Ou, utilisez wget pour obtenir le fichier dans le terminal simplement:
$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2 langumo a besoin d'un fichier de configuration de build qui contient les détails de l'ensemble de données. Créer un fichier build.yml dans workspace et écrire des vedettes:
langumo :
inputs :
- path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
parser : langumo.parsers.WikipediaParser
build :
parsing :
num-workers : 8 # The number of CPU cores you have.
tokenization :
vocab-size : 32000 # The vocabulary size. Nous sommes maintenant prêts à créer notre premier ensemble de données. Exécutez langumo !
$ langumoEnsuite, vous pouvez voir les sorties ci-dessous:
[*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo) ███████████████████████████████████ 100
[00:00:00] Tokenize words ███████████████████████████████████ 418863 / 418863
[00:00:01] Count pairs ███████████████████████████████████ 418863 / 418863
[00:00:02] Compute merges ███████████████████████████████████ 28942 / 28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609 of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt
Après la création de l'ensemble de données, workspace contiendrait les fichiers ci-dessous:
workspace
├── build
│ ├── corpus.eval.txt
│ ├── corpus.train.txt
│ └── vocab.txt
├── src
│ └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml
usage: langumo [-h] [config]
The unified corpus building environment for Language Models.
positional arguments:
config langumo build configuration
optional arguments:
-h, --help show this help message and exit
Vous pouvez trouver la documentation langumo sur le site Web.
langumo est autorisé Apache-2.0.