El entorno de construcción de Corpus Unified para modelos de idiomas.
langumo es un entorno de construcción de corpus unificado para modelos de idiomas . langumo proporciona tuberías para construir conjuntos de datos basados en texto. La construcción de conjuntos de datos requiere tuberías complicadas (por ejemplo, análisis, barajamiento y tokenización). Además, si los corpus se recopilan de diferentes fuentes, sería un problema extraer datos de varios formatos. langumo ayuda a construir un conjunto de datos con los diversos formatos simplemente a la vez.
langumo se puede instalar utilizando pip de la siguiente manera:
$ pip install langumo Puede instalar langumo desde la fuente clonando el repositorio y en ejecución:
$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install Construyamos un conjunto de datos de Wikipedia . Primero, instale langumo en su entorno virtual.
$ pip install langumo Después de instalar langumo , cree un espacio de trabajo para usar en la compilación.
$ mkdir workspace
$ cd workspace Antes de crear el conjunto de datos, necesitamos un archivo de volcado Wikipedia (que es una fuente del conjunto de datos). Puede obtener varias versiones de los archivos de volcado de Wikipedia desde aquí. En este tutorial, utilizaremos una parte del archivo de volcado Wikipedia. Descargue el archivo con su navegador y muévase al workspace/src . O use wget para obtener el archivo en terminal simplemente:
$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2 langumo necesita un archivo de configuración de compilación que contenga los detalles del conjunto de datos. Cree el archivo build.yml en workspace y escriba Belows:
langumo :
inputs :
- path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
parser : langumo.parsers.WikipediaParser
build :
parsing :
num-workers : 8 # The number of CPU cores you have.
tokenization :
vocab-size : 32000 # The vocabulary size. Ahora estamos listos para crear nuestro primer conjunto de datos. ¡Ejecute langumo !
$ langumoEntonces puede ver las siguientes salidas:
[*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo) ███████████████████████████████████ 100
[00:00:00] Tokenize words ███████████████████████████████████ 418863 / 418863
[00:00:01] Count pairs ███████████████████████████████████ 418863 / 418863
[00:00:02] Compute merges ███████████████████████████████████ 28942 / 28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609 of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt
Después de construir el conjunto de datos, workspace contendría los archivos a continuación:
workspace
├── build
│ ├── corpus.eval.txt
│ ├── corpus.train.txt
│ └── vocab.txt
├── src
│ └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml
usage: langumo [-h] [config]
The unified corpus building environment for Language Models.
positional arguments:
config langumo build configuration
optional arguments:
-h, --help show this help message and exit
Puede encontrar la documentación langumo en el sitio web.
langumo tiene apache-2.0 licencia.