Descargar langumo - Descargar el código fuente de langumo

langumo

Código Fuente de IA

v0.2.0

Descargar

langumo

El entorno de construcción de Corpus Unified para modelos de idiomas.

Tabla de contenido

Introducción
Características principales
Dependencias
Instalación
- Con Pip
- De la fuente
Guía de inicio rápido
Uso
Documentación
Licencia

Introducción

langumo es un entorno de construcción de corpus unificado para modelos de idiomas . langumo proporciona tuberías para construir conjuntos de datos basados en texto. La construcción de conjuntos de datos requiere tuberías complicadas (por ejemplo, análisis, barajamiento y tokenización). Además, si los corpus se recopilan de diferentes fuentes, sería un problema extraer datos de varios formatos. langumo ayuda a construir un conjunto de datos con los diversos formatos simplemente a la vez.

Características principales

Fácil de construir, fácil de agregar un nuevo formato de corpus.
Construcción rápida a través de optimizaciones de rendimiento (incluso escritas en Python).
Admite el procesamiento múltiple en los corpus de análisis.
Muy menos uso de memoria.
Entorno todo en uno. ¡No importa los procedimientos internos!
No necesita escribir códigos para el nuevo corpus. En su lugar, agregue a la configuración de compilación simplemente.

Dependencias

nltk
colorama
pyyaml> = 5.3.1
tqdm> = 4.46.0
Tokenizers == 0.8.1
mwparserFromHell> = 0.5.4
KSS == 1.3.1

Instalación

Con Pip

langumo se puede instalar utilizando pip de la siguiente manera:

$ pip install langumo

De la fuente

Puede instalar langumo desde la fuente clonando el repositorio y en ejecución:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

Guía de inicio rápido

Construyamos un conjunto de datos de Wikipedia . Primero, instale langumo en su entorno virtual.

$ pip install langumo

Después de instalar langumo , cree un espacio de trabajo para usar en la compilación.

$ mkdir workspace
$ cd workspace

Antes de crear el conjunto de datos, necesitamos un archivo de volcado Wikipedia (que es una fuente del conjunto de datos). Puede obtener varias versiones de los archivos de volcado de Wikipedia desde aquí. En este tutorial, utilizaremos una parte del archivo de volcado Wikipedia. Descargue el archivo con su navegador y muévase al workspace/src . O use wget para obtener el archivo en terminal simplemente:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumo necesita un archivo de configuración de compilación que contenga los detalles del conjunto de datos. Cree el archivo build.yml en workspace y escriba Belows:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

Ahora estamos listos para crear nuestro primer conjunto de datos. ¡Ejecute langumo !

$ langumo

Entonces puede ver las siguientes salidas:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

Después de construir el conjunto de datos, workspace contendría los archivos a continuación:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

Uso

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit