Téléchargement langumo - Téléchargement du code source langumo

langumo

Code Source AI

v0.2.0

Télécharger

Langumo

L'environnement de construction du corpus unifié pour les modèles de langue.

Table des matières

Introduction
Caractéristiques principales
Dépendances
Installation
- Avec pip
- De la source
Guide de démarrage rapide
Usage
Documentation
Licence

Introduction

langumo est un environnement de construction de corpus unifié pour les modèles de langue . langumo fournit des pipelines pour créer des ensembles de données textuels. La construction d'ensembles de données nécessite des pipelines complexes (par exemple, l'analyse, les mélanges et les tokenisation). De plus, si les corpus sont collectés à partir de différentes sources, il serait un problème d'extraire des données de divers formats. langumo aide à construire un ensemble de données avec les divers formats simplement à la fois.

Caractéristiques principales

Facile à construire, simple pour ajouter un nouveau format de corpus.
Bâtiment rapide grâce à des optimisations de performances (même écrites en python).
Prend en charge le multi-traitement dans les corpus d'analyse.
Extrêmement moins d'utilisation de la mémoire.
Environnement tout-en-un. Peu importe les procédures internes!
N'a pas besoin d'écrire de codes pour le nouveau corpus. Au lieu de cela, ajoutez simplement à la configuration de build.

Dépendances

NLTK
Colorama
pyyaml> = 5.3.1
tqdm> = 4,46.0
tokenzers == 0.8.1
mwParserFromHell> = 0,5.4
KSS == 1.3.1

Installation

Avec pip

langumo peut être installé à l'aide de pip comme suit:

$ pip install langumo

De la source

Vous pouvez installer langumo à partir de la source en clonage le référentiel et en cours d'exécution:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

Guide de démarrage rapide

Créons un ensemble de données Wikipedia . Tout d'abord, installez langumo dans votre Environment virtuel.

$ pip install langumo

Après avoir installé langumo , créez un espace de travail à utiliser dans Build.

$ mkdir workspace
$ cd workspace

Avant de créer l'ensemble de données, nous avons besoin d'un fichier de vidage Wikipedia (qui est une source de l'ensemble de données). Vous pouvez obtenir diverses versions de fichiers de vidage Wikipedia à partir d'ici. Dans ce tutoriel, nous utiliserons une partie du fichier de vidage Wikipedia. Téléchargez le fichier avec votre navigateur et déplacez-vous vers workspace/src . Ou, utilisez wget pour obtenir le fichier dans le terminal simplement:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumo a besoin d'un fichier de configuration de build qui contient les détails de l'ensemble de données. Créer un fichier build.yml dans workspace et écrire des vedettes:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

Nous sommes maintenant prêts à créer notre premier ensemble de données. Exécutez langumo !

$ langumo

Ensuite, vous pouvez voir les sorties ci-dessous:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

Après la création de l'ensemble de données, workspace contiendrait les fichiers ci-dessous:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

Usage

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit