Скачать langumo - скачать исходный код langumo

langumo

AI Исходный код

v0.2.0

Скачать

Лангумо

Объединенная среда построения корпусов для языковых моделей.

Введение

langumo - это унифицированная среда построения корпусов для языковых моделей . langumo предоставляет трубопроводы для создания текстовых наборов данных. Построение наборов данных требует сложных трубопроводов (например, разбор, перетасовка и токенизация). Более того, если корпуса собираются из разных источников, было бы проблемой извлечения данных из различных форматов. langumo помогает создать набор данных с различными форматами просто одновременно.

Основные особенности

Легко построить, просто добавить новый формат корпуса.
Быстрое построение через оптимизацию производительности (даже написано на Python).
Поддерживает многопроцессы в Corpora.
Чрезвычайно меньше использования памяти.
Все в одном среде. Не обращайте внимания на внутренние процедуры!
Не нужно писать коды для нового корпуса. Вместо этого добавьте в конфигурацию сборки просто.

Зависимости

nltk
Колорама
pyyaml> = 5.3.1
TQDM> = 4.46.0
Токенизаторы == 0,8,1
mwparserfromhell> = 0,5,4
KSS == 1.3.1

Установка

С Pip

langumo может быть установлен с помощью pip следующим образом:

$ pip install langumo

Из источника

Вы можете установить langumo из Source, клонируя репозиторий и запустив:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

Quick Start Guide

Давайте построим набор данных Википедии . Во -первых, установите langumo в свою виртуальную среду.

$ pip install langumo

После установки langumo создайте рабочую область для использования в сборке.

$ mkdir workspace
$ cd workspace

Перед созданием набора данных нам нужен файл дампы Википедии (который является источником набора данных). Вы можете получить различные версии файлов Dump Wikipedia Dump отсюда. В этом уроке мы будем использовать часть файла дампа Википедии. Загрузите файл с вашим браузером и перейдите в workspace/src . Или используйте wget чтобы просто получить файл в терминале просто:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumo нужен файл конфигурации сборки, который содержит детали набора данных. Создайте файл build.yml в workspace и напишите Belows:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

Теперь мы готовы создать наш первый набор данных. Беги langumo !

$ langumo

Затем вы можете увидеть выходы ниже:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

После создания набора данных workspace будет содержать приведенные ниже файлы:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

Использование

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit