Unduh langumo - Unduh Kode Sumber langumo

langumo

Kode Sumber AI

v0.2.0

Unduh

Langumo

Lingkungan pembangunan corpus terpadu untuk model bahasa.

Daftar isi

Perkenalan
Fitur utama
Dependensi
Instalasi
- Dengan pip
- Dari sumber
Panduan Mulai Cepat
Penggunaan
Dokumentasi
Lisensi

Perkenalan

langumo adalah lingkungan pembangunan corpus terpadu untuk model bahasa . langumo menyediakan jaringan pipa untuk membangun kumpulan data berbasis teks. Membangun kumpulan data membutuhkan jaringan pipa yang rumit (EG Parsing, Shuffling dan Tokenisasi). Selain itu, jika korpora dikumpulkan dari berbagai sumber, akan menjadi masalah untuk mengekstrak data dari berbagai format. langumo membantu membangun dataset dengan format beragam sekaligus.

Fitur utama

Mudah dibangun, mudah untuk menambahkan format corpus baru.
Bangunan cepat melalui optimisasi kinerja (bahkan ditulis dalam Python).
Mendukung multi-proses dalam parsing corpora.
Penggunaan memori yang sangat kurang.
Lingkungan all-in-one. Jangan pedulikan prosedur internal!
Tidak perlu menulis kode untuk corpus baru. Sebaliknya, tambahkan ke konfigurasi build secara sederhana.

Dependensi

nltk
Colorama
pyyaml> = 5.3.1
TQDM> = 4.46.0
tokenizers == 0.8.1
mwparserfromhell> = 0.5.4
KSS == 1.3.1

Instalasi

Dengan pip

langumo dapat diinstal menggunakan pip sebagai berikut:

$ pip install langumo

Dari sumber

Anda dapat menginstal langumo dari sumber dengan mengkloning repositori dan menjalankan:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

Panduan Mulai Cepat

Mari kita bangun dataset Wikipedia . Pertama, instal langumo di lingkungan virtual Anda.

$ pip install langumo

Setelah menginstal langumo , buat ruang kerja untuk digunakan dalam build.

$ mkdir workspace
$ cd workspace

Sebelum membuat dataset, kita memerlukan file dump wikipedia (yang merupakan sumber dataset). Anda bisa mendapatkan berbagai versi file dump wikipedia dari sini. Dalam tutorial ini, kami akan menggunakan bagian dari file dump Wikipedia. Unduh file dengan browser Anda dan pindah ke workspace/src . Atau, gunakan wget untuk mendapatkan file di terminal secara sederhana:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumo membutuhkan file konfigurasi build yang berisi detail dataset. Buat file build.yml ke workspace dan tulis Belows:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

Sekarang kami siap membuat dataset pertama kami. Jalankan langumo !

$ langumo

Kemudian Anda dapat melihat output di bawah ini:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

Setelah membangun dataset, workspace akan berisi file di bawah ini:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

Penggunaan

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit