Lingkungan pembangunan corpus terpadu untuk model bahasa.
langumo adalah lingkungan pembangunan corpus terpadu untuk model bahasa . langumo menyediakan jaringan pipa untuk membangun kumpulan data berbasis teks. Membangun kumpulan data membutuhkan jaringan pipa yang rumit (EG Parsing, Shuffling dan Tokenisasi). Selain itu, jika korpora dikumpulkan dari berbagai sumber, akan menjadi masalah untuk mengekstrak data dari berbagai format. langumo membantu membangun dataset dengan format beragam sekaligus.
langumo dapat diinstal menggunakan pip sebagai berikut:
$ pip install langumo Anda dapat menginstal langumo dari sumber dengan mengkloning repositori dan menjalankan:
$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install Mari kita bangun dataset Wikipedia . Pertama, instal langumo di lingkungan virtual Anda.
$ pip install langumo Setelah menginstal langumo , buat ruang kerja untuk digunakan dalam build.
$ mkdir workspace
$ cd workspace Sebelum membuat dataset, kita memerlukan file dump wikipedia (yang merupakan sumber dataset). Anda bisa mendapatkan berbagai versi file dump wikipedia dari sini. Dalam tutorial ini, kami akan menggunakan bagian dari file dump Wikipedia. Unduh file dengan browser Anda dan pindah ke workspace/src . Atau, gunakan wget untuk mendapatkan file di terminal secara sederhana:
$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2 langumo membutuhkan file konfigurasi build yang berisi detail dataset. Buat file build.yml ke workspace dan tulis Belows:
langumo :
inputs :
- path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
parser : langumo.parsers.WikipediaParser
build :
parsing :
num-workers : 8 # The number of CPU cores you have.
tokenization :
vocab-size : 32000 # The vocabulary size. Sekarang kami siap membuat dataset pertama kami. Jalankan langumo !
$ langumoKemudian Anda dapat melihat output di bawah ini:
[*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo) ███████████████████████████████████ 100
[00:00:00] Tokenize words ███████████████████████████████████ 418863 / 418863
[00:00:01] Count pairs ███████████████████████████████████ 418863 / 418863
[00:00:02] Compute merges ███████████████████████████████████ 28942 / 28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609 of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt
Setelah membangun dataset, workspace akan berisi file di bawah ini:
workspace
├── build
│ ├── corpus.eval.txt
│ ├── corpus.train.txt
│ └── vocab.txt
├── src
│ └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml
usage: langumo [-h] [config]
The unified corpus building environment for Language Models.
positional arguments:
config langumo build configuration
optional arguments:
-h, --help show this help message and exit
Anda dapat menemukan dokumentasi langumo di situs web.
langumo berlisensi APACHE-2.0.