Die Unified Corpus Building -Umgebung für Sprachmodelle.
langumo ist eine einheitliche Corpus Building -Umgebung für Sprachmodelle . langumo bietet Pipelines zum Erstellen von Datensätzen auf textbasierten Datensätzen. Das Erstellen von Datensätzen erfordert komplizierte Pipelines (z. B. Parsen, Mischung und Tokenisierung). Wenn Unternehmen aus verschiedenen Quellen gesammelt werden, wäre es ein Problem, Daten aus verschiedenen Formaten zu extrahieren. langumo hilft dabei, einen Datensatz mit den verschiedenen Formaten einfach auf einmal aufzubauen.
langumo kann wie folgt mit pip installiert werden:
$ pip install langumo Sie können langumo von Source installieren, indem Sie das Repository klonen und ausgeführt werden:
$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install Erstellen wir einen Wikipedia -Datensatz. Installieren Sie zuerst langumo in Ihrer virtuellen Umgebung.
$ pip install langumo Erstellen Sie nach der Installation langumo einen Arbeitsbereich, der im Build verwendet werden soll.
$ mkdir workspace
$ cd workspace Vor dem Erstellen des Datensatzes benötigen wir eine Wikipedia -Dump -Datei (eine Quelle des Datensatzes). Von hier aus können Sie verschiedene Versionen von Wikipedia -Dump -Dateien erhalten. In diesem Tutorial verwenden wir einen Teil der Wikipedia -Dump -Datei. Laden Sie die Datei mit Ihrem Browser herunter und wechseln Sie zum workspace/src . Oder verwenden Sie wget , um die Datei einfach in Terminal zu erhalten:
$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2 langumo benötigt eine Build -Konfigurationsdatei, die die Details des Datensatzes enthält. Erstellen Sie build.yml -Datei in workspace und schreiben Sie Belows:
langumo :
inputs :
- path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
parser : langumo.parsers.WikipediaParser
build :
parsing :
num-workers : 8 # The number of CPU cores you have.
tokenization :
vocab-size : 32000 # The vocabulary size. Jetzt sind wir bereit, unseren ersten Datensatz zu erstellen. Lauf langumo !
$ langumoDann sehen Sie die folgenden Ausgänge:
[*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo) ███████████████████████████████████ 100
[00:00:00] Tokenize words ███████████████████████████████████ 418863 / 418863
[00:00:01] Count pairs ███████████████████████████████████ 418863 / 418863
[00:00:02] Compute merges ███████████████████████████████████ 28942 / 28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609 of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt
Nach dem Erstellen des Datensatzes enthält workspace die folgenden Dateien:
workspace
├── build
│ ├── corpus.eval.txt
│ ├── corpus.train.txt
│ └── vocab.txt
├── src
│ └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml
usage: langumo [-h] [config]
The unified corpus building environment for Language Models.
positional arguments:
config langumo build configuration
optional arguments:
-h, --help show this help message and exit
Die langumo -Dokumentation finden Sie auf der Website.
langumo ist apache-2.0 lizenziert.