langumo Download - langumo Quellcode Download

langumo

AI-Quellcode

v0.2.0

Herunterladen

Langumo

Die Unified Corpus Building -Umgebung für Sprachmodelle.

Inhaltsverzeichnis

Einführung
Hauptmerkmale
Abhängigkeiten
Installation
- Mit Pip
- Von Quelle
Schnellstarthandbuch
Verwendung
Dokumentation
Lizenz

Einführung

langumo ist eine einheitliche Corpus Building -Umgebung für Sprachmodelle . langumo bietet Pipelines zum Erstellen von Datensätzen auf textbasierten Datensätzen. Das Erstellen von Datensätzen erfordert komplizierte Pipelines (z. B. Parsen, Mischung und Tokenisierung). Wenn Unternehmen aus verschiedenen Quellen gesammelt werden, wäre es ein Problem, Daten aus verschiedenen Formaten zu extrahieren. langumo hilft dabei, einen Datensatz mit den verschiedenen Formaten einfach auf einmal aufzubauen.

Hauptmerkmale

Einfach zu bauen, einfach zu einem neuen Corpus -Format hinzuzufügen.
Schnelles Gebäude durch Leistungsoptimierungen (sogar in Python geschrieben).
Unterstützt Multi-Verarbeitungen bei der Parsen von Korpora.
Extrem weniger Speicherverbrauch.
All-in-One-Umgebung. Egal die internen Verfahren!
Muss keine Codes für neue Korpus schreiben. Fügen Sie stattdessen einfach der Build -Konfiguration hinzu.

Abhängigkeiten

NLTK
Colorama
pyyaml> = 5.3.1
tqdm> = 4.46.0
Tokenizer == 0,8,1
mwparserfromHell> = 0,5,4
KSS == 1.3.1

Installation

Mit Pip

langumo kann wie folgt mit pip installiert werden:

$ pip install langumo

Von Quelle

Sie können langumo von Source installieren, indem Sie das Repository klonen und ausgeführt werden:

$ git clone https://github.com/affjljoo3581/langumo.git
$ cd langumo
$ python setup.py install

Schnellstarthandbuch

Erstellen wir einen Wikipedia -Datensatz. Installieren Sie zuerst langumo in Ihrer virtuellen Umgebung.

$ pip install langumo

Erstellen Sie nach der Installation langumo einen Arbeitsbereich, der im Build verwendet werden soll.

$ mkdir workspace
$ cd workspace

Vor dem Erstellen des Datensatzes benötigen wir eine Wikipedia -Dump -Datei (eine Quelle des Datensatzes). Von hier aus können Sie verschiedene Versionen von Wikipedia -Dump -Dateien erhalten. In diesem Tutorial verwenden wir einen Teil der Wikipedia -Dump -Datei. Laden Sie die Datei mit Ihrem Browser herunter und wechseln Sie zum workspace/src . Oder verwenden Sie wget , um die Datei einfach in Terminal zu erhalten:

$ wget -P src https://dumps.wikimedia.org/enwiki/20200901/enwiki-20200901-pages-articles1.xml-p1p30303.bz2

langumo benötigt eine Build -Konfigurationsdatei, die die Details des Datensatzes enthält. Erstellen Sie build.yml -Datei in workspace und schreiben Sie Belows:

 langumo :
  inputs :
  - path : src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
    parser : langumo.parsers.WikipediaParser

  build :
    parsing :
      num-workers : 8 # The number of CPU cores you have.

    tokenization :
      vocab-size : 32000 # The vocabulary size.

Jetzt sind wir bereit, unseren ersten Datensatz zu erstellen. Lauf langumo !

$ langumo

Dann sehen Sie die folgenden Ausgänge:

 [*] import file from src/enwiki-20200901-pages-articles1.xml-p1p30303.bz2
[*] parse raw-formatted corpus file with WikipediaParser
[*] merge 1 files into one
[*] shuffle raw corpus file: 100%|██████████████████████████████| 118042/118042 [00:01<00:00, 96965.15it/s]
[00:00:10] Reading files (256 Mo)                   ███████████████████████████████████                 100
[00:00:00] Tokenize words                           ███████████████████████████████████ 418863   /   418863
[00:00:01] Count pairs                              ███████████████████████████████████ 418863   /   418863
[00:00:02] Compute merges                           ███████████████████████████████████ 28942    /    28942
[*] export the processed file to build/vocab.txt
[*] tokenize sentences with WordPiece model: 100%|███████████████| 236084/236084 [00:23<00:00, 9846.67it/s]
[*] split validation corpus - 23609  of 236084 lines
[*] export the processed file to build/corpus.train.txt
[*] export the processed file to build/corpus.eval.txt

Nach dem Erstellen des Datensatzes enthält workspace die folgenden Dateien:

 workspace
├── build
│   ├── corpus.eval.txt
│   ├── corpus.train.txt
│   └── vocab.txt
├── src
│   └── enwiki-20200901-pages-articles1.xml-p1p30303.bz2
└── build.yml

Verwendung

 usage: langumo [-h] [config]

The unified corpus building environment for Language Models.

positional arguments:
  config      langumo build configuration

optional arguments:
  -h, --help  show this help message and exit