Scratch2LM Download - Scratch2LM Quellcode Download

Scratch2LM

AI-Quellcode

1.0.0

Herunterladen

Scratch2LM

Trainingstransformatormodelle (z. B. Roberta und GPT2-Large) von Grund auf neu.

Inspiration: https://huggingface.co/blog/how-to-train

1. Tokenizer Training (überspringen Sie, wenn Sie Tokenizer haben, die Sie verwenden möchten)

Setzen Sie Tokenizer_Path in config.json. Es sollte auf einen Ordner zeigen, der Textdateien enthält.
Launch Train_tokenizer.py. Der neue Tokenizer wird im vorherigen bereitgestellten Pfad als Tokenizer.json gespeichert.

2. Datencodierung

Bereiten Sie den Datensatz wie folgt vor:

Der Datensatz sollte aus JSONL -Dateien bestehen
Jede JSON -Zeile sollte eine Textzeichenfolge im Objektroot haben
Jede Zeile sollte wie zB aussehen:

 {"id": "12", "text": "<s>UTF-8 варијанта је најзгоднија за кодирање већински латиничног текста.</s><s>Дато је и кратко упутство..."}

Stellen Sie den richtigen Weg zu Ihrem Tokenizer sicher, Tokenizer_Path ist korrekt in config.json festgelegt
Verwenden Sie die multipleyson2Dataset -Methode der EnCode_Data.py und geben Sie ihn mit dem Pfad zu einem Verzeichnis, das Ihre Dataset -Dateien (JSON) enthält.
```
 from encode_data import multipleJson2dataset
multipleJson2dataset("path/to/your/files")
```
Dadurch wird Ihr festgelegter Tokenizer verwendet, um jeden Satz in der Sents -Liste zu token und in einer neuen JSONL -Datei zu speichern, die Ihre codierten Daten umfasst. Sie können die neuen Dateien durch eine Keyword -codierte Hexe erkennen, die Sie ändern können, indem Sie das coded_file_keyword in config.json ändern.

3.. Trainingssätze Vorbereitung

Verwenden Sie die Methode code_data.py multipleded2Datasets und geben Sie sie mit dem Pfad zu einem Verzeichnis, das Ihre neuen Dataset -Dateien (JSON) enthält. Sie werden durch das vorgeschriebene Schlüsselwort gefiltert. Wenn Sie sich nach dem zweiten Schritt nicht mit den Einstellungen befasst haben, liefern Sie sie einfach mit dem gleichen Weg.
Wenn Sie ein Bert-basiertes Modell trainieren, sollten Sie es wahrscheinlich übergeben , dass Sie jeden Satz auf diese Größe abschneiden.
```
 from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", trim=512)
```
Wenn Sie ein GPT-basiertes Modell trainieren, sollten Sie wahrscheinlich das Block- Arg übergeben, das Text in die Größe der Größe blockiert.
```
 from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", block=512)
```
Dies wird standardmäßig alle Ihre Daten in eine Liste kombinieren, zufällig aufgeteilt, in das Training und Dev in 9: 1 -Verhältnis aufgeteilt und denselben Weg mit Namen Train.json und Dev.json speichern. Wenn dies nicht das ist, was Sie möchten, können Sie Standardparameter für die Funktion coded2Datasets bearbeiten oder den Aufruf von mehreren engoded2Datasets (in codode_data.py) bearbeiten.

4. Modelltraining

Stellen Sie sicher, dass die Parameter in Config.json korrekt eingestellt werden, nämlich: (Wenn Sie bisher keine der Parameter geändert haben, sollten Sie dies im Moment nicht ändern müssen)
- Pfad zu Ihren Tokenizer-, Zug- und Entwicklerdatensätzen: Tokenizer_Path , Train_path und Dev_Path in den Pfadenabschnitt der config.json sowie Ihres model_folders , insbesondere wenn Sie von einem Kontrollpunkt fortfahren
- In demselben Abschnitt konfigurieren Sie, ob Sie ein Suchmodell verwenden, indem Sie einen Pfad zuweisen ( Suche )
- Modelltyp Sie möchten trainieren: model_type in config.json, das einer der derzeit Avaialble sein sollte, und angemessene Modellparameter finden Sie im Trainingskonfigurationsordner.
  - GPT2-Large
  - Roberta-Base
  - Roberta-Large
  - gptj
- Im selben Abschnitt können Sie konfigurieren, ob Sie von früheren Kontrollpunkten ( Lebenslauf-From-Checkpoint ) wieder aufnehmen möchten und ob Sie Modelltests entlang des Trainings ( output_from_modelt ) protokollieren möchten.
- Sie möchten die Schulungsparameter im Abschnitt "Training" von config.json festgelegt
(Optional, wenn Sie TRUE für output_from_modelt ausgewählt haben) Stellen Sie eine Liste von Sätzen für den Masking -Fülltest für Bert bei der Bearbeitung fill_mask_examples.json ab, indem Sie im Abschnitt config.json default_gen_input bearbeiten.
Run Train.py

Anmerkungen

(Training) Code ist auch als Jupyter -Notizbuch in der Datei Notes.ipynb und ACE Single Python -Datei in bündel.py verfügbar. In diesem Fall sind alle Konfigurationen enthalten und sollten ohne bearbeitet werden.

Expandieren

Zusätzliche Informationen