Trainingstransformatormodelle (z. B. Roberta und GPT2-Large) von Grund auf neu.
Inspiration: https://huggingface.co/blog/how-to-train
{"id": "12", "text": "<s>UTF-8 варијанта је најзгоднија за кодирање већински латиничног текста.</s><s>Дато је и кратко упутство..."}
from encode_data import multipleJson2dataset
multipleJson2dataset("path/to/your/files")
Verwenden Sie die Methode code_data.py multipleded2Datasets und geben Sie sie mit dem Pfad zu einem Verzeichnis, das Ihre neuen Dataset -Dateien (JSON) enthält. Sie werden durch das vorgeschriebene Schlüsselwort gefiltert. Wenn Sie sich nach dem zweiten Schritt nicht mit den Einstellungen befasst haben, liefern Sie sie einfach mit dem gleichen Weg.
Wenn Sie ein Bert-basiertes Modell trainieren, sollten Sie es wahrscheinlich übergeben , dass Sie jeden Satz auf diese Größe abschneiden.
from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", trim=512)
Wenn Sie ein GPT-basiertes Modell trainieren, sollten Sie wahrscheinlich das Block- Arg übergeben, das Text in die Größe der Größe blockiert.
from encode_data import multipleEncoded2datasets
multipleEncoded2datasets("path/to/your/files", block=512)
Dies wird standardmäßig alle Ihre Daten in eine Liste kombinieren, zufällig aufgeteilt, in das Training und Dev in 9: 1 -Verhältnis aufgeteilt und denselben Weg mit Namen Train.json und Dev.json speichern. Wenn dies nicht das ist, was Sie möchten, können Sie Standardparameter für die Funktion coded2Datasets bearbeiten oder den Aufruf von mehreren engoded2Datasets (in codode_data.py) bearbeiten.
Stellen Sie sicher, dass die Parameter in Config.json korrekt eingestellt werden, nämlich: (Wenn Sie bisher keine der Parameter geändert haben, sollten Sie dies im Moment nicht ändern müssen)
(Optional, wenn Sie TRUE für output_from_modelt ausgewählt haben) Stellen Sie eine Liste von Sätzen für den Masking -Fülltest für Bert bei der Bearbeitung fill_mask_examples.json ab, indem Sie im Abschnitt config.json default_gen_input bearbeiten.
Run Train.py
(Training) Code ist auch als Jupyter -Notizbuch in der Datei Notes.ipynb und ACE Single Python -Datei in bündel.py verfügbar. In diesem Fall sind alle Konfigurationen enthalten und sollten ohne bearbeitet werden.