[Papier] [Modell] [Demo]
Die Erzeugung der Poesie war eine herausfordernde Aufgabe im Bereich der Verarbeitung natürlicher Sprache, da das Modell die Nuancen von Sprache, Stimmung und Stil verstehen muss. In diesem Artikel schlagen wir vor, große Sprachmodelle zu verwenden, um vietnamesische Gedichte verschiedener Genres aus natürlichen Sprachanforderungen zu erzeugen und damit einen intuitiven Prozess mit verbesserter Inhaltskontrolle zu ermöglichen.
Unser wirksamstes Modell, die GPT-3-Babbage-Variante, erzielt eine benutzerdefinierte Bewertungsbewertung von 0.8 , die speziell auf das "Luc Bat" -Genre der vietnamesischen Poesie zugeschnitten ist. Darüber hinaus untersuchen wir die Idee, Gedichte in normale Textaufforderungen zu umschreiben und im Genre "Luc Bat" eine relativ hohe Punktzahl von 0.781 zu ergeben. Dieses Experiment bietet das Potenzial für eine preissprachliche Übersetzung von Gedichten zu Poem-Poem mit übersetzten Gedichten als Eingaben, während gleichzeitig die vollständige Kontrolle über den generierten Inhalt beibehalten wird.
Der Originial-Datensatz ist eine Sammlung von vietnamesischen Gedichten von 171188 mit verschiedenen Genres: Luc-Bat, 5-Chu, 7-Chu, 8-Chu, 4-CHU. Laden Sie hier herunter.
Weitere Informationen finden Sie im Abschnitt "Anerkennung"
Wir haben auch unsere eigenen Datensätze für die Eingabeaufforderung im Ressourcen-/Datensatzordner erstellt.
Wir haben einen benutzerdefinierten Genre -Klassifizierer mit Bert mit der Genre von 99.7% ausgebildet, um das richtige Genre vor der Bewertung zu klassifizieren. Weitere Einzelheiten finden Sie in unserem vietnamesischen Kopplungsklassifizierer. Dies wäre während des Blindtests hilfreich (wobei das Genre nicht angegeben ist).
Der Trainingscode befindet sich in diesem Repo. Um den Klassifikator zu trainieren, rennen Sie:
python poem_classifier_training.py
Wir verwenden eine benutzerdefinierte Funktion, um die Qualität eines Gedichts zu bewerten, das auf der starre Regel verschiedener Arten von vietnamesischem Gedicht sortiert ist. Verwenden Sie 3 Kriterien: Länge, Ton und Reim wie folgt: score = L/10 + 3T/10 + 6R/10
Tabelle 1: Ergebnisvergleich der Modelle
| Modelle | Luc Bat | Blind | 7 Chu | 8 Chu | 5 Chu | 4 Chu |
|---|---|---|---|---|---|---|
| Text-to-Poem | ||||||
| Chatgpt (Null-Shot) | 0,440 | 0,345 | 0,292 | 0,197 | 0,284 | 0,238 |
| Davinci (1000 Proben) | 0,580 | - - | - - | - - | - - | - - |
| Blüte (20k Proben) | 0,678 | 0,596 | 0,367 | 0,279 | 0,480 | 0,440 |
| Babbage (20k Proben) | 0,718 | - - | - - | - - | - - | - - |
| Babbage | 0,805 | 0,795 | 0,661 | 0,500 | 0,382 | 0,392 |
| Gedicht-zu-Poem | ||||||
| Babbage | 0,781 | - - | - - | - - | - - | - - |
Derzeit bewertet der Luc Bat -Genre aufgrund der Stichprobengröße am höchsten. Es hat auch die Tendenz, Luc Bat zu generieren, wenn das Genre nicht angegeben ist, sodass es auch während des Blindtests sehr hoch ist.
Die OpenSource-Version verwendet eine Lora für Bloom-7b1 in 8bit und kann auf Colab laufen. Sie können es hier ausprobieren (wahrscheinlich haben Sie keinen Speicher und Absturz. Früher lief es gut, neue Bibliotheksversionen konflikt viel)
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
} Dieses Projekt wurde von der Bewertungsmethode aus fsoft-ailab SP-GPT2-Gedichtgenerator inspiriert
Datensatz auch aus ihrem Repo entnommen