[Paper] [Модель] [Демо]
Поколение поэзии была сложной задачей в области обработки естественного языка, поскольку она требует, чтобы модель понимала нюансы языка, настроений и стиля. В этой статье мы предлагаем использовать модели крупных языков для генерации вьетнамских стихов различных жанров из подсказок естественного языка, что облегчает интуитивно понятный процесс с улучшенным контролем содержания.
Наша самая эффективная модель, вариант BABBART GPT-3, достигает пользовательской оценки 0.8 , специально предназначенной для жанра «LUC BAT» вьетнамской поэзии. Кроме того, мы также исследуем идею перефразирующих стихов в обычные текстовые подсказки и даем относительно высокий балл 0.781 в жанре "Luc Bat". Этот эксперимент представляет собой потенциал для перевода по перекрестному языку в поэму с переведенными стихами в качестве входных данных, одновременно поддерживая полный контроль над сгенерированным контентом.
Набор данных Orignial представляет собой коллекцию вьетнамских стихов 171188 года с различными жанрами: Luc-Bat, 5-CHU, 7-CHU, 8-CHU, 4-CHU. Скачать здесь.
Для получения более подробной информации обратитесь к разделу «Благодарности»
Мы также создали наши собственные наборы данных для быстрого поколения в папке ресурсов/наборов данных.
Мы обучили пользовательский жанровый классификатор, основанный на BERT с точностью 99.7% чтобы классифицировать правильный жанр перед оценкой. Для получения более подробной информации обратитесь к нашему вьетнамско-и-лаковочному классу. Это было бы полезно во время слепых тестов (где жанр не указан).
Код обучения находится в этом репо. Чтобы тренировать классификатор, беги:
python poem_classifier_training.py
Мы используем пользовательскую функцию, чтобы оценить качество стихотворения, основанного на ее доходе на ее соответствие жесткому правилу различных типов вьетнамской стихотворения. Используя 3 критерия: длина, тон и рифму следующим образом: score = L/10 + 3T/10 + 6R/10
Таблица 1: Сравнение результатов моделей
| Модели | Luc Bat | Слепой | 7 Чу | 8 Чу | 5 Чу | 4 Чу |
|---|---|---|---|---|---|---|
| Текст-к-пем | ||||||
| Chatgpt (Zero-Shot) | 0,440 | 0,345 | 0,292 | 0,197 | 0,284 | 0,238 |
| Davinci (1000 образцов) | 0,580 | - | - | - | - | - |
| Bloom (20 тысяч образцов) | 0,678 | 0,596 | 0,367 | 0,279 | 0,480 | 0,440 |
| Баббидж (20 тысяч образцов) | 0,718 | - | - | - | - | - |
| Бэббидж | 0,805 | 0,795 | 0,661 | 0,500 | 0,382 | 0,392 |
| стихотворение | ||||||
| Бэббидж | 0,781 | - | - | - | - | - |
В настоящее время жанр Luc Bat набрал наибольший результат из -за чистого размера выборки. Он также имеет тенденцию к гнаковой Luc Bat , когда жанр не указан, поэтому он также очень высок во время слепых испытаний.
Версия OpenSource Используйте LORA для Bloom-7b1 в 8BT и может работать на Colab. Вы можете попробовать это здесь (вероятно, не хватает памяти и сбоя. Раньше он запускал нормальные, новые библиотечные версии конфликтуют)
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
} Этот проект был вдохновлен методом оценки от GPT-GPT2-генератора fsoft-ailab AILAB SP-GPT2
Набор данных также взят из их репо