poem_generator poem

poem_generator

AI Исходный код

1.0.0

Скачать

Поколение вьетнамских стихотворения и перспектива перевода по переводу по стихотворению в поэму? ️

[Paper] [Модель] [Демо]

Поколение поэзии была сложной задачей в области обработки естественного языка, поскольку она требует, чтобы модель понимала нюансы языка, настроений и стиля. В этой статье мы предлагаем использовать модели крупных языков для генерации вьетнамских стихов различных жанров из подсказок естественного языка, что облегчает интуитивно понятный процесс с улучшенным контролем содержания.

Наша самая эффективная модель, вариант BABBART GPT-3, достигает пользовательской оценки 0.8 , специально предназначенной для жанра «LUC BAT» вьетнамской поэзии. Кроме того, мы также исследуем идею перефразирующих стихов в обычные текстовые подсказки и даем относительно высокий балл 0.781 в жанре "Luc Bat". Этот эксперимент представляет собой потенциал для перевода по перекрестному языку в поэму с переведенными стихами в качестве входных данных, одновременно поддерживая полный контроль над сгенерированным контентом.

Набор данных

Набор данных Orignial представляет собой коллекцию вьетнамских стихов 171188 года с различными жанрами: Luc-Bat, 5-CHU, 7-CHU, 8-CHU, 4-CHU. Скачать здесь.

Для получения более подробной информации обратитесь к разделу «Благодарности»

Мы также создали наши собственные наборы данных для быстрого поколения в папке ресурсов/наборов данных.

Предварительная оценка

Мы обучили пользовательский жанровый классификатор, основанный на BERT с точностью 99.7% чтобы классифицировать правильный жанр перед оценкой. Для получения более подробной информации обратитесь к нашему вьетнамско-и-лаковочному классу. Это было бы полезно во время слепых тестов (где жанр не указан).

Код обучения находится в этом репо. Чтобы тренировать классификатор, беги:

 python poem_classifier_training.py

Оценка

Мы используем пользовательскую функцию, чтобы оценить качество стихотворения, основанного на ее доходе на ее соответствие жесткому правилу различных типов вьетнамской стихотворения. Используя 3 критерия: длина, тон и рифму следующим образом: score = L/10 + 3T/10 + 6R/10

Таблица 1: Сравнение результатов моделей

Модели	Luc Bat	Слепой	7 Чу	8 Чу	5 Чу	4 Чу
Текст-к-пем
Chatgpt (Zero-Shot)	0,440	0,345	0,292	0,197	0,284	0,238
Davinci (1000 образцов)	0,580	-	-	-	-	-
Bloom (20 тысяч образцов)	0,678	0,596	0,367	0,279	0,480	0,440
Баббидж (20 тысяч образцов)	0,718	-	-	-	-	-
Бэббидж	0,805	0,795	0,661	0,500	0,382	0,392
стихотворение
Бэббидж	0,781	-	-	-	-	-

В настоящее время жанр Luc Bat набрал наибольший результат из -за чистого размера выборки. Он также имеет тенденцию к гнаковой Luc Bat , когда жанр не указан, поэтому он также очень высок во время слепых испытаний.

Вывод

Версия OpenSource Используйте LORA для Bloom-7b1 в 8BT и может работать на Colab. Вы можете попробовать это здесь (вероятно, не хватает памяти и сбоя. Раньше он запускал нормальные, новые библиотечные версии конфликтуют)

Цитирование

 @misc { huynh2024vietnamese ,
      title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } , 
      author = { Triet Minh Huynh and Quan Le Bao } ,
      year = { 2024 } ,
      eprint = { 2401.01078 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}