[纸] [模型] [演示]
在自然语言处理领域,诗歌的产生一直是一项艰巨的任务,因为它要求模型了解语言,情感和风格的细微差别。在本文中,我们建议使用大型语言模型从自然语言提示中产生各种流派的越南诗,从而促进了具有增强内容控制的直觉过程。
我们最有效的模型GPT-3 Babbage变体达到了0.8的自定义评估评分,专门针对越南诗歌的“ Luc Bat”类型量身定制。此外,我们还探讨了将诗歌解释为正常文本提示的想法,并在“ Luc Bat”类型中获得了相对较高的分数0.781 。该实验提出了将跨语言诗对诗人翻译的潜力,并以翻译为输入作为输入,同时同时保持对生成的内容的完全控制。
Orignial数据集是171188具有不同类型的越南诗的集合:Luc-Bat,5-Chu,7-Chu,8-Chu,8-Chu,4-Chu。在这里下载。
有关更多详细信息,请参阅“确认”部分
我们还创建了自己的数据集,用于在资源/数据集文件夹中基于及时的生成。
我们基于BERT培训了一种自定义类型的分类器,其准确性为99.7%以在评分之前对正确的类型进行分类。有关更多详细信息,请参阅我们的越南诗人分类单。这在盲试验中将很有帮助(未指定流派)。
培训代码在此存储库中。要训练分类器,请运行:
python poem_classifier_training.py
我们使用自定义功能来评分一首诗的质量,该诗的构成符合各种类型的越南诗的严格规则。使用3个标准:长度,音调和押韵如下: score = L/10 + 3T/10 + 6R/10
表1:模型的结果比较
| 型号 | 卢克蝙蝠 | 瞎的 | 7楚 | 8楚 | 5楚 | 4楚 |
|---|---|---|---|---|---|---|
| 文本对诗 | ||||||
| chatgpt(零射) | 0.440 | 0.345 | 0.292 | 0.197 | 0.284 | 0.238 |
| Davinci(1000个样品) | 0.580 | - | - | - | - | - |
| 绽放(20k样品) | 0.678 | 0.596 | 0.367 | 0.279 | 0.480 | 0.440 |
| babbage(20k样品) | 0.718 | - | - | - | - | - |
| 巴巴奇 | 0.805 | 0.795 | 0.661 | 0.500 | 0.382 | 0.392 |
| 诗歌 | ||||||
| 巴巴奇 | 0.781 | - | - | - | - | - |
目前,由于样本量, Luc Bat类型得分最高。当未指定类型时,它也具有Luc Bat的趋势,因此在盲试验中它的得分也很高。
OpenSource版本使用LORA用于8bit中的Bloom-7b1 ,并且可以在Colab上运行。您可以在此处尝试(可能用尽内存和崩溃。
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}该项目的灵感来自fsoft-ailab的SP-GPT2诗歌生成器的评估方法
数据集也从他们的存储库中获取