[紙] [模型] [演示]
在自然語言處理領域,詩歌的產生一直是一項艱鉅的任務,因為它要求模型了解語言,情感和風格的細微差別。在本文中,我們建議使用大型語言模型從自然語言提示中產生各種流派的越南詩,從而促進了具有增強內容控制的直覺過程。
我們最有效的模型GPT-3 Babbage變體達到了0.8的自定義評估評分,專門針對越南詩歌的“ Luc Bat”類型量身定制。此外,我們還探討了將詩歌解釋為正常文本提示的想法,並在“ Luc Bat”類型中獲得了相對較高的分數0.781 。該實驗提出了將跨語言詩對詩人翻譯的潛力,並以翻譯為輸入作為輸入,同時同時保持對生成的內容的完全控制。
Orignial數據集是171188具有不同類型的越南詩的集合:Luc-Bat,5-Chu,7-Chu,8-Chu,8-Chu,4-Chu。在這裡下載。
有關更多詳細信息,請參閱“確認”部分
我們還創建了自己的數據集,用於在資源/數據集文件夾中基於及時的生成。
我們基於BERT培訓了一種自定義類型的分類器,其準確性為99.7%以在評分之前對正確的類型進行分類。有關更多詳細信息,請參閱我們的越南詩人分類單。這在盲試驗中將很有幫助(未指定流派)。
培訓代碼在此存儲庫中。要訓練分類器,請運行:
python poem_classifier_training.py
我們使用自定義功能來評分一首詩的質量,該詩的構成符合各種類型的越南詩的嚴格規則。使用3個標準:長度,音調和押韻如下: score = L/10 + 3T/10 + 6R/10
表1:模型的結果比較
| 型號 | 盧克蝙蝠 | 瞎的 | 7楚 | 8楚 | 5楚 | 4楚 |
|---|---|---|---|---|---|---|
| 文本對詩 | ||||||
| chatgpt(零射) | 0.440 | 0.345 | 0.292 | 0.197 | 0.284 | 0.238 |
| Davinci(1000個樣品) | 0.580 | - | - | - | - | - |
| 綻放(20k樣品) | 0.678 | 0.596 | 0.367 | 0.279 | 0.480 | 0.440 |
| babbage(20k樣品) | 0.718 | - | - | - | - | - |
| 巴巴奇 | 0.805 | 0.795 | 0.661 | 0.500 | 0.382 | 0.392 |
| 詩歌 | ||||||
| 巴巴奇 | 0.781 | - | - | - | - | - |
目前,由於樣本量, Luc Bat類型得分最高。當未指定類型時,它也具有Luc Bat的趨勢,因此在盲試驗中它的得分也很高。
OpenSource版本使用LORA用於8bit中的Bloom-7b1 ,並且可以在Colab上運行。您可以在此處嘗試(可能用盡內存和崩潰。
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}該項目的靈感來自fsoft-ailab的SP-GPT2詩歌生成器的評估方法
數據集也從他們的存儲庫中獲取