[紙] [モデル] [デモ]
詩の世代は、言語、感情、スタイルのニュアンスを理解するためにモデルが必要とするため、自然言語処理の分野では挑戦的な作業でした。この論文では、大規模な言語モデルを使用して、自然言語プロンプトからさまざまなジャンルのベトナムの詩を生成し、それによってコンテンツ制御を強化した直感的なプロセスを促進することを提案します。
私たちの最も効果的なモデルであるGPT-3 Babbageバリアントは、ベトナムの詩の「Luc Bat」ジャンルに特化したカスタム評価スコア0.8達成しています。さらに、詩を通常のテキストプロンプトに言い換えるという考えを探り、「Luc Bat」のジャンルで比較的高いスコア0.781を生み出します。この実験は、生成されたコンテンツを完全に制御する一方で、翻訳された詩を入力した翻訳された詩を伴う言語間の詩からポームへの翻訳の可能性を示しています。
Orimial Datasetは、異なるジャンルの171188ベトナムの詩のコレクションです:luc-bat、5-chu、7-chu、8-chu、4-chu。ここからダウンロードしてください。
詳細については、謝辞セクションを参照してください
また、リソース/データセットフォルダーでプロンプトベースの生成のために独自のデータセットを作成しました。
スコアリングの前に正しいジャンルを分類するために、 99.7%の精度でBertに基づいてカスタムジャンル分類器をトレーニングしました。詳細については、ベトナムのポームクラシファイアを参照してください。これは、ブラインドテスト中に役立ちます(ジャンルが指定されていない場合)。
トレーニングコードはこのリポジトリにあります。分類器をトレーニングするには、実行します。
python poem_classifier_training.py
カスタム関数を使用して、さまざまな種類のベトナム詩の厳格なルールへの立体構造に基づいて詩の品質を獲得します。 3つの基準の使用:次のように長さ、トーン、韻: score = L/10 + 3T/10 + 6R/10
表1:モデルの結果比較
| モデル | Luc Bat | 盲目 | 7チュー | 8チュー | 5チュー | 4チュー |
|---|---|---|---|---|---|---|
| テキストからポームへ | ||||||
| chatgpt(ゼロショット) | 0.440 | 0.345 | 0.292 | 0.197 | 0.284 | 0.238 |
| Davinci(1000サンプル) | 0.580 | - | - | - | - | - |
| ブルーム(20Kサンプル) | 0.678 | 0.596 | 0.367 | 0.279 | 0.480 | 0.440 |
| バベッジ(20Kサンプル) | 0.718 | - | - | - | - | - |
| バベージ | 0.805 | 0.795 | 0.661 | 0.500 | 0.382 | 0.392 |
| 詩からポームへ | ||||||
| バベージ | 0.781 | - | - | - | - | - |
現在、 Luc Batジャンルは、サンプルサイズが大きいため、最高のスコアを獲得しています。また、ジャンルが指定されていないときにLuc BatをGenRerateのバットにする傾向があるため、ブラインドテスト中にも非常に高いスコアを獲得します。
OpenSourceバージョンでは、8ビットでBloom-7b1にLORAを使用し、Colabで実行できます。ここで試すことができます(おそらくメモリがなくなってクラッシュします。以前は正常に実行されていました。
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}このプロジェクトはfsoft-ailabのSP-GPT2 Poem-Generatorの評価方法に触発されました
データセットもレポから取得しました