[종이] [모델] [데모]
시대는 자연 언어 처리 분야에서 어려운 과제였습니다. 모델은 언어, 감정 및 스타일의 뉘앙스를 이해해야합니다. 이 논문에서 우리는 대형 언어 모델을 사용하여 자연어 프롬프트에서 다양한 장르의 베트남시를 생성하여 컨텐츠 제어가 강화 된 직관적 인 프로세스를 촉진 할 것을 제안합니다.
우리의 가장 효과적인 모델 인 GPT-3 Babbage 변형은 특히 베트남시의 "LUC BAT"장르에 맞게 맞춤형 평가 점수 0.8 달성합니다. 또한, 우리는 또한시를 정상적인 텍스트 프롬프트로 인정한다는 아이디어를 탐구하고 "Luc Bat"장르에서 0.781 의 비교적 높은 점수를 얻습니다. 이 실험은 생성 된 컨텐츠에 대한 완전한 제어를 동시에 유지하는 동시에 입력으로 번역 된시와 함께 언어 교차시 대포 번역의 가능성을 제시합니다.
Orignial 데이터 세트는 Luc-Bat, 5-Chu, 7-Chu, 8-Chu, 4-Chu와 같은 다른 장르를 가진 171188 베트남시의 컬렉션입니다. 여기에서 다운로드하십시오.
자세한 내용은 승인 섹션을 참조하십시오
또한 리소스/데이터 세트 폴더에서 프롬프트 기반 생성을위한 자체 데이터 세트를 만들었습니다.
우리는 득점하기 전에 올바른 장르를 분류하기 위해 99.7% 의 정확도를 가진 Bert를 기반으로 맞춤형 장르 분류기를 훈련 시켰습니다. 자세한 내용은 베트남-지구 진류기를 참조하십시오. 이것은 맹인 테스트 중에 도움이됩니다 (장르가 지정되지 않은 경우).
교육 코드는이 리포지토리에 있습니다. 분류기를 훈련 시키려면 실행 :
python poem_classifier_training.py
우리는 사용자 정의 기능을 사용하여 다양한 유형의 베트남시의 엄격한 규칙에 따라 판매되는시의 품질을 평가합니다. 3 기준 사용 : 길이, 톤 및 운율 다음과 같이 : score = L/10 + 3T/10 + 6R/10
표 1 : 모델의 결과 비교
| 모델 | 루트 박쥐 | 눈이 먼 | 7 추 | 8 추 | 5 추 | 4 추 |
|---|---|---|---|---|---|---|
| 텍스트-폰 | ||||||
| chatgpt (Zero-샷) | 0.440 | 0.345 | 0.292 | 0.197 | 0.284 | 0.238 |
| Davinci (1000 샘플) | 0.580 | - | - | - | - | - |
| 블룸 (20k 샘플) | 0.678 | 0.596 | 0.367 | 0.279 | 0.480 | 0.440 |
| Babbage (20k 샘플) | 0.718 | - | - | - | - | - |
| babbage | 0.805 | 0.795 | 0.661 | 0.500 | 0.382 | 0.392 |
| 시 대포 | ||||||
| babbage | 0.781 | - | - | - | - | - |
현재 Luc Bat 장르는 샘플 크기로 인해 가장 높은 점수입니다. 또한 장르가 지정되지 않았을 때 Luc Bat 장기화하는 경향이 있으므로 맹인 테스트 중에도 매우 높은 점수를받습니다.
OpenSource 버전은 8 비트의 Bloom-7b1 용 Lora를 사용하며 Colab에서 실행할 수 있습니다. 여기에서 시도해 볼 수 있습니다 (아마도 메모리와 충돌이 부족할 것입니다. 새로운 라이브러리 버전이 많이 충돌하는 데 사용되었습니다).
@misc { huynh2024vietnamese ,
title = { Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation } ,
author = { Triet Minh Huynh and Quan Le Bao } ,
year = { 2024 } ,
eprint = { 2401.01078 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
} 이 프로젝트는 fsoft-ailab 의 SP-GPT2 POEM-Generator의 평가 방법에서 영감을 얻었습니다.
데이터 세트도 리포지토리에서 가져 왔습니다