ดาวน์โหลด Jeju Translation - Jeju Translation Source Source Download

Jeju Translation

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

- ภาษา jeju, ภาษามาตรฐานสอง -โครงการสร้างรูปแบบการแปลด้วยเสียงแบบสองทาง

การใช้แบบจำลอง

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

- บทบาทของฉัน

การสร้างชุดข้อมูล
- ชุดข้อมูลชุดข้อมูล Jeju-Standard และการเตรียมการสำหรับชุดข้อมูลใหม่ (ชุดข้อมูล)
  - การรวบรวมข้อมูลเช่น AI-Hub, GitHub ฯลฯ
การออกแบบตรรกะแบบจำลองการแปล
- ปรับจูนเป็นรุ่น Kobart
- ในบรรดาโมเดล Text2Text ในเกาหลีในเกาหลี Kobart เป็นรุ่นที่ดีที่สุดและเร็วที่สุด
- ในกระบวนการออกแบบตรรกะสองทาง เข้าสู่ [jeju] และ [มาตรฐาน] โทเค็นหน้าประโยคเพื่อให้แบบจำลองเข้าใจง่าย (คะแนน Bleu 0.5-> 0.7, สูงสุด 1 มาตรฐาน)
- เนื่องจากการขาด RAM มีการเรียนรู้ข้อมูลเพียง 700,000 ข้อมูล แต่วิธีการจัดรูปแบบชุดข้อมูลเปลี่ยนจาก Float16 เป็น Unit16 เพื่อแก้ปัญหาการขาดแคลนหน่วยความจำ (หน่วยความจำ GPU การบันทึกทรัพยากร)

1. การแนะนำโครงการ

?? สมาชิกในทีม

วิตามิน 12: ผู้นำ, Lee Seo -Hyun, Lee Yerin
วิตามิน 13: Kim Yun -young, Kim Jae -Gyeom, Lee Hyung -Seok

- ระยะเวลา

2024 ภาคเรียนแรก

- ️ ธีม

สร้างรูปแบบการแปลแบบสองทิศทางของภาษาและภาษามาตรฐาน

เป้า

เราต้องการส่งเสริมความเข้าใจของภาษาเจจูและมีส่วนร่วมในการอนุรักษ์วัฒนธรรม Jeju
เราส่งเสริมการสื่อสารที่ราบรื่นกับประชาชนใน Jeju
เราพัฒนารูปแบบการแปลสองทางที่เชื่อมต่อภาษา Jeju และภาษามาตรฐานเกาหลี
การใช้การจดจำเสียงและส่วนต่อประสานผู้ใช้

2. การรวบรวมข้อมูล

ข้อมูลที่รวบรวมโดย AI-Hub
- ข้อมูลการจุดระเบิดภาษาเกาหลี
- ข้อมูลภาษาเกาหลีและภาษาเกาหลีที่มีอายุมากกว่า
ข้อมูลที่รวบรวมโดย GitHub
- ข้อมูลลิ้น kakao jit jeju
ข้อมูลอื่น ๆ
- ข้อมูลจังหวัดที่อยู่อาศัย (การรวบรวมข้อมูลหน้าเว็บเบื้องต้นของ Jeju)
- ข้อมูล Lang Harman (รวบรวมข้อมูล YouTuber โดยอ้างถึงวิดีโอแปลเนื้อเพลงในวิดีโอ Langhaman)
- Jeju Dialect ที่มีรสชาติและข้อมูลที่มีสไตล์ (ข้อมูลที่รวบรวมได้จากหนังสือ 'Jeju Tongue Taste and Prize')
- ข้อมูลแม้ว่ามันจะผ่านไปแม้ว่ามันจะผ่านมันก็จะรวบรวมข้อมูลจากหนังสือ 'แม้ว่ามันจะหายไป')
- 2018 Jeju Language Oral Materials Collection (รวบรวมเพื่อการประเมินผล)

3. การเรียนรู้แบบจำลอง

3-1. แบบจำลองที่เกี่ยวข้อง

ฉันเรียนรู้ วิธีที่จะนำรูปแบบการเรียนรู้ล่วงหน้าและการปรับแต่ง
แบบจำลองการเรียนรู้ก่อนที่ใช้ในการพัฒนารูปแบบการแปล:
- Gogamza/Kobart-Base-V2
เกณฑ์การเลือกแบบจำลองการเรียนรู้ล่วงหน้า
- มันเป็นแบบจำลองที่เหมาะสมสำหรับการแปลหรือไม่?
- มันเรียนรู้เป็นภาษาเกาหลีหรือไม่?
- ความสามารถของแบบจำลองนั้นใหญ่มากและความเร็วการเรียนรู้เร็วหรือไม่?
แบบจำลองที่ได้รับการพิจารณา แต่ไม่ได้เลือก:
- T5 (มีปัญหากับเวลาเรียนรู้ที่ยาวเกินไป)
- เจเบิร์ต (การแสดงไม่เป็นที่น่าพอใจ)

3-2. วิธีการเรียนรู้

วิธีการเรียนรู้
- แหล่งที่มา-> การเรียนรู้ในรูปแบบเป้าหมาย
- ก่อนที่จะเข้าสู่ประโยคเพิ่ม [jeju] หรือ [มาตรฐาน] โทเค็นเพื่อระบุทิศทางของการแปลและการเรียนรู้ร่วมกัน
- การใช้ชุดข้อมูลของแพ็คเกจชุดข้อมูลแปลงเป็นรูปแบบที่เหมาะสมสำหรับการเรียนรู้แบบจำลองภาษา
การตั้งค่าพารามิเตอร์หลัก
- max_length: 64
- batch_size: 32
- transing_rate: ในตอนแรกเริ่มจาก 2E-5 และการเรียนรู้ค่อยๆลดลงเรื่อย ๆ
- ยุค: 3

- 4. ความสำเร็จหลัก

คะแนน bleu สุดท้าย -jeju ภาษาข้อมูลข้อมูลหนังสือข้อมูลมาตรฐานข้อมูลมาตรฐาน
- ภาษา jeju-> ภาษามาตรฐาน: 0.76
- ภาษามาตรฐาน-> ภาษาเชจู: 0.5
ตารางประสิทธิภาพของ Bleu คะแนน

วันที่	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
jeju language-> คะแนนภาษามาตรฐาน bleu	0.56	0.59	0.42	0.64	0.70	0.74	0.76	0.74
ภาษามาตรฐาน-> คะแนน Jeju Bleu	0.35	0.37	0.26	0.37	0.39	0.46	0.50	0.49

โดยรวมแล้ว เราบันทึกคะแนน Bleu

การสร้างภาพคะแนน Bleu

การใช้งานส่วนต่อประสาน
ฟังก์ชั่นการจดจำเสียง
- STT
  - รับรุ่นกระซิบจากการกอดใบหน้าและดำเนินการปรับแต่งอย่างละเอียด
  - การแปลงภาษา jeju เป็นข้อความและแปลงเป็นข้อความ
- TTS
  - รับแบบจำลอง glos tts, hifigan จากการกอดใบหน้าและดำเนินการปรับแต่งอย่างละเอียด
  - ฉันพยายามแสดงเสียงใน Jeju แต่ล้มเหลว ...
  - การแสดงออกแทนเสียงภาษามาตรฐาน (โดยใช้ GTTs)

- 5. แผนการในอนาคต

การประมวลผลเบื้องต้นผ่านการรวบรวมข้อมูลเพิ่มเติม
การปรับปรุงความสามารถในการจดจำสำเนียงของรูปแบบการจดจำเสียง
การใช้งานเว็บและแผนพัฒนาแอพมือถือ

- 6. การอ้างอิง

แหล่งข้อมูล
- ข้อมูลการจุดระเบิดภาษาเกาหลี (จัดทำโดย AI-HUB): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- ข้อมูลภาษาเกาหลีระดับกลางและเก่ากว่า (ai-hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- ข้อมูลลิ้น kakao jeju (ดู kakaobrane github): https://github.com/kakaobrain/jejuo
- ข้อมูลด้านการใช้ชีวิต (ดูภาษา jeju เบื้องต้น): https://www.jeju.go.kr/culture/dialect/lifedialect.htm
แหล่งที่มาของแบบจำลอง
- Kobart Hugging Face: https://huggingface.co/gogamza/kobart-base-v2
- Whisper Hugging Face: https://huggingface.co/openai/whisper-large-v2
- Kobart GitHub: https://github.com/skt-ai/kobart

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-23
ขนาด 581.52KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด