تنزيل Jeju Translation - Jeju Translation Source Code Download

Jeju Translation

كود الذكاء الاصطناعي

1.0.0

تنزيل

؟ لغة jeju ، اللغة القياسية مشروع إنشاء نموذج الترجمة الصوتية اثنين

استخدام النموذج

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

؟ دوري

إنشاء مجموعة البيانات
- جمع مجموعات بيانات Jeju-Standard وإعدادها لمجموعة بيانات جديدة (مجموعة بيانات)
  - جمع البيانات مثل ai-hub ، github ، إلخ.
تصميم منطق نموذج الترجمة
- ضبط جيد كنموذج كوبارت
- من بين نماذج النص text2tex باللغة الكورية باللغة الكورية ، يعد Kobart أفضل وأسرع نموذج.
- في عملية تصميم اثنين من المنطقين ، يدخل الرموز [Jeju] و [Standard] أمام الجملة لجعل النموذج سهل الفهم (BLEU درجة 0.5-> 0.7 ، حتى 1 معيار)
- نظرًا لعدم وجود ذاكرة الوصول العشوائي ، تم تعلم 700000 بيانات فقط ، ولكن تم تغيير طريقة تنسيق مجموعة البيانات من Float16 إلى UNIT16 لحل نقص الذاكرة (ذاكرة GPU ، حفظ الموارد)

1. إدخال المشروع

؟ عضو فريق

فيتامين 12: زعيم ، لي سيو -هيون ، لي يرين
فيتامين 13: كيم يون -يونج ، كيم جاي -جيوم ، لي هيونغ -سيوك

؟ فترة

2024 الفصل الدراسي الأول

؟ ️ الموضوع

إنشاء لهجة jeju ونموذج ترجمة ثنائي الاتجاه اللغوي القياسي

هدف

نود الترويج لفهم لهجات جيجو والمساهمة في الحفاظ على ثقافة جيجو.
نحن نشجع التواصل السلس مع المواطنين في جيجو.
نقوم بتطوير نموذج ترجمة مكونين يربطان لهجة Jeju واللغة القياسية الكورية.
تنفيذ التعرف على الصوت وواجهة المستخدم.

2. جمع البيانات

البيانات التي تم جمعها بواسطة AI-HUB
- بيانات الاشتعال اللهجة الكورية
- بيانات اللهجة الكورية وكبار السن
البيانات التي تم جمعها بواسطة Github
- بيانات لسان Kakao Jit Jeju
بيانات أخرى
- بيانات المقاطعة الحية (Jeju الأولية صفحة ويب تزحف)
- حسنًا ، بيانات لانج هارمان (مجموعة البيانات على YouTuber من خلال الإشارة إلى فيديو ترجمة الأغاني بين مقاطع فيديو Langhaman)
- لهجة Jeju التي تذوق وبيانات أنيقة (البيانات التي تم جمعها من كتاب "طعم اللسان Jeju وجائزة")
- البيانات حتى لو تم إزالتها ، حتى لو مررت ، فإنها تجمع البيانات من الكتاب "حتى لو ذهب")
- 2018 Jeju Language Materials Collection (تم جمعها للتقييم)

3. التعلم النموذج

3-1. النموذج المتعلق

لقد تعلمت بطريقة لجلب نموذج ما قبل التعلم والضبط .
نموذج ما قبل التعليم المستخدم لتطوير نماذج الترجمة:
- Gogamza/Kobart-Base-V2
معايير اختيار نموذج ما قبل التعلم
- هل هو النموذج الصحيح للترجمة؟
- هل هي تعلمت باللغة الكورية؟
- هل سعة النموذج كبيرة جدًا وسرعة التعلم سريعة؟
النماذج التي تم النظر فيها ولكن لم يتم اختيارها:
- T5 (هناك مشكلة في وقت التعلم الطويل)
- جيبرت (لم يكن الأداء مرضيًا)

3-2. طريقة التعلم

منهجية التعلم
- المصدر-> التعلم في التنسيق المستهدف
- قبل إدخال الجملة ، إضافة الرموز المميزة [jeju] أو [قياسية] لتحديد اتجاه الترجمة والتعلم معًا
- باستخدام مجموعة البيانات الخاصة بحزمة مجموعات البيانات ، وتحويلها إلى نموذج محسّن لمعرفة نموذج اللغة
إعدادات المعلمة الرئيسية
- max_length: 64
- Batch_size: 32
- transing_rate: في البداية ، بدءًا من 2e-5 ويتقدم التعلم تدريجياً
- الحقبة: 3

؟ 4. الإنجازات الرئيسية

النتيجة النهائية لدرجة Bleu -معايير بيانات دفتر البيانات عن طريق الفم Jeju
- لغة jeju-> اللغة القياسية: 0.76
- اللغة القياسية-> لغة jeju: 0.5
جدول أداء النتيجة Bleu

تاريخ	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
jeju language-> نقاط لغة بليو القياسية	0.56	0.59	0.42	0.64	0.70	0.74	0.76	0.74
اللغة القياسية-> نقاط Jeju Bleu	0.35	0.37	0.26	0.37	0.39	0.46	0.50	0.49

وعموما ، سجلنا درجة Bleu .

بليو النتيجة التصور

تنفيذ الواجهة
وظيفة التعرف على الصوت
- Stt
  - استلم نماذج الهمس من معانقة الوجه والمضي قدما في الضبط
  - تحويل لغة jeju إلى رسالة نصية وتحويلها إلى نص
- TTS
  - استلم Glos TTS ، نموذج Hifigan من معانقة الوجه والمضي قدما في الضبط
  - حاولت التعبير عن الصوت في جيجو ، لكنني فشلت ...
  - التعبير بدلاً من صوت اللغة القياسي (باستخدام GTTS)

؟ 5. الخطط المستقبلية

المعالجة الأولية من خلال جمع البيانات الإضافية والتعديل الدقيق النحوي لتأمين بيانات الجودة
تحسين القدرة على التعرف على لهجة نموذج التعرف على الصوت
خطة تنفيذ الويب وخطة تطوير تطبيقات الهاتف المحمول

؟ 6. المرجع

مصدر البيانات
- بيانات الإشعال الكورية لهجة الكورية (المقدمة من AI-hub): https://www.aihub.or.kr/aihubdata/data/view.do؟curmenu=115&topmenu
- بيانات اللهجة الكورية المتوسطة والأكبر (AI-HUB): https://www.aihub.or.kr/aihubdata/data/view.do؟curmenu=115&topmenu
- بيانات لسان Kakao Jit Jeju (انظر Kakaobrane Github): https://github.com/kakaobrain/jejuo
- بيانات جانب المعيشة المعيشة (انظر jeju لغة أولية): https://www.jeju.go.kr/culture/dialect/lifedialect.htm
مصدر النموذج
- Kobart Hugging Face: https://huggingface.co/gogamza/kobart-base-v2
- الوجه الوجه المعانقة: https://huggingface.co/openai/whisper-large-v2
- Kobart Github: https://github.com/skt-ai/kobart

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-08-23
الحجم 581.52KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل