Jeju Translation Download - Jeju Translation herunterladen

Jeju Translation

AI-Quellcode

1.0.0

Herunterladen

? Jeju Sprache, Standardsprache Zwei -Way -Sprachübersetzungsmodell Erstellungsprojekt

Modellgebrauch

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

? Meine Rolle

Datensatzerstellung
- Jeju-Standard-Datensatzsammlung und Vorbereitung für den neuen Datensatz (Datensatz)
  - Datenerfassung wie AI-Hub, Github usw.
Übersetzungsmodell -Logikdesign
- Feinabstimmung als Kbart -Modell
- Unter den Text2Text -Modellen in Koreanisch in Koreanisch ist Kartart das beste und schnellste Modell.
- Beim Entwerfen zweier Logiks , die [Jeju] und [Standard] Token vor dem Satz eingeben, um das Modell leicht zu verstehen (Bleu -Score 0,5-> 0,7, bis zu 1 Standard)
- Aufgrund des Mangels an RAM wurden nur 700.000 Daten gelernt , aber die Datensatzformatmethode wurde von Float16 auf Unit16 geändert, um Speichermangel zu lösen (GPU -Speicher, Ressourcensparung).

1. Einführung des Projekts

?‍?‍? Teammitglied

Vitamin 12: Leader, Lee Seo -Hyun, Lee Yerin
Vitamin 13: Kim Yun -Young, Kim Jae -gyeom, Lee Hyung -seok

? Zeitraum

2024 Erstes Semester

? ️ Thema

Erstellen

Ziel

Wir möchten das Verständnis von Jeju -Dialekten fördern und zur Erhaltung der Jeju -Kultur beitragen.
Wir fördern eine reibungslose Kommunikation mit den Bürgern in Jeju.
Wir entwickeln ein Zwei -Wege -Übersetzungsmodell, das den Jeju -Dialekt und die koreanische Standardsprache verbindet.
Implementierung der Spracherkennung und Benutzeroberfläche.

2. Datenerfassung

Daten, die von AI-Hub gesammelt wurden
- Koreanische Dialektzündungsdaten
- Koreanisch und ältere koreanische Dialektdaten
Daten von GitHub gesammelt
- Kakao Jit Jeju Zungendaten
Andere Daten
- Lebende Provinz Daten (Jeju vorläufige Webseite Crawling)
- Nun, Lang Harman Data (YouTuber -Datenerfassung, indem sie sich auf das Übersetzungsvideo von Lyrics unter den Langhaman -Videos beziehen)
- Jeju Dialekt, den Geschmack und stilvolle Daten (Daten aus dem Buch 'Jeju Zungengeschmack und Preis' gesammelt)
- Daten, auch wenn es vergeht, auch wenn es vergeht, sammelt es Daten aus dem Buch "Auch wenn es weg ist").
- 2018 Jeju Sprache Orale Materialien Sammlung (zur Bewertung gesammelt)

3. Modelllernen

3-1. Modellbezogen

Ich habe gelernt, das Vorliesemodell und die Feinabstimmung einzubringen .
Vor -Learning -Modell zur Entwicklung von Übersetzungsmodellen:
- Gogamza/Kbart-Base-V2
Vor -Learning -Modellauswahlkriterien
- Ist es das richtige Modell für die Übersetzung?
- Ist es auf Koreanisch gelernt?
- Ist die Modellkapazität so groß und die Lerngeschwindigkeit ist schnell?
Modelle, die berücksichtigt wurden, aber nicht ausgewählt wurden:
- T5 (Es gibt ein Problem mit einer zu langen Lernzeit)
- Jebert (Leistung war nicht zufriedenstellend)

3-2. Lernmethode

Lernmethodik
- Quelle-> Lernen im Zielformat
- Vor dem Eintritt in den Satz, Hinzufügen von [Jeju] oder [Standard] Token
- Verwenden des Datensatzes des Datasets -Pakets und konvertieren Sie es in ein optimiertes Formular für das Lernen des Sprachmodells
Hauptparametereinstellungen
- Max_length: 64
- batch_size: 32
- Transing_rate: Zunächst ab 2E-5 und das Lernen werden allmählich weitergegangen
- Epochen: 3

? 4. Haupter Leistungen

Endgültige BLEU -Score -jeju Sprache Orale Datenbuchdatenstandards
- Jeju Sprache-> Standardsprache: 0,76
- Standardsprache-> Jeju Sprache: 0,5
Bleu -Score -Leistungstabelle

Datum	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
Jeju Sprache-> Standard Sprache Bleu Score	0,56	0,59	0,42	0,64	0,70	0,74	0,76	0,74
Standardsprache-> Jeju Bleu Score	0,35	0,37	0,26	0,37	0,39	0,46	0,50	0,49

Insgesamt haben wir den Bleu -Score verzeichnet .

Bleu -Score -Visualisierung

Schnittstellenimplementierung
Spracherkennungsfunktion
- Stt
  - Erhalten Sie Flüstermodelle vom Umarmungsgesicht und fahren Sie mit der Feinabstimmung fort
  - Jeju Sprachkonvertierung in Text und konvertieren zum Text
- TTS
  - Erhalten Sie die Glos TTs, das HiFigan-Modell aus dem Umarmen und fährt mit Feinabstimmung fort
  - Ich habe versucht, die Stimme in Jeju auszudrücken, aber versagt ...
  - Ausdruck anstelle von Standardsprachenstimmen (mit GTTS)

? 5. Zukunftspläne

Vorverarbeitung durch zusätzliche Datenerfassung und grammatische Mikroanpassung zur Sicherung von Qualitätsdaten
Verbesserung der Fähigkeit, den Akzent des Spracherkennungsmodells zu erkennen
Web -Implementierung und Entwicklungsplan für mobile Apps

? 6. Referenz

Datenquelle
- Koreanische Dialekt-Zünddaten (bereitgestellt von ai-hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- Mittlere und ältere koreanische Dialektdaten (AI-Hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- Kakao Jit Jeju Zungendaten (siehe Kakaobrane Github): https://github.com/kakaobrain/jejuo
- Living Living Side -Daten (siehe JEJU -Sprache vorläufig): https://www.jeju.go.kr/culture/dialect/lifedialect.htm
Modellquelle
- Karting-Umarmung Gesicht: https://huggingface.co/gogamza/kobart-base-v2
- Flüsterns umarmtes Gesicht: https://huggingface.co/openai/whisper-large-v2
- Kbart Github: https://github.com/skt-ai/kobart

Expandieren

Zusätzliche Informationen