Téléchargement Jeju Translation - Téléchargement de code source Jeju Translation Téléchargement

Jeju Translation

Code Source AI

1.0.0

Télécharger

? Langue Jeju, Langue standard à deux projets de traduction vocale Projet de création

Utilisation du modèle

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

? Mon rôle

Création d'ensemble de données
- Collection et préparation de l'ensemble de données JEJU-Standard pour un nouvel ensemble de données (ensemble de données)
  - Collecte de données comme Ai-Hub, GitHub, etc.
Conception logique du modèle de traduction
- Réglage fin en tant que modèle Kobart
- Parmi les modèles text2text en coréen en coréen, Kobart est le modèle le meilleur et le plus rapide.
- Dans le processus de conception de la logique à deux voies , entrant [Jeju] et [Standard] jetons devant la phrase pour rendre le modèle facile à comprendre (score BLEU 0,5 à> 0,7, jusqu'à 1 standard)
- En raison du manque de RAM, seulement 700 000 données ont été apprises , mais la méthode du format de jeu de données a été changée de Float16 à Unit16 pour résoudre les pénuries de mémoire (mémoire GPU, enregistrement des ressources)

1. Introduction du projet

?‍?‍? Membre de l'équipe

Vitamine 12: Leader, Lee Seo -Hyun, Lee Yerin
Vitamine 13: Kim Yun -young, Kim Jae -Gyeom, Lee Hyung -Seok

? période

2024 Premier semestre

? ️ thème

Créer un dialecte Jeju et un modèle de traduction bidirectionnelle en langage standard

cible

Nous aimerions promouvoir la compréhension des dialectes Jeju et contribuer à la préservation de la culture Jeju.
Nous promouvons une communication fluide avec les citoyens de Jeju.
Nous développons un modèle de traduction à deux voies qui relie le dialecte Jeju et la langue standard coréenne.
Implémentation de la reconnaissance vocale et de l'interface utilisateur.

2. Collecte de données

Données collectées par Ai-Hub
- Données d'allumage du dialecte coréen
- Données de dialecte coréen coréen et plus ancienne
Données collectées par github
- Kakao Jit Jeju Données de langue
Autres données
- Données de la province vivante (JEJU Page Web préliminaire rampant)
- Eh bien, Lang Harman Data (Collection YouTuber de données en se référant à la vidéo de traduction des paroles parmi les vidéos de Langhaman)
- Dialecte Jeju qui a le goût et les données élégantes (données collectées dans le livre «Jeju Tongue et prix»)
- Données Même si elle se déroule, même si elle passe, elle collecte des données du livre «même si elle est partie»)
- Collection de matériaux oraux de langue Jeju 2018 (collecté pour évaluation)

3. Apprentissage du modèle

3-1-1. Lié au modèle

J'ai appris de manière à apporter le modèle de pré-apprentissage et le réglage fin .
Modèle de pré-apprentissage utilisé pour développer des modèles de traduction:
- Gogamza / Kobart-Base-V2
Critères de sélection du modèle de pré-apprentissage
- Est-ce le bon modèle de traduction?
- Est-il appris en coréen?
- La capacité du modèle est-elle si grande et la vitesse d'apprentissage est rapide?
Modèles qui ont été considérés mais non sélectionnés:
- T5 (il y a un problème avec un temps d'apprentissage trop long)
- Jebert (la performance n'était pas satisfaisante)

3-2. Méthode d'apprentissage

Méthodologie d'apprentissage
- Source-> Apprentissage au format cible
- Avant d'entrer dans la phrase, ajoutant des jetons [Jeju] ou [Standard] pour spécifier la direction de la traduction et de l'apprentissage ensemble
- En utilisant l'ensemble de données du package de données, en le convertissant en une forme optimisée pour l'apprentissage du modèle de langue
Paramètres des paramètres principaux
- Max_length: 64
- Batch_size: 32
- Transing_rate: Au début, à partir de 2E-5 et l'apprentissage progresse progressivement
- Epochs: 3

? 4. Réalisations principales

Score BLEU final -JEJU Langue Oral Data Book Normes de données
- Langue Jeju-> Langue standard: 0,76
- Langue standard-> Langue Jeju: 0,5
Table de performance BLEU SCORE

date	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
Langue Jeju-> Langue standard Bleu Score	0,56	0,59	0,42	0,64	0,70	0,74	0,76	0,74
Langue standard-> Jeju bleu score	0,35	0,37	0,26	0,37	0,39	0,46	0,50	0,49

Dans l'ensemble, nous avons enregistré le score BLEU .

Visualisation du score BLEU

Implémentation d'interface
Fonction de reconnaissance vocale
- STT
  - Recevoir des modèles Whisper de l'étreinte Face et procéder à un réglage fin
  - Conversion de la langue Jeju en texte et converti en texte
- Tts
  - Recevez le modèle GLOS TTS, HIFIGAN en étreignant le visage et procédez avec un réglage fin
  - J'ai essayé d'exprimer la voix dans Jeju, mais j'ai échoué ...
  - Expression au lieu de la voix du langage standard (en utilisant GTTS)

? 5. Plans futurs

Traitement préliminaire grâce à une collecte de données supplémentaires et à un micro-ajustement grammatique pour sécuriser les données de qualité
Amélioration de la capacité à reconnaître l'accent du modèle de reconnaissance vocale
Plan de mise en œuvre Web et de développement d'applications mobiles

? 6. Référence

Source de données
- Données coréennes d'allumage du dialecte (fournies par Ai-Hub): https://www.aihub.or.kr/aihubdata/data/view.do?curMenu=115&topmenu
- Données de dialecte coréen moyen et ancienne (Ai-Hub): https://www.aihub.or.kr/aihubdata/data/view.do?curMenu=115&topmenu
- Kakao Jit Jeju Données de la langue (voir Kakaobrane Github): https://github.com/kakaobrain/jejuo
- Données de vie vivantes (voir la langue Jeju préliminaire): https://www.jeju.go.kr/culture/dialect/lifeDialect.htm
Source du modèle
- Kobart Hugging Face: https://huggingface.co/gogamza/kobart-base-v2
- Face étreinte de chuchotement: https://huggingface.co/openai/whisper-large-v2
- Kobart Github: https://github.com/skt-ai/kobart

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-23
taille 581.52KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout