Descarga Jeju Translation - Descargar el código fuente Jeju Translation

Jeju Translation

Código Fuente de IA

1.0.0

Descargar

? Lenguaje Jeju, Idioma estándar Proyecto de creación de modelos de traducción de voz de dos vías

Uso del modelo

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

? Mi papel

Creación de conjuntos de datos
- Jeju Standard DataSet Collection and Preparation para un nuevo conjunto de datos (conjunto de datos)
  - Recopilación de datos como Ai-Hub, Github, etc.
Diseño lógico del modelo de traducción
- Tonte fino como modelo de Kobart
- Entre los modelos Text2Text en coreano en coreano, Kobart es el mejor y más rápido modelo.
- En el proceso de diseño de la lógica de dos vías , entrando [jeju] y tokens [estándar] frente a la oración para hacer que el modelo sea fácil de entender (puntaje Bleu 0.5-> 0.7, hasta 1 estándar)
- Debido a la falta de RAM, solo se aprendieron 700,000 datos , pero el método del formato del conjunto de datos se cambió de Float16 a la Unidad16 para resolver la escasez de memoria (memoria GPU, ahorro de recursos)

1. Introducción del proyecto

?‍?‍?? Miembro del equipo

Vitamina 12: Líder, Lee Seo -Hyun, Lee Yerin
Vitamina 13: Kim Yun -young, Kim Jae -Gyeom, Lee Hyung -Seok

? período

2024 Primer semestre

? Tema de ️

Crear dialecto jeju y modelo de traducción bidireccional de idioma estándar

objetivo

Nos gustaría promover la comprensión de los dialectos de Jeju y contribuir a la preservación de la cultura Jeju.
Promovemos una comunicación sin problemas con los ciudadanos en Jeju.
Desarrollamos un modelo de traducción de dos vías que conecta el dialecto Jeju y el lenguaje estándar coreano.
Implementación de reconocimiento de voz e interfaz de usuario.

2. Recopilación de datos

Datos recopilados por AI-HUB
- Datos de encendido del dialecto coreano
- Datos de dialecto coreano y coreano coreanos
Datos recopilados por Github
- Datos de lengua kakao jit jeju
Otros datos
- Datos de la provincia viviente (Jeju Página web preliminar gateado)
- Bueno, Lang Harman Data (colección de datos YouTuber refiriéndose al video de traducción de letras entre los videos de Langhaman)
- Dialecto de Jeju ese gusto y datos elegantes (datos recopilados del libro 'Jeju Tague Taste and Prize')
- Datos incluso si se pasa, incluso si pasa, recopila datos del libro 'incluso si se ha ido'))
- 2018 Jeju Language Oral Materials Collection (recolectada para evaluación)

3. Aprendizaje modelo

3-1. Relacionado con el modelo

Aprendí en una forma de traer el modelo previo al aprendizaje y el ajuste .
Modelo previo al aprendizaje utilizado para desarrollar modelos de traducción:
- Gogamza/kobart-base-v2
Criterios de selección de modelos previos al aprendizaje
- ¿Es el modelo adecuado para la traducción?
- ¿Se aprende en coreano?
- ¿Es la capacidad del modelo tan grande y la velocidad de aprendizaje es rápida?
Modelos que han sido considerados pero no seleccionados:
- T5 (hay un problema con el tiempo de aprendizaje demasiado largo)
- Jebert (el rendimiento no fue satisfactorio)

3-2. Método de aprendizaje

Metodología de aprendizaje
- Fuente-> Aprendizaje en formato de destino
- Antes de ingresar la oración, agregando tokens [jeju] o [estándar] para especificar la dirección de la traducción y el aprendizaje juntos
- Utilizando el conjunto de datos del paquete de conjuntos de datos, convirtiéndolo en una forma optimizada para el aprendizaje del modelo de idioma
Configuración de parámetros principales
- Max_length: 64
- Batch_size: 32
- Transing_Rate: al principio, a partir de 2E-5 y el aprendizaje progresa gradualmente reducido
- Épocas: 3

? 4. Logros principales

Normas de datos de libros de datos orales de Lengua Oral de Lenguaje de JeJu
- Jeju Language-> Idioma estándar: 0.76
- Lenguaje estándar-> Jeju Lenguaje: 0.5
Tabla de rendimiento de puntuación de bleu

fecha	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
Jeju Language-> Puntuación de lenguaje estándar Bleu	0.56	0.59	0.42	0.64	0.70	0.74	0.76	0.74
Lenguaje estándar-> Jeju Bleu Puntuación	0.35	0.37	0.26	0.37	0.39	0.46	0.50	0.49

En general, registramos la puntuación BLEU .

Visualización de la puntuación de Bleu

Implementación de la interfaz
Función de reconocimiento de voz
- Stt
  - Reciba modelos Whisper de Hugging Face y continúa con un ajuste fino
  - Conversión del idioma de Jeju al texto y convertir al texto
- TTS
  - Reciba el modelo de Glos TTS, Hifigan de Hifting Face y continúa con ajuste fino
  - Traté de expresar voz en Jeju, pero fallé ...
  - Expresión en lugar de la voz de lenguaje estándar (usando GTT)

? 5. Planes futuros

Procesamiento preliminar a través de la recopilación de datos adicional y el microjustación gramaticular para asegurar datos de calidad
Mejora de la capacidad de reconocer el acento del modelo de reconocimiento de voz
Implementación web y plan de desarrollo de aplicaciones móviles

? 6. Referencia

Fuente de datos
- Datos de encendido del dialecto coreano (proporcionados por ai-hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- Datos del dialecto coreano medio y anterior (Ai-Hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- Datos de lengua Kakao Jit Jeju (ver Kakaobrane Github): https://github.com/kakaobrain/JeJUO
- Datos del lado vivo (ver Jeju Language Preliminar): https://www.jeju.go.kr/culture/dialect/lifedialect.htm
Fuente de modelos
- Kobart abrazando la cara: https://huggingface.co/gogamza/kobart-base-v2
- Whisper Hugging Face: https://huggingface.co/openai/whisper-large-v2
- Kobart Github: https://github.com/skt-ai/kobart

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-23
tamaño 581.52KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo