Download Jeju Translation - Jeju Translation Download do Código Fonte

Jeju Translation

Código-Fonte de IA

1.0.0

Baixar

? Linguagem Jeju, Linguagem Padrão de Tradução de Voz de Voz Padrão Projeto de Criação de Modelo

Uso do modelo

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

? Meu papel

Criação do conjunto de dados
- Coleção e preparação do conjunto de dados do Jeju-Standard para o novo conjunto de dados (conjunto de dados)
  - Coleta de dados como ai-hub, github, etc.
Design de lógica do modelo de tradução
- Ajuste fina como um modelo Kobart
- Entre os modelos Text2Text em coreano em coreano, Kobart é o melhor e mais rápido modelo.
- No processo de projetar lógica de duas via , entrando em [Jeju] e [Standard] Tokens em frente à frase para facilitar o entendimento do modelo (pontuação Bleu de 0,5-> 0,7, até 1 padrão)
- Devido à falta de RAM, apenas 700.000 dados foram aprendidos , mas o método do formato do conjunto de dados foi alterado de Float16 para Unit16 para resolver escassez de memória (memória da GPU, economia de recursos)

1. Introdução do projeto

?‍?‍? Membro da equipe

Vitamina 12: Líder, Lee Seo -Hyun, Lee Yerin
Vitamina 13: Kim Yun -young, Kim Jae -gyeom, Lee Hyung -seok

? período

2024 Primeiro semestre

? ️ tema

Crie o dialeto jeju e o modelo de tradução bidirecional de linguagem padrão

alvo

Gostaríamos de promover o entendimento dos dialetos de Jeju e contribuir para a preservação da cultura Jeju.
Promovemos uma comunicação suave com os cidadãos em Jeju.
Desenvolvemos um modelo de tradução de dois caminhos que conecta o dialeto jeju e o idioma padrão coreano.
Implementando reconhecimento de voz e interface do usuário.

2. Coleta de dados

Dados coletados por AI-HUB
- Dados de ignição de dialeto coreano
- Dados de dialeto coreanos e coreanos coreanos e mais antigos
Dados coletados pelo GitHub
- Kakao Jit Jeju Data da língua
Outros dados
- Dados da Província Viva (Página preliminar de Jeju Rastrear)
- Bem, Lang Harman Data (coleta de dados YouTuber, referindo -se ao vídeo de tradução das letras entre os vídeos de Langhaman)
- Dialeto jeju que sabor e dados elegantes (dados coletados do livro 'Jeju Tongue Taste and Prêmio')
- Dados mesmo que passem, mesmo que passe, coleta dados do livro 'mesmo se houver')
- 2018 Jeju Language Oral Materials Collection (coletado para avaliação)

3. Aprendizagem de modelo

3-1. Modelo relacionado

Aprendi de maneira a trazer o modelo de pré-aprendizagem e o ajuste fino .
Modelo de pré -aprendizagem usado para desenvolver modelos de tradução:
- GOGAMZA/KOBART-BASE-V2
Critérios de seleção de modelo de pré -aprendizagem
- É o modelo certo para tradução?
- É aprendido em coreano?
- A capacidade do modelo é tão grande e a velocidade de aprendizado é rápida?
Modelos que foram considerados, mas não selecionados:
- T5 (há um problema com tempo de aprendizado muito longo)
- Jebert (o desempenho não foi satisfatório)

3-2. Método de aprendizado

Metodologia de aprendizagem
- Fonte-> Aprendizagem em formato de destino
- Antes de entrar na frase, adicionando tokens [jeju] ou [padrão] para especificar a direção da tradução e do aprendizado juntos
- Usando o conjunto de dados do pacote de dados, convertendo -o em um formulário otimizado para aprendizado de modelo de idioma
Configurações principais de parâmetros
- Max_length: 64
- Batch_size: 32
- Transing_rate: a princípio, a partir de 2e-5 e o aprendizado progredindo gradualmente
- Épocas: 3

? 4. Principais realizações

Final Bleu Score -Jeju idioma Oral Data Book Standards
- Idioma jeju-> idioma padrão: 0,76
- Linguagem padrão-> idioma jeju: 0.5
Tabela de desempenho de pontuação bleu

data	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
Idioma de jeju-> pontuação de idioma padrão bleu	0,56	0,59	0,42	0,64	0,70	0,74	0,76	0,74
Linguagem padrão-> pontuação jeju bleu	0,35	0,37	0,26	0,37	0,39	0,46	0,50	0,49

No geral, registramos a pontuação Bleu .

Visualização da pontuação Bleu

Implementação da interface
Função de reconhecimento de voz
- STT
  - Receba modelos de sussurros de abraçar o rosto e prosseguir com o ajuste fino
  - Jeju Language Conversão em texto e converter em texto
- TTS
  - Receba o modelo Glos TTS, Hifigan de abraçar o rosto e prosseguir com o ajuste fino
  - Eu tentei expressar voz em jeju, mas falhei ...
  - Expressão em vez de voz de linguagem padrão (usando GTTS)

? 5. Planos futuros

Processamento preliminar por meio de coleta de dados adicionais e micro -ajuste gramático para proteger dados de qualidade
Melhoria da capacidade de reconhecer o sotaque do modelo de reconhecimento de voz
Implementação da Web e plano de desenvolvimento de aplicativos móveis

? 6. Referência

Fonte de dados
- Dados de ignição do dialeto coreano (fornecidos por AI-hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- Dados de dialeto coreano médio e mais antigo (AI-hub): https://www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- Kakao Jit Jeju Tongue Data (ver Kakaobrane Github): https://github.com/kakaobrain/jejuo
- Dados vivos do lado vivo (ver Jeju Language Preliminar): https://www.jeju.go.kr/culture/dialect/lifedialect.htm
Fonte de modelo
- KOBART Abraçando o rosto: https://huggingface.co/gogamza/kobart-base-v2
- Whisper Hugging Face: https://huggingface.co/openai/whisper-large-v2
- Kobart Github: https://github.com/skt-ai/kobart

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-23
tamanho 581.52KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos