Jeju Translation下載Jeju Translation源代碼下載

Jeju Translation

Ai源碼

1.0.0

下載

？濟州語語言，標準語言兩條通道語音翻譯模型創建項目

模型使用

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

？我的角色

數據集創建
- Jeju-標準數據集收集和準備新數據集（數據集）
  - 數據收集，例如AI-HUB，GITHUB，等。
翻譯模型邏輯設計
- 微調作為Kobart模型
- 在韓國韓語的Text2Text模型中， Kobart是最好，最快的模型。
- 在設計兩個邏輯的過程中，在句子前進入[Jeju]和[標準]令牌，以使模型易於理解（BLEU得分為0.5-> 0.7，最高1個標準）
- 由於缺乏RAM，僅學習了700,000個數據，但是數據集格式方法已從Float16更改為unit16來解決內存短缺（GPU內存，資源節省）

1。介紹項目

？ ‍？隊員

維生素12：Lee Seo -Hyun，Lee Yerin領導者
維生素13：Kim Yun -Young，Kim Jae -Gyeom，Lee Hyung -Seok

？時期

2024第一學期

？配x主題

創建濟期方言和標準語言雙向翻譯模型

目標

我們想促進對濟州外方言的理解，並為濟州文文化的保存做出貢獻。
我們促進與濟州公民的平穩溝通。
我們開發了一個兩條通道的模型，該模型將濟會方言和韓國標準語言連接起來。
實施語音識別和用戶界面。

2。數據收集

通過AI-HUB收集的數據
- 韓國方言點火數據
- 韓語和舊韓國方言數據
GitHub收集的數據
- kakao jit jeju舌頭數據
其他數據
- 生活省數據（Jeju初步網頁爬行）
- 好吧，Lang Harman數據（通過參考Langhaman視頻中的歌詞翻譯視頻來收集數據）
- Jeju方言的口味和時尚數據（從書中收集的數據是“ Jeju舌頭的味道和獎品”）
- 即使數據已經過去，即使它通過了，它也會從“即使已經消失”中收集數據）
- 2018 Jeju語言口頭材料收集（收集供評估）

3。模型學習

3-1。相關模型

我以某種方式學習了學習預學模型和微調。
用於開發翻譯模型的預學習模型：
- Gogamza/Kobart-Base-V2
- 學習模型選擇標準
- 它是翻譯的正確模型嗎？
- 它是在韓語中學到的嗎？
- 模型容量是否如此之大，學習速度很快？
已被考慮但未選擇的模型：
- T5（學習時間太長存在問題）
- 傑伯特（表現不滿意）

3-2。學習方法

學習方法
- 來源 - >目標格式學習
- 在輸入句子之前，添加[jeju]或[標準]令牌以指定翻譯和學習的方向
- 使用數據集軟件包的數據集，將其轉換為語言模型學習的優化表單
主要參數設置
- max_length：64
- batch_size：32
- Transing_rate：首先，從2E-5開始，學習進展逐漸減少
- 時代：3

？ 4。主要成就

最終BLEU分數-Jeju語言口頭數據簿數據標準
- 濟州語語言 - >標準語言：0.76
- 標準語言 - >智豪語言：0.5
BLEU得分錶現表

日期	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
濟州語語言 - >標準語言bleu得分	0.56	0.59	0.42	0.64	0.70	0.74	0.76	0.74
標準語言 - > jeju bleu得分	0.35	0.37	0.26	0.37	0.39	0.46	0.50	0.49

總體而言，我們記錄了BLEU得分。

BLEU評分可視化

接口實現
語音識別功能
- stt
  - 從擁抱臉上收到耳語模型，然後進行微調
  - 濟州語的語言轉換為文字並轉換為文本
- TTS
  - 從擁抱臉部接收GLOS TT，Hifigan模型，然後進行微調
  - 我試圖在濟州島表達聲音，但失敗了...
  - 表達而不是標準語言語音（使用GTTS）

？ 5。未來計劃

通過其他數據收集和語法微調調整以確保質量數據的初步處理
改善語音識別模型重音的能力
Web實施和移動應用程序開發計劃

？ 6。參考

數據源
- 韓國方言點火數據（由AI-HUB提供）：https：//www.aihub.or.kr/aihubdata/data/data/view.do?curmenu=115&topmenu
- 中間和舊韓國方言數據（AI-HUB）：https：//www.aihub.or.kr/aihubdata/data/data/view.do?curmenu=115&topmenu
- kakao jit jeju舌數據（請參閱kakaobrane github）：https：//github.com/kakaobrain/jejuo
- 生活方面的數據（請參閱Jeju語言初步）：https：//www.jeju.go.kr/culture/dialect/lifedialect.htm
模型源
- Kobart擁抱臉：https：//huggingface.co/gogamza/kobart-base-v2
- 耳語擁抱臉：https：//huggingface.co/openai/whisper-large-v2
- Kobart Github：https：//github.com/skt-ai/kobart

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-08-23
大小 581.52KB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部