Jeju Translationダウンロード - Jeju Translationソースコードのダウンロード

Jeju Translation

AI ソースコード

1.0.0

ダウンロード

？済州言語、標準言語2ウェイ音声翻訳モデル作成プロジェクト

モデルの使用

 import torch
from transformers import AutoTokenizer , AutoModelForSeq2SeqLM
  
## Set up the device (GPU or CPU)
device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

## Load the tokenizer and model
tokenizer = AutoTokenizer . from_pretrained ( "Junhoee/Kobart-Jeju-translation" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Junhoee/Kobart-Jeju-translation" ). to ( device )

## Set up the input text
## 문장 입력 전에 방향에 맞게 [제주] or [표준] 토큰을 입력 후 문장 입력
input_text = "[표준] 안녕하세요"

## Tokenize the input text
input_ids = tokenizer ( input_text , return_tensors = "pt" , padding = True , truncation = True ). input_ids . to ( device )

## Generate the translation
outputs = model . generate ( input_ids , max_length = 64 )

## Decode and print the output
decoded_output = tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True )
print ( "Model Output:" , decoded_output )

 Model Output : 안녕하수꽈

？私の役割

データセット作成
- 経済標準のデータセットコレクションと新しいデータセットの準備（データセット）
  - AIハブ、GitHubなどのデータ収集
翻訳モデルロジック設計
- Kobartモデルとしての微調整
- 韓国語の韓国語のText2Textモデルの中で、 Kobartは最高で最速のモデルです。
- 2つのウェイロジックを設計する過程で、[jeju]と[標準]トークンの文の前にトークンを入力して、モデルを理解しやすくします（Bleuスコア0.5-> 0.7、最大1標準）
- RAMが不足しているため、700,000のデータしか学習されませんでしたが、メモリ不足（GPUメモリ、リソースの保存）を解決するために、データセット形式の方法がFloat16からUnit16に変更されました。

1。プロジェクトの導入

？‍？??チームメンバー

ビタミン12：リーダー、リー・ソ - ヒョン、リー・イェリン
ビタミン13：キム・ユン-Young、Kim Jae -Gyeom、Lee Hyung -Seok

？期間

2024最初の学期

？ §テーマ

済州方言と標準的な言語の双方向翻訳モデルを作成します

ターゲット

済州方言の理解を促進し、済州文化の保存に貢献したいと思います。
済州の市民とのスムーズなコミュニケーションを促進します。
済州方言と韓国の標準言語をつなぐ2つの方向の翻訳モデルを開発します。
音声認識とユーザーインターフェイスの実装。

2。データ収集

AIハブによって収集されたデータ
- 韓国方言点火データ
- 韓国および古い韓国方言データ
Githubによって収集されたデータ
- kakao jit jeju舌データ
その他のデータ
- 生きている州のデータ（済州の予備的なWebページクローリング）
- さて、Lang Harman Data（Langhamanビデオの中で歌詞翻訳ビデオを参照することによるYouTuberデータコレクション）
- 済州方言は、味とスタイリッシュなデータ（済州の舌の味と賞品」から収集されたデータ）のデータ）
- データが消えたとしても、たとえ通過しても、「それがなくなっても」という本からデータを収集します）
- 2018 jeju言語口頭材料コレクション（評価のために収集）

3。モデル学習

3-1。モデル関連

私は、学習前モデルと微調整をもたらす方法で学びました。
翻訳モデルの開発に使用されるプレレリーニングモデル：
- Gogamza/Kobart-Base-V2
事前学習モデルの選択基準
- 翻訳に適したモデルですか？
- それは韓国語で学びましたか？
- モデル容量はとても大きく、学習速度は高速ですか？
考慮されたが選択されていないモデル：
- T5（学習時間が長すぎるという問題があります）
- ジェバート（パフォーマンスは満足のいくものではありませんでした）

3-2。学習方法

学習方法論
- ソース - >ターゲット形式の学習
- 文を入力する前に、[jeju]または[標準]トークンを追加して、翻訳と学習の方向を一緒に指定します
- データセットパッケージのデータセットを使用して、言語モデル学習のために最適化されたフォームに変換します
主なパラメーター設定
- max_length：64
- batch_size：32
- Transing_rate：最初は2E-5から始まり、学習が徐々に減少しました
- エポック：3

？ 4。主な成果

最終的なブルースコア-Jeju言語口頭データ帳データ基準
- 済州言語 - >標準言語：0.76
- 標準言語 - >済州言語：0.5
ブルースコアパフォーマンステーブル

日付	04-13	05-03	05-06	05-13	05-21	05-24	05-26	05-30
済州言語 - >標準言語BLEUスコア	0.56	0.59	0.42	0.64	0.70	0.74	0.76	0.74
標準言語 - > jeju bleuスコア	0.35	0.37	0.26	0.37	0.39	0.46	0.50	0.49

全体として、 BLEUスコアを記録しました。

BLEUスコアの視覚化

インターフェイスの実装
音声認識関数
- stt
  - 顔を抱きしめることからささやきモデルを受け取り、微調整を進めます
  - 済州言語テキストへの変換とテキストへの変換
- TTS
  - グロスTTS、Hugging FaceからHifiganモデルを受け取り、微調整を進めます
  - 済州で声を表現しようとしましたが、失敗しました...
  - 標準言語音声の代わりに式（GTTを使用）

？ 5。将来の計画

追加のデータ収集と文法マイクロ調整による予備処理品質データを保護する
音声認識モデルのアクセントを認識する能力の改善
Web実装およびモバイルアプリ開発計画

？ 6。リファレンス

データソース
- 韓国方言イグニッションデータ（AI-Hubが提供）：https：//www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- 中および古い韓国方言データ（AI-HUB）：https：//www.aihub.or.kr/aihubdata/data/view.do?curmenu=115&topmenu
- kakao jit jeju tongue Data（Kakaobrane githubを参照）：https：//github.com/kakaobrain/jejuo
- リビングリビングサイドデータ（jeju言語予備的予備を参照）：https：//www.jeju.go.kr/culture/dialect/lifedialect.htm
モデルソース
- Kobart Hugging Face：https：//huggingface.co/gogamza/kobart-base-v2
- ささやきの顔：https：//huggingface.co/openai/whisper-large-v2
- Kobart Github：https：//github.com/skt-ai/kobart

拡大する

追加情報