日本語
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
完全なサイトマップ
最新の更新
ホーム
ソースコード
プログラミング関連
ウェブサイト作成リソース
ウェブデザインチュートリアル
ネットワークプログラミングチュートリアル
ホーム
>
プログラミング関連
>
AI ソースコード
translate hokkien
AI ソースコード
1.0.0
ダウンロード
Hokkienを翻訳します
このプロジェクトの目標は、高品質のML Hokkien翻訳を作成することです。
このプロジェクトには、英語、Hokkien(POJスクリプト)、Hokkien(TAI-LOスクリプト)、およびHokkien(漢字スクリプト)の翻訳と評価に役立つツールが含まれています。
このプロジェクトは、テキスト間翻訳に焦点を当てています。
(Hokkienは、Minnan、Taiwanese、Hoklo、Southern Min、およびISO 639-3:nanとしても知られています。)
デモ
最新のHokkien翻訳モデルのオンラインデモを試してみてください
更新
2023-11-07
Hokkien(ラテンスクリプト
)のモデル、翻訳、評価を追加 - > Hokkien(漢字スクリプト)
*
Hokkien(ラテンスクリプト)=手動と自動化された翻訳/音訳の組み合わせ。自動化されたものは、Southern + Northern Hokkien方言の組み合わせであり、Tai-LoとPOJスクリプトの組み合わせです。
結果:微調整されたGPT3.5は30%のBLEを達成しました(GPT4-Zero-Shotよりも5倍以上6%)。
結果:このモデルは、簡単にアクセスできるHokkienテキストの最大のソースであるため、Hokkien Wikipediaの処理に役立ちます。
2023-10-31
データ管理;基本的なMOEDICT変換をDBTパイプラインに移動しました。 MART_SAMPER USECASESのMOEDICTデータも追加されました。
2023-10-26
翻訳と評価の追加:GPT -3.5は、12,000の例(MoEDICTサンプルのほぼすべて)で、Mandarin-> Hokkien(漢字スクリプト)で微調整されています。
結果:
21のブルースコア
結論:
Finetuned GPT3.5モデルは、
1000以上の
文ペアがある場合、GPT4ゼロショットモデルよりも間違いなく優れたパフォーマンスを発揮します。
〜10,000文のペアを持つFinetuned GPT3.5モデルは、GPT4 Zero-Shotよりも
〜55%
優れており、GPT3.5ゼロショットよりも〜↑282%が優れています。
2023-10-24
MoEDICTデータセットを追加しました。 「英語」コラム(GPT4経由のマンダリンから翻訳)とともに。
新しいデータを使用してBLEUスコアを計算しました。
ショ和
発見された以前のブルースコアの計算はオフでした。修正されたBLEUスコアで更新します!
(データ構造:リファクタリングして、対処しやすいです。)
調査結果:
英語 - > Hokkien(POJスクリプト) - 初期NaieveモデルのBLEUスコアが非常に低い(1%)
マンダリン - > hokkien(漢字スクリプト) - はるかに高いブルー(7%から17%)があります。これは、通過可能なBLEUスコア(30%)に期待されるものの約半分です。
GPT-3.5ゼロショット:BLEU
7%
GPT-3.5 100の例で微調整された例:
10%
GPT-4ゼロショット:BLEU
13%
GPT-3.5 1,000の例で微調整された例:
16%
(うん、微調整されたGPT3.5モデルはGPT-4ゼロショットをサーパーゼ)
仮説:
Zh-> nan(TC)の場合:Finetuning(0-> 100-> 1,000の例= 7% - > 10% - > 16%BLEU)の大きさの変化を考えると、MOEDICTデータセットのほとんどが使用される場合(〜13,201文のペア)、BLUスコアが可能性がある(30%)。
2023-10-19
管理:より多くのデータモデルをDBTモデルに置き換え続けています。
2023-10-12
管理:パイプラインの一部として、DBTモデルとして下流の「ML_TESTSET_EVALUATIONS_AVERAGE」テーブルをフォーマットしました。
2023-10-11
管理:データをSQLite3として再フォーマットし、DBTプロジェクトを初期化しました。
2023-10-10
参照テキスト
Wikipedia(GFDLライセンス)とOmniglot(非営利ライセンス)からいくつかの参照テキストを収集しました
参照テキストをクリーンアップしました
Minnan Wikipedia(POJ)からいくつかの参照英語翻訳を生成しました。 GPT4翻訳から「中央値テキスト」を取得することによって生成されます。これは必ずしも正確ではありませんが、基礎として機能します。
候補テキスト
いくつかのEN→NAN翻訳を生成しました(GPT4およびGPT3.5を介して)
評価
BLEUに基づいていくつかの評価を生成しました
結論と次のステップ
結果:これらの評価のBLEUスコアは非常に悪く、ゼロ以外の結果を示すUnigramスコアのみがあります。これを改善しようとすること:
単語ではなく音節でトークン化するより寛大なPOJトークネイザー。これは、単語分離が常に一貫しているとは限らないためです。
ディクリチックを無視する、より寛大なPOJトークネイザー。これは、現在のPOJソースが一貫性がない可能性があるためです。
早期翻訳モデルのために、POJ変換の前にhanziを基本スクリプトとして使用します。
中国語を仲介者として使用します。
Tâi-lôの使用を検討してください(Hanzi→Tâi-Lôコンバーターが現在存在するが、Hanzi→POJのものではない)。そして、Tâi-lôがいくつかのソースデータにどのように影響するか。
「ハンジ」のようなロマン化された言葉を、あらゆるLLMプロンプトの「hàn-jī /hàn-lī」として参照してください。 Hokkienスクリプトを使用すると、LLMをより正確なHokkienの語彙、文法、およびスクリプト作成に向けてわずかにバイアスする場合があります。
パイプライン:これらはすべてスプレッドシートで生成されました。将来的には、データパイプラインの一部としてより自動化する必要があります。
拡大する
追加情報
バージョン
1.0.0
タイプ
AI ソースコード
更新時間
2025-09-10
サイズ
13.5MB
から
Github
関連アプリ
crow translate
2024-11-12
Google Translate Previous Extension 2.0.13
2024-11-12
GitHub sgrebnov/cordova plugin background download
2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p
2024-11-01
中国語版の画面翻訳
2023-04-18
PHPオンライン翻訳クラス(Google Translate API For PHP)
2010-10-23
おすすめ
chat.petals.dev
その他のソースコード
1.0.0
GPT Prompt Templates
その他のソースコード
1.0.0
GPTyped
その他のソースコード
GPTyped 1.0.5
ML stack
AI ソースコード
1.0.0
awesome free chatgpt
AI ソースコード
1.0.0
pywin_contextmenu
AI ソースコード
Version update
Google Dorks
その他のソースコード
1.0
shepherd
その他のソースコード
v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express
その他のソースコード
v1.1.0-rc-3
関連情報
すべて
Stalker 2: Heart of Chornobyl のスタッターを修正する方法
2024-11-23
フォートナイトのジュースワールドはどこにありますか?
2024-11-23
Star Wars Outlaws でワイルドカード拡張を開始する方法
2024-11-23
北京、人工知能のセキュリティとガバナンスのレイアウトを改善するための新しい研究開発機関を追加
2024-11-22
上海でセミナーが開かれ、グテーレス首相も出席、人工知能の能力構築強化に協力するという中国の提案が国連総会で採択
2024-11-22
最も効果的なリゾチームを見つけるための人工知能フレームワークを構築する
2024-11-22
AI の大規模モデルは適用初年度に入り、金融機関はインテリジェントなコンピューティング能力の新しいエコシステムを構築する取り組みを強化しています。
2024-11-22
MiniMax Yan Junjie: 大きいモデルには高速が適していますが、より速くするために低速が必要な場合もあります。
2024-11-22
人工知能がキャンパスに登場し、学生の科学的夢を輝かせる
2024-11-22
人工知能により消費者向け製造業が活性化され、永康フィットネス機器は国内外の市場でよく売れています
2024-11-22
Nvidia、生成人工知能の開発を支援するため、Sakana AI のシリーズ B 資金調達に投資
2024-11-22
AI は新たな認知革命を解き放ちます。新しい科学技術一般コースの普遍的な読み物、人工知能開発スケジュール: 2028 年にビデオを作成、2049 年にベストセラーの本を執筆...
2024-11-22