中文(繁体)
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
網站地圖大全
最新更新
首頁
源碼下載
編程相關
建站資源
網頁設計教程
網絡編程教程
首頁
>
編程相關
>
Ai源碼
translate hokkien
Ai源碼
1.0.0
下載
翻譯霍金
該項目的目的是創建高質量的ML Hokkien翻譯。
該項目包含幫助翻譯和評估英語,霍金(POJ腳本),霍金(Tai-lo腳本)和霍金(漢字腳本)的工具。
該項目著重於文本到文本翻譯。
(霍金人也被稱為Minnan,台灣,霍克洛,南部和ISO 639-3:NAN。)
演示
嘗試最新的Hokkien翻譯模型的在線演示
更新
2023-11-07
添加了
Hokkien的模型,翻譯和評估(拉丁腳本
) - > Hokkien(漢字腳本)
*
Hokkien(拉丁文腳本)=手動翻譯/音譯的混合物。自動化的是南部 +北部方言的混合,也是太極拳和poj腳本的混合。
結果:微調GPT3.5獲得了30%的BLEU(比GPT4-Zero-shot高5倍,獲得6%)。
結果:該模型對於處理霍基尼基百科很有用,因為它是易於訪問的霍金文本的最大來源。
2023-10-31
數據管理;將基本的MoEdict轉換轉移到DBT管道。也將MOEDICT數據附加到MART_SAMPE USECASE。
2023-10-26
添加了以下內容的翻譯和評估:GPT -3.5對12,000個示例(幾乎所有Moedict樣本)進行了微調,用於普通話 - > Hokkien(漢字腳本)。
結果:
BLEU得分21
結論:
當有
1000多個
句子對時,填充的GPT3.5型號肯定比GPT4零射擊模型表現更好。
一個限制為〜10,000句子對的Finetuned GPT3.5模型的性能比GPT4零射擊高
55%
,並且比gpt3.5零射擊好了〜↑282%。
2023-10-24
添加了MoEdict數據集。它與“英語”列一起(從普通話通過GPT4翻譯)。
通過新數據計算得出的BLEU分數。
配x
發現以前的BLEU得分計算已關閉。更新的BLEU分數更新!
(數據結構:重構,使它們更容易處理。)
發現:
英語 - > Hokkien(POJ腳本) - 初始Naieve模型的BLEU分數很低(1%)
普通話 - > Hokkien(漢字腳本) - BLEU更高(7%至17%)。這大約是人們對通過BLEU得分的期望(30%)所期望的一半。
GPT-3.5零射:BLEU
7%
GPT-3.5在100個示例中進行了微調:
10%
GPT-4零射門:BLEU
13%
GPT-3.5通過1,000個示例進行了微調:
16%
(是的,一種微調的GPT3.5型號播放GPT-4零射擊)
假設:
對於Zh-> nan(TC):鑑於芬特的變化(0-> 100-> 1,000個示例= 7% - > 10% - > 16%bleu),可以預見的是,如果使用大多數Moedict數據集(〜13,201句子對),那麼Bleu得分很有可能達到可通過的水平(30%)。
2023-10-19
管理:繼續用DBT模型替換更多數據模型。
2023-10-12
管理:作為管道的一部分,將下游的“ ml_testset_evaluations_averation”表格式化為DBT模型。
2023-10-11
管理:將數據重新格式化為sqlite3,並從中初始化了一個DBT項目。
2023-10-10
參考文本
收集了Wikipedia(GFDL許可證)和Omniglot(非商業許可)的一些參考文本
清理參考文本
從Minnan Wikipedia(POJ)產生了一些參考英文翻譯。通過從GPT4翻譯中獲取“中值文本”而產生。這不一定是準確的,而是作為基礎。
候選文本
生成了一些EN→NAN翻譯(通過GPT4和GPT3.5)
評估
基於BLEU生成了幾次評估
結論和下一步
結果:這些評估的BLEU得分非常糟糕,只有umigram得分顯示任何非零結果。試圖改善這一點的事情:
一個更寬鬆的POJ令牌儀,通過音節而不是單詞來象徵。這是因為單詞分離並不總是一致的。
一個更寬鬆的POJ令牌,忽略了變音符。這是因為當前的POJ來源可能不一致。
在任何POJ轉換之前,將Hanzi用作基本腳本,用於早期翻譯模型。
將普通話中文作為中介。
考慮使用tâi-lô(作為當前存在的hanzi→tâi-lôconverter,而不是hanzi→poj One)。以及tâ-lô如何影響一些源數據。
在任何LLM提示中,請參閱“ hanzi”之類的羅馬文字,例如“hàn-jī /hàn-lī”。使用Hokkien腳本可能會使LLM略微偏向於更準確的Hokkien詞彙,語法和腳本寫作。
管道:這些都是在電子表格中生成的。將來,作為數據管道的一部分,它們應該更好地自動化。
展開
附加信息
版本
1.0.0
類型
Ai源碼
更新時間
2025-09-10
大小
13.5MB
來自於
Github
相關應用
crow translate
2024-11-12
Google Translate Previous Extension 2.0.13
2024-11-12
GitHub sgrebnov/cordova plugin background download
2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p
2024-11-01
Screen Translate中文版
2023-04-18
php線上翻譯類別(Google Translate API For PHP)
2010-10-23
爲您推薦
chat.petals.dev
其他源碼
1.0.0
GPT Prompt Templates
其他源碼
1.0.0
GPTyped
其他源碼
GPTyped 1.0.5
ML stack
Ai源碼
1.0.0
awesome free chatgpt
Ai源碼
1.0.0
pywin_contextmenu
Ai源碼
Version update
Google Dorks
其他源碼
1.0
shepherd
其他源碼
v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express
其他源碼
v1.1.0-rc-3
相關資訊
全部
如何解決《潛行者 2:切爾諾貝利之心》的卡頓問題
2024-11-23
《要塞英雄》中的 Juice WRLD 在哪裡?
2024-11-23
如何開始《星際大戰:亡命徒》中的外卡擴展
2024-11-23
北市再添一家新型研發機構完善人工智慧安全與治理佈局
2024-11-22
研討班在滬開班古特雷斯出席合作加強人工智慧能力建設中國提案在聯合國大會通過
2024-11-22
建構人工智慧框架找到最有效溶菌酶
2024-11-22
AI大模型邁入應用元年金融機構加碼建構智慧算力新生態
2024-11-22
MiniMax閔俊傑:大模型快就是好有時候慢是為了更快
2024-11-22
人工智慧進校園點亮學生科學夢
2024-11-22
人工智慧活化消費製造永康健身器材熱銷國內外市場
2024-11-22
英偉達投資Sakana AI B輪融資,協助生成式人工智慧發展
2024-11-22
AI正解鎖新的認知革命!普適讀本新科技通識課,人工智慧發展時間表:2028 年製作影片,2049年撰寫暢銷書籍…
2024-11-22