translate hokkien下載 - translate hokkien源代碼下載

下載

翻譯霍金

添加了Hokkien的模型，翻譯和評估（拉丁腳本） - > Hokkien（漢字腳本） *
- - Hokkien（拉丁文腳本）=手動翻譯/音譯的混合物。自動化的是南部 +北部方言的混合，也是太極拳和poj腳本的混合。
- 結果：微調GPT3.5獲得了30％的BLEU（比GPT4-Zero-shot高5倍，獲得6％）。
- 結果：該模型對於處理霍基尼基百科很有用，因為它是易於訪問的霍金文本的最大來源。

添加了以下內容的翻譯和評估：GPT -3.5對12,000個示例（幾乎所有Moedict樣本）進行了微調，用於普通話 - > Hokkien（漢字腳本）。
結果： BLEU得分21
結論：
- 當有1000多個句子對時，填充的GPT3.5型號肯定比GPT4零射擊模型表現更好。
- 一個限制為〜10,000句子對的Finetuned GPT3.5模型的性能比GPT4零射擊高55％ ，並且比gpt3.5零射擊好了〜↑282％。

添加了MoEdict數據集。它與“英語”列一起（從普通話通過GPT4翻譯）。
通過新數據計算得出的BLEU分數。
配x發現以前的BLEU得分計算已關閉。更新的BLEU分數更新！
（數據結構：重構，使它們更容易處理。）
發現：
- 英語 - > Hokkien（POJ腳本） - 初始Naieve模型的BLEU分數很低（1％）
- 普通話 - > Hokkien（漢字腳本） - BLEU更高（7％至17％）。這大約是人們對通過BLEU得分的期望（30％）所期望的一半。
  - GPT-3.5零射：BLEU 7％
  - GPT-3.5在100個示例中進行了微調： 10％
  - GPT-4零射門：BLEU 13％
  - GPT-3.5通過1,000個示例進行了微調： 16％
    - （是的，一種微調的GPT3.5型號播放GPT-4零射擊）
假設：
- 對於Zh-> nan（TC）：鑑於芬特的變化（0-> 100-> 1,000個示例= 7％ - > 10％ - > 16％bleu），可以預見的是，如果使用大多數Moedict數據集（〜13,201句子對），那麼Bleu得分很有可能達到可通過的水平（30％）。

參考文本
- 收集了Wikipedia（GFDL許可證）和Omniglot（非商業許可）的一些參考文本
- 清理參考文本
- 從Minnan Wikipedia（POJ）產生了一些參考英文翻譯。通過從GPT4翻譯中獲取“中值文本”而產生。這不一定是準確的，而是作為基礎。
候選文本
- 生成了一些EN→NAN翻譯（通過GPT4和GPT3.5）
評估
- 基於BLEU生成了幾次評估
結論和下一步
- 結果：這些評估的BLEU得分非常糟糕，只有umigram得分顯示任何非零結果。試圖改善這一點的事情：
  - 一個更寬鬆的POJ令牌儀，通過音節而不是單詞來象徵。這是因為單詞分離並不總是一致的。
  - 一個更寬鬆的POJ令牌，忽略了變音符。這是因為當前的POJ來源可能不一致。
  - 在任何POJ轉換之前，將Hanzi用作基本腳本，用於早期翻譯模型。
  - 將普通話中文作為中介。
  - 考慮使用tâi-lô（作為當前存在的hanzi→tâi-lôconverter，而不是hanzi→poj One）。以及tâ-lô如何影響一些源數據。
  - 在任何LLM提示中，請參閱“ hanzi”之類的羅馬文字，例如“hàn-jī /hàn-lī”。使用Hokkien腳本可能會使LLM略微偏向於更準確的Hokkien詞彙，語法和腳本寫作。
- 管道：這些都是在電子表格中生成的。將來，作為數據管道的一部分，它們應該更好地自動化。