中文(简体)
中文(简体)
中文(繁体)
한국어
日本語
English
Português
Español
Русский
العربية
Indonesia
Deutsch
Français
ภาษาไทย
网站地图大全
最新更新
首页
源码下载
编程相关
建站资源
网页设计教程
网络编程教程
首页
>
编程相关
>
Ai源码
translate hokkien
Ai源码
1.0.0
下载
翻译霍金
该项目的目的是创建高质量的ML Hokkien翻译。
该项目包含帮助翻译和评估英语,霍金(POJ脚本),霍金(Tai-lo脚本)和霍金(汉字脚本)的工具。
该项目着重于文本到文本翻译。
(霍金人也被称为Minnan,台湾,霍克洛,南部和ISO 639-3:NAN。)
演示
尝试最新的Hokkien翻译模型的在线演示
更新
2023-11-07
添加了
Hokkien的模型,翻译和评估(拉丁脚本
) - > Hokkien(汉字脚本)
*
Hokkien(拉丁文脚本)=手动翻译/音译的混合物。自动化的是南部 +北部方言的混合,也是太极拳和poj脚本的混合。
结果:微调GPT3.5获得了30%的BLEU(比GPT4-Zero-shot高5倍,获得6%)。
结果:该模型对于处理霍基尼基百科很有用,因为它是易于访问的霍金文本的最大来源。
2023-10-31
数据管理;将基本的MoEdict转换转移到DBT管道。也将MOEDICT数据附加到MART_SAMPE USECASE。
2023-10-26
添加了以下内容的翻译和评估:GPT -3.5对12,000个示例(几乎所有Moedict样本)进行了微调,用于普通话 - > Hokkien(汉字脚本)。
结果:
BLEU得分21
结论:
当有
1000多个
句子对时,填充的GPT3.5型号肯定比GPT4零射击模型表现更好。
一个限制为〜10,000句子对的Finetuned GPT3.5模型的性能比GPT4零射击高
55%
,并且比gpt3.5零射击好了〜↑282%。
2023-10-24
添加了MoEdict数据集。它与“英语”列一起(从普通话通过GPT4翻译)。
通过新数据计算得出的BLEU分数。
配x
发现以前的BLEU得分计算已关闭。更新的BLEU分数更新!
(数据结构:重构,使它们更容易处理。)
发现:
英语 - > Hokkien(POJ脚本) - 初始Naieve模型的BLEU分数很低(1%)
普通话 - > Hokkien(汉字脚本) - BLEU更高(7%至17%)。这大约是人们对通过BLEU得分的期望(30%)所期望的一半。
GPT-3.5零射:BLEU
7%
GPT-3.5在100个示例中进行了微调:
10%
GPT-4零射门:BLEU
13%
GPT-3.5通过1,000个示例进行了微调:
16%
(是的,一种微调的GPT3.5型号播放GPT-4零射击)
假设:
对于Zh-> nan(TC):鉴于芬特的变化(0-> 100-> 1,000个示例= 7% - > 10% - > 16%bleu),可以预见的是,如果使用大多数Moedict数据集(〜13,201句子对),那么Bleu得分很有可能达到可通过的水平(30%)。
2023-10-19
管理:继续用DBT模型替换更多数据模型。
2023-10-12
管理:作为管道的一部分,将下游的“ ml_testset_evaluations_averation”表格式化为DBT模型。
2023-10-11
管理:将数据重新格式化为sqlite3,并从中初始化了一个DBT项目。
2023-10-10
参考文本
收集了Wikipedia(GFDL许可证)和Omniglot(非商业许可)的一些参考文本
清理参考文本
从Minnan Wikipedia(POJ)产生了一些参考英文翻译。通过从GPT4翻译中获取“中值文本”而产生。这不一定是准确的,而是作为基础。
候选文本
生成了一些EN→NAN翻译(通过GPT4和GPT3.5)
评估
基于BLEU生成了几次评估
结论和下一步
结果:这些评估的BLEU得分非常糟糕,只有umigram得分显示任何非零结果。试图改善这一点的事情:
一个更宽松的POJ令牌仪,通过音节而不是单词来象征。这是因为单词分离并不总是一致的。
一个更宽松的POJ令牌,忽略了变音符。这是因为当前的POJ来源可能不一致。
在任何POJ转换之前,将Hanzi用作基本脚本,用于早期翻译模型。
将普通话中文作为中介。
考虑使用tâi-lô(作为当前存在的hanzi→tâi-lôconverter,而不是hanzi→poj One)。以及tâ-lô如何影响一些源数据。
在任何LLM提示中,请参阅“ hanzi”之类的罗马文字,例如“hàn-jī /hàn-lī”。使用Hokkien脚本可能会使LLM略微偏向于更准确的Hokkien词汇,语法和脚本写作。
管道:这些都是在电子表格中生成的。将来,作为数据管道的一部分,它们应该更好地自动化。
展开
附加信息
版本
1.0.0
类型
Ai源码
更新时间
2025-09-10
大小
13.5MB
来自于
Github
相关应用
crow translate
2024-11-12
Google Translate Previous Extension 2.0.13
2024-11-12
GitHub sgrebnov/cordova plugin background download
2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p
2024-11-01
Screen Translate中文版
2023-04-18
php在线翻译类(Google Translate API For PHP)
2010-10-23
为您推荐
chat.petals.dev
其他源码
1.0.0
GPT Prompt Templates
其他源码
1.0.0
GPTyped
其他源码
GPTyped 1.0.5
ML stack
Ai源码
1.0.0
awesome free chatgpt
Ai源码
1.0.0
pywin_contextmenu
Ai源码
Version update
Google Dorks
其他源码
1.0
shepherd
其他源码
v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express
其他源码
v1.1.0-rc-3
相关资讯
全部
如何解决《潜行者 2:切尔诺贝利之心》中的卡顿问题
2024-11-23
《堡垒之夜》中的 Juice WRLD 在哪里?
2024-11-23
如何开始《星球大战:亡命徒》中的外卡扩展
2024-11-23
北京市再添一家新型研发机构 完善人工智能安全与治理布局
2024-11-22
研讨班在沪开班 古特雷斯出席 合作加强人工智能能力建设 中国提议在联合国大会通过
2024-11-22
构建人工智能框架 找到最有效溶菌酶
2024-11-22
AI大模型迈入应用元年 金融机构加码构建智能算力新生态
2024-11-22
MiniMax闫俊杰:大模型快就是好 可有时候慢是为了更快
2024-11-22
人工智能进校园 点亮学生科学梦
2024-11-22
人工智能激活消费制造 永康健身器械热销国内外市场
2024-11-22
英伟达投资Sakana AI B轮融资,助力生成式人工智能发展
2024-11-22
AI正解锁新的认知革命!普适读本新科技通识课,人工智能发展时间表:2028 年制作影片,2049年撰写畅销书籍……
2024-11-22