indonesian language models
1.0.0
语言模型是用于根据先前句子预测下一个单词的单词序列的概率分布。这种能力使语言模型成为现代自然语言处理的核心组成部分。我们将其用于许多不同的任务,例如语音识别,对话AI,信息检索,情感分析或文本摘要。
因此,许多大公司正在竞争建立大型语言模型,例如Google Bert,Facebook Roberta或OpenAI GPT3,其参数数量大量。在大多数情况下,他们仅用英语和其他欧洲语言构建语言模型。其他资源语言低的国家遇到了巨大的挑战,可以赶上这项技术竞赛。
因此,作者试图为印尼语建立一些语言模型,始于2018年ULMFIT。第一语言模型仅接受了印度尼西亚Wikipedia的培训,与培训英语模型的其他数据集相比,它非常小。
杰里米·霍华德(Jeremy Howard)和塞巴斯蒂安(Sebastian Ruder)在2018年初提出了乌尔姆菲特(Ulmfit),作为一种用于归纳转移学习的微调语言模型的新方法。在学习Fastai时,对印尼语的语言模型Ulmfit作为作者项目的一部分进行了培训。它在印尼维基百科上达到了27.67的困惑。
Ashish Vaswani等。您需要的全部需要的是纸上的提议。这是一种新颖的体系结构,旨在在轻松处理远程依赖时解决序列到序列任务。
在撰写本文时(2021年3月),已经有50多种不同类型的基于变压器的语言模型(根据HuggingFace的模型列表),例如由公司和个人贡献者构建的BERT,GPT2,Longformer或MT5。作者还使用HuggingFace Transformers库构建了几种基于印尼变压器的语言模型,并将其托管在HuggingFaces模型中心中。