indonesian language models
1.0.0
語言模型是用於根據先前句子預測下一個單詞的單詞序列的概率分佈。這種能力使語言模型成為現代自然語言處理的核心組成部分。我們將其用於許多不同的任務,例如語音識別,對話AI,信息檢索,情感分析或文本摘要。
因此,許多大公司正在競爭建立大型語言模型,例如Google Bert,Facebook Roberta或OpenAI GPT3,其參數數量大量。在大多數情況下,他們僅用英語和其他歐洲語言構建語言模型。其他資源語言低的國家遇到了巨大的挑戰,可以趕上這項技術競賽。
因此,作者試圖為印尼語建立一些語言模型,始於2018年ULMFIT。第一語言模型僅接受了印度尼西亞Wikipedia的培訓,與培訓英語模型的其他數據集相比,它非常小。
傑里米·霍華德(Jeremy Howard)和塞巴斯蒂安(Sebastian Ruder)在2018年初提出了烏爾姆菲特(Ulmfit),作為一種用於歸納轉移學習的微調語言模型的新方法。在學習Fastai時,對印尼語的語言模型Ulmfit作為作者項目的一部分進行了培訓。它在印尼維基百科上達到了27.67的困惑。
Ashish Vaswani等。您需要的全部需要的是紙上的提議。這是一種新穎的體系結構,旨在在輕鬆處理遠程依賴時解決序列到序列任務。
在撰寫本文時(2021年3月),已經有50多種不同類型的基於變壓器的語言模型(根據HuggingFace的模型列表),例如由公司和個人貢獻者構建的BERT,GPT2,Longformer或MT5。作者還使用HuggingFace Transformers庫構建了幾種基於印尼變壓器的語言模型,並將其託管在HuggingFaces模型中心中。