言語モデルは、以前の文に基づいて次の単語を予測するために使用される単語シーケンス上の確率分布です。この能力により、言語モデルは最新の自然言語処理のコアコンポーネントになります。音声認識、会話型AI、情報検索、センチメント分析、テキストの要約など、さまざまなタスクに使用します。
このため、多くの大企業は、Google Bert、Facebook Roberta、Openai GPT3などの大規模および大規模な言語モデルを構築するために競合しています。ほとんどの場合、彼らは英語と他のヨーロッパの言語で言語モデルのみを構築しました。リソース言語が低い他の国では、このテクノロジーレースに追いつくための大きな課題があります。
したがって、著者は、2018年にULMFITで開始されたインドネシア語の言語モデルを構築しようとします。第一言語モデルは、英語モデルのトレーニングに使用される他のデータセットと比較して非常に少ないインドネシアのウィキペディアでのみ訓練されています。
Jeremy HowardとSebastian Ruderは、2018年初頭にULMFITを、帰納的転送学習のための微調整言語モデルの新しい方法として提案しました。インドネシア語の言語モデルULMFITは、FastAIを学びながら、著者のプロジェクトの一環として訓練されています。インドネシアのウィキペディアでは、 27.67の困惑を達成しました。
Ashish Vaswani et al。紙の中で提案されたトランスフォーマーはあなたが必要とするすべてです。これは、長距離依存関係を簡単に処理しながら、シーケンスからシーケンスへのタスクを解決することを目的とした新しいアーキテクチャです。
執筆時点(2021年3月)には、企業や個々の貢献者によって構築されたBert、GPT2、Longformer、またはMT5など、50を超える種類のトランスベースの言語モデル(Huggingfaceのモデルリストに従って)がすでにあります。著者はまた、ハギングフェイストランスライブラリを使用してインドネシアの変圧器ベースのいくつかの言語モデルを構築し、ハグファースモデルハブでホストしました。