Das Sprachmodell ist eine Wahrscheinlichkeitsverteilung über Wortsequenzen, die zur Vorhersage des nächsten Wortes basierend auf früheren Sätzen verwendet werden. Diese Fähigkeit macht das Sprachmodell zur Kernkomponente der modernen Verarbeitung natürlicher Sprache. Wir verwenden es für viele verschiedene Aufgaben wie Spracherkennung, Konversations -KI, Informationsabruf, Stimmungsanalyse oder Textübersicht.
Aus diesem Grund konkurrieren viele große Unternehmen um den Aufbau großer und größerer Sprachmodelle wie Google Bert, Facebook Roberta oder OpenAI GPT3 mit seiner massiven Anzahl von Parametern. Meistens bauten sie nur Sprachmodelle in Englisch und einigen anderen europäischen Sprachen auf. Andere Länder mit geringen Ressourcensprachen haben große Herausforderungen, um dieses Technologierennen nachzuholen.
Daher versucht der Autor, einige Sprachmodelle für Indonesisch zu erstellen, begann 2018 mit Ulmfit. Das Erster Sprachmodell wurde nur mit indonesischer Wikipedia ausgebildet, was im Vergleich zu anderen Datensätzen, die zum Ausbilden des englischen Sprachmodells verwendet wurden, sehr gering ist.
Jeremy Howard und Sebastian Ruder schlugen Ulmfit Anfang 2018 als neuartige Methode für feinstimmende Sprachmodelle für induktives Transferlernen vor. Das Sprachmodell Ulmfit für Indonesian wurde im Rahmen des Projekts des Autors beim Lernen von Fastai geschult. Es erreichte eine Verwirrung von 27,67 auf indonesischer Wikipedia.
Ashish Vaswani et al. Der vorgeschlagene Transfomer in der Aufmerksamkeit des Papiers ist alles, was Sie brauchen. Es ist eine neuartige Architektur, die darauf abzielt, Sequenz-zu-Sequenz-Aufgaben zu lösen und gleichzeitig die Abhängigkeiten mit Langstrecken mit Leichtigkeit zu bewältigen.
Zum Zeitpunkt des Schreibens (März 2021) gibt es bereits mehr als 50 verschiedene Arten von transformatorbasierten Sprachmodellen (gemäß der Modellliste bei Huggingface), wie Bert, GPT2, Longformer oder MT5, die von Unternehmen und individuellen Mitwirkenden erstellt wurden. Der Autor erstellte auch mehrere indonesische transformator-basierte Sprachmodelle mithilfe von Huggingface-Transformatoren-Bibliothek und hostete sie im Hubfaces-Modell der Huggingfaces.