Umarmtes Gesicht | Preprint | Papier | Demo

Großsprachenmodelle (LLMs) haben eine signifikant fortgeschrittene Verarbeitung natürlicher Sprache, aber ihr Fortschritt muss in allen Sprachen noch nicht gleich sind. Während die meisten LLMs in hochressourcen-Sprachen wie Englisch trainiert werden, verfolgen mehrsprachige Modelle im Allgemeinen einmonolinguelle. Darüber hinaus beschränken Aspekte ihrer mehrsprachigen Grundlage manchmal die von ihnen erzeugten Nebenprodukte wie Rechenanforderungen und Lizenzregime. In dieser Studie dokumentieren wir die Entwicklung von offenen Fundierungsmodellen, die auf Einstellungen mit niedrigem Ressourcen, ihre Einschränkungen und deren Vorteile zugeschnitten sind. Dies ist das Teenytinyllama -Paar: zwei kompakte Modelle für die brasilianische portugiesische Textgenerierung. Wir veröffentlichen sie unter der zulässigen Apache 2.0 -Lizenz für GitHub und umarmen Gesicht für die Nutzung der Gemeinschaft und die weitere Entwicklung.
Die primäre Verwendung von Teenytinyllama besteht darin, die Herausforderungen im Zusammenhang mit der Entwicklung von Sprachmodellen für Sprachen mit niedrigem Ressourcen zu erforschen. Während des Trainings gespeicherte Kontrollpunkte sollen eine kontrollierte Einstellung für die Durchführung wissenschaftlicher Experimente bereitstellen. Sie können Teenytinyllama auch feinstimmen und an die Bereitstellung anpassen, solange Ihre Verwendung der Apache 2.0-Lizenz folgt. Wenn Sie sich entscheiden, vorgebliebenes Teenytinyllama als Grundlage für Ihr feinstimmiges Modell zu verwenden, führen Sie bitte Ihr eigenes Risiko und Ihre Voreingenommenheit durch.
Teenytinyllama ist nicht für den Einsatz gedacht. Es ist kein Produkt und sollte nicht für Interaktionen durch Menschen ausgerichtet werden.
Teenytinyllama -Modelle sind nur die brasilianische portugiesische Sprache und sind nicht für die Übersetzung oder das Generieren von Text in anderen Sprachen geeignet.
Teenytinyllama wurde für nachgeschaltete Kontexte, in denen Sprachmodelle häufig eingesetzt werden, nicht gut abgestimmt.
Wie fast alle anderen Sprachmodelle, die auf großen Textdatensätzen trainiert wurden, die aus dem Web gekratzt sind, zeigte das TTL-Paar Verhalten, das sie nicht zu einer außergewöhnlichen Lösung für viele reale Anwendungen macht, insbesondere für diejenigen, die eine sachliche, zuverlässige, ungiftige Textgenerierung benötigen. Unsere Modelle unterliegen den folgenden:
Halluzinationen: Dieses Modell kann Inhalte erzeugen, die mit der Wahrheit verwechselt werden können, aber tatsächlich irreführend oder völlig falsch, dh Halluzination.
Verzerrungen und Toxizität: Dieses Modell erbt die sozialen und historischen Stereotypen von den Daten, die zum Training verwendet wurden. Angesichts dieser Vorurteile kann das Modell giftigen Gehalt, dh schädlich, beleidigend oder schädlich für Einzelpersonen, Gruppen oder Gemeinschaften erzeugen.
Unzuverlässiger Code: Das Modell kann falsche Code -Snippets und Anweisungen erzeugen. Diese Code -Generationen sollten nicht als Vorschläge oder genaue Lösungen behandelt werden.
Sprachbeschränkungen: Das Modell ist hauptsächlich so konzipiert, dass die brasilianischen Standard -Portugiesisch Standard verstehen. Andere Sprachen könnten ihr Verständnis in Frage stellen und zu möglichen Fehlinterpretationen oder Reaktionsfehlern führen.
Wiederholung und Ausführlichkeit: Das Modell kann auf Wiederholungsschleifen hängen bleiben (insbesondere wenn die Wiederholungsstrafe während der Generationen auf einen mageren Wert eingestellt ist) oder ausführliche Antworten zu erzeugen, die nicht mit der Aufforderung zu tun haben, die es gegeben wurde.
Obwohl unsere Modelle mit einer zulässigen Lizenz veröffentlicht werden, fordern wir die Benutzer auf, ihre Risikoanalyse für diese Modelle durchzuführen, wenn sie beabsichtigt, sie für reale Anwendungen zu verwenden, und dass Menschen auch die Ausgaben dieser Modelle in Anwendungen moderieren, bei denen sie mit einem Publikum interagieren, die Benutzer immer bewusst sind, dass sie mit einem Sprachmodell interagieren.
Dieses Repository enthält den Quellcode, der zum Training unserer Modelle verwendet wird. Wir haben alle unsere Code -Implementierungen mit den Bibliotheken erstellt, die mit dem Umarmungs -Gesicht -Ökosystem, IE, Transformatoren, Datensätzen, Tokenizern und Beschleunigungen verbunden sind, die eine einfache Reproduzierbarkeit, Anpassung und weitere Skalierung ermöglichen. Unsere Trainings- und Bewertungsskripte folgen einer Standard -Pytorch -Struktur, während wir Codecarbon und Gewichte und Vorurteile zur Verfolgung unserer Experimente verwendeten.
Alle Anforderungen sind in der Datei der Anforderungen.txt (Python -Version: 3.10.12) aufgeführt.
Vorausbildung: Der Ordner vor dem Training enthält zwei Hauptskripte: pre-training.py train-sentencepiece.py . Diese Skripte wurden verwendet, um sowohl den Satztokencenizer als auch die Modelle zu trainieren. Weitere Informationen finden Sie hier, wie Sie sie hier ausführen können.
Feinabstimmung: Der feinabstimmige Ordner enthält das Skript supervised-fine-tuning.py . Dieses Skript wird verwendet, um die 460-m-Version unserer Modelle in der Lufrect-Aira-Datensatzversion 2.0 zu optimieren. Weitere Informationen finden Sie hier, wie Sie sie hier ausführen können.
Bewertung: Der Bewertungsordner enthält die Ergebnisse unserer Bewertungen (Eval.MD). Es enthält auch ein evaluation.py -Skript, mit dem Sie die Kontrollpunkte unserer Modelle oder Modelle bewerten können, die Sie möglicherweise trainieren. Das lm-evaluation-harness-pt.ipynb Notizbuch zeigt, wie ein Modell über die Laiviet-Version der LM-Evaluation-Harness bewertet wird. Weitere Informationen finden Sie hier, wie Sie sie hier ausführen können. Bewertungen zu portugiesischen Benchmarks sind im neu-eval-Ordner erhältlich.
Dienstprogramme: Der Ordner der Versorgungsunternehmen enthält einige Hilfskripte (weitere Informationen hier):
chinchilla-estimation.pyquantize.py führt eine 4-Bit-AWQ-Quantisierung der Modelle durch.tokenize-dataset.py erstellt eine tokenisierte Version eines Textdatensatzes und lädt sie in den umarmenden Gesichtszentrum hoch. Im img -Ordner finden Sie einen Unterordner namens logs and plots . Darin finden Sie alle Protokolle und Diagramme (und das Drehbuch, mit dem die Diagramme verwendet werden), die wir in unserem Präprint verwendet haben.
@misc{correa24ttllama,
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={arXiv preprint arXiv:2401.16640},
year={2024}
}
@misc{correa24ttllama,
doi = {10.1016/j.mlwa.2024.100558},
url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343},
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={Machine Learning With Applications},
publisher = {Springer},
year={2024}
}Diese Forschung wurde durch Ragen finanziert (Rede de Inteligência Artificial Ética e Segura). Raies ist ein Projekt, das von Fapergs (Fundação de Amparo à pesquisa do estado do rio grande do sul) und CNPQ (Conselho Nacional de Dessenvolvimento Científico e tecnológico) unterstützt wird.
Teenytinyllama ist unter der Apache -Lizenz, Version 2.0, lizenziert. Weitere Informationen finden Sie in der Lizenzdatei.