[ Englisch | .
Eine Zusammenfassung dieses Repositorys wird auch als Vordruck veröffentlicht: Erforschen von offenen Großsprachenmodellen für die japanische Sprache: Ein praktischer Leitfaden
Wenn Sie sich auf dieses Repository beziehen, zitieren Sie bitte:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
Einige Architekturänderungen wurden vorgenommen. Weitere Informationen finden Sie unten: Vorbereiten des ursprünglichen LLM "PLAMO-100B" mit einer Skala von 100 Milliarden Parametern ↩
Weitere Informationen finden Sie im folgenden Artikel: Strategische Anmerkungen zum Vor- und Nach-Lernen bei der Entwicklung großer Sprachmodelle, einschließlich der Positionierungs- und Entwicklungsrichtlinien für groß angelegte Sprachmodelle Tanuki-8b und 8x8b usw.-insbesondere zu synthetischen Daten-↩ ↩ 2
Um das Modell zu beschleunigen, gab es jedoch Änderungen am ursprünglichen Lama. Weitere Informationen finden Sie unten: PLAMO-13B wurde veröffentlicht ↩
Obwohl keine Details angegeben sind, heißt es in der Pressemitteilung Folgendes: Zusätzlich zu den offenen Datensätzen enthalten die Trainingsdaten die ursprünglichen Datensätze, die von Stability AI Japan erstellt wurden, sowie Daten, die mit der Zusammenarbeit des japanischen Sprachteams des Eleutherai Polyglot -Projekts und Mitgliedern des Stable Community Japan erstellt wurden. '↩
Diese Studie führte eine Bewertung eines sprachlichen Modells durch, das geschult wurde, um Wörter von rechts nach links anstatt der üblichen links nach rechts vorherzusagen. Sowohl normale als auch umgekehrte Sprachmodelle werden veröffentlicht. ↩
Vor der Durchführung der Anweisungsabstimmung fügen wir einen Chat -Vektor hinzu, der den Unterschied zwischen dem Lama 3 -Anweisungen und der Lama 3 -Basis darstellt. ↩ ↩ 2
Nach der Durchführung der Anweisungsabstimmung wird ein Chat -Vektor hinzugefügt, was der Unterschied zwischen dem Lama 3 -Anweisungen und der Lama 3 -Basis ist. ↩ ↩ 2
Wenn Sie jedoch Karakuri LM für kommerzielle Zwecke verwenden möchten, müssen Sie sich mit Karakuri Co., Ltd., dem Entwickler, wenden. ↩
Das System zur Anweisung verwendet das System Daten, die von OpenAI-Modellen wie GPT-3.5 und GPT-4 erstellt wurden, um zu lernen, sodass es möglicherweise gegen OpenAI-Vorschriften verstößt. ↩ ↩ 2 ↩ 3 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
Vor der Ausführung eines ORPO fügen wir einen Chat -Vektor des Unterschieds zwischen Gemma 2 -Anweisungen und Gemma 2 -Basis hinzu. ↩
○: Das Modell wurde auf das Modell -Hub von Huggingface hochgeladen und kann sofort mit AutoModel.from_pretrained() usw. gelesen werden. △: Es werden keine Modelle auf Modell-Hub hochgeladen, aber sie unterstützen das Format-Umarmungsface (Transformatoren, ehemals Pytorch-Transformatoren). ✕: Das Modell unterstützt das Umarmungsface nicht. ↩
Dies ist eine Studie, die mit einer Kombination verschiedener Morphemanalysatoren und Subwording -Techniken experimiert wird. Es ist schwierig, Modelle für alle Kombinationen aufzulisten. Hier präsentieren wir das Modell Juman +++ BPE, das die höchste durchschnittliche Aufgabenleistung im Experiment aufweist. ↩
Die maximale Serienlänge wurde jedoch auf 2048 verlängert, und es wurden verschiedene architektonische Änderungen an der ursprünglichen Bert vorgenommen. Weitere Informationen finden Sie im Repository Readme im Huggingface -Repository. ↩
NLP-Waseda/Roberta-Base-Japanese und NLP-Waseda/Roberta-Large-Japanese Pre-Train Die maximale Tokenlänge des Modelleingangs bei 128, während NLP-WASSIONA/ROBERTA-LARGE-JAPANESE-Seq512 Pre-Trains bei 512 ↩ ↩ ↩
Die maximale Serienlänge wird jedoch vom normalen 512 bis 1282 verlängert, sodass längere Eingangsanweisungen behandelt werden können. ↩
Die kleine Studie ist eine Scratch -Studie, die japanische Wikipedia und japanisches Finanzkorpus verwendet, während die Basis eine andere Studie mit japanischer Finanzkorpus an der Tohoku University Bert ↩ ist
Das männliche Wortstückmodell ist ein Modell, das Wörter mit Mecab (IPA Dictionary + Man-Proof Dictionary) und dann unter Verwendung von Wörtern unterteilt, während das Satzstück ein Modell ist, das Wörter direkt in Unigram umwandelt, ohne Wörter zu teilen ↩
Einzelheiten zu jedem Modell finden Sie in Kapitel 4 des Autors. Beachten Sie, dass das SC-2M-Wiki-Modell nur auf Wikipedia vorgebracht ist, sodass es nicht ausschließlich ein domänenspezifisches Modell ist. ↩
Die Einbettungsmodelle wurden unter Verwendung des dichten Textabrufs basierend auf vorbereiteten Sprachmodellen klassifiziert: einer Umfrage (ZHAO+, 2022). Der Bi-Ccoder ist eine Architektur, bei der zwei Eingaben einzeln in ein Modell eingegeben werden, von denen jeweils vektorisiert und dann als Nähe der Eingänge formuliert wird, indem das DOT-Produkt und die Kosinus-Ähnlichkeit dieser Eingaben formuliert werden. Im Gegensatz dazu ist Crosscoder eine Architektur, die zwei Eingaben in ein Modell eingibt und die Nähe innerhalb des Modells direkt berechnet. Im Bereich der Informationsextraktion ist der Cross-Coder kostspieliger, aber da erwartet wird, dass das Modell die Nähe der Eingaben feiner berechnet, wird es häufig als Relauncher verwendet, um die Reihenfolge der Extraktionsergebnisse erneut zu überprüfen. Darüber hinaus gibt es bei Bi-Codern Arten von Bi-Codern, die Inputs als mehrere Vektoren (z. B. Colbert) anstelle einzelner Vektoren (z. B. Colbert) darstellen, und wurden daher weiter in Einzelrepräsentationsbi-Coder und Bio-Codierer mit mehreren Repräsentationen unterteilt. ↩
Es fordert jedoch, dass die Menschen für Forschungs- und Bildungszwecke den Einsatz berücksichtigen. Beachten Sie auch, dass einige Lizenzen für das Modell, aus dem Sie zusammengeführt werden, nicht Apache 2.0 sind. ↩ ↩ 2 ↩ 3