[ Anglais | Français |
Un résumé de ce référentiel est également publié en préimpression: explorer des modèles de grande langue ouverts pour la langue japonaise: un guide pratique
Si vous faites référence à ce référentiel, veuillez citer:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
Certains changements d'architecture ont été apportés. Pour plus d'informations, voir ci-dessous: Pré-apprentissage du LLM "PLAMO-100B" d'origine avec une échelle de 100 milliards de paramètres ↩
Pour plus d'informations, consultez l'article suivant: Notes stratégiques pour la pré et après l'apprentissage lors du développement de modèles de langage à grande échelle, y compris les directives de positionnement et de développement pour les modèles de langage à grande échelle Tanuki-8b et 8x8b, etc. - en particulier sur les données synthétiques - ↩ ↩ 2
Cependant, pour accélérer le modèle, il y a eu des modifications du lama d'origine. Pour plus d'informations, voir ci-dessous: Plamo-13b a été publié ↩
Bien qu'aucun détail ne soit spécifié, le communiqué de presse indique ce qui suit: En plus des ensembles de données ouverts, les données de formation comprennent les ensembles de données originaux créés par Stabilité AI Japan, ainsi que les données créées avec la coopération de l'équipe de langue japonaise du projet Eleutherai Polyglot et des membres de la communauté stable Japon. '↩
Cette étude a effectué une évaluation d'un modèle linguistique formé pour prédire les mots de droite à gauche au lieu de la gauche habituelle à droite. Les modèles de langage normal et inverse sont publiés. ↩
Avant d'effectuer un réglage des instructions, nous ajoutons un vecteur de chat, qui est la différence entre l'instruct de Llama 3 et la base de lama 3. ↩ ↩ 2
Après avoir effectué un réglage des instructions, un vecteur de chat est ajouté, ce qui est la différence entre l'instruct de Llama 3 et la base de lama 3. ↩ ↩ 2
Cependant, si vous souhaitez utiliser Karakuri LM à des fins commerciales, vous devrez contacter Karakuri Co., Ltd., le développeur. ↩
Au réglage des instructions, le système utilise les données générées par des modèles OpenAI tels que GPT-3.5 et GPT-4 pour apprendre, donc il peut être en violation des réglementations OpenAI. ↩ ↩ 2 ↩ 3 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
Avant d'effectuer un ORPO, nous ajoutons un vecteur de chat de la différence entre Gemma 2 Instruct et Gemma 2 Base. ↩
○: Le modèle a été téléchargé sur HuggingFace's Model Hub et peut être lu immédiatement à l'aide de AutoModel.from_pretrained() etc. △: Aucun modèle n'est téléchargé sur Model Hub, mais ils prennent en charge le format HuggingFace (Transformers, anciennement Pytorch-Transformateurs). ✕: Le modèle ne prend pas en charge HuggingFace. ↩
Il s'agit d'une étude qui expérimente une combinaison de divers analyseurs de morphèmes et de techniques de sous-mots. Il est difficile de répertorier des modèles pour toutes les combinaisons, donc nous présentons ici le modèle Juman ++ + BPE, qui a la performance de la tâche la plus élevée dans l'expérience. ↩
Cependant, la longueur maximale de la série a été étendue à 2048, et divers changements architecturaux ont été apportés au Bert d'origine. Voir ReadMe dans le référentiel Huggingface pour plus d'informations. ↩
NLP-Waseda / Roberta-Base-Japanais et NLP-Waseda / Roberta-Large-Japanais prétraignent la longueur maximale de jeton de l'entrée du modèle à 128, tandis que NLP-Waseda / Roberta-Large-Japanais-Seq512 pré-trains à 512 ↩
Cependant, la longueur maximale de la série est étendue du 512 à 1282 normal, permettant à des instructions d'entrée plus longues de gérer ↩
Le petit est une étude à gratter utilisant le wikipedia japonais et le corpus financier japonais, tandis que la base est une étude différente utilisant le corpus financier japonais à l'Université Tohoku Bert ↩
Le modèle de pièce de bouche à l'épreuve de l'homme est un modèle qui divise les mots à l'aide de MECAB (dictionnaire IPA + dictionnaire à l'épreuve de l'homme), puis des sous-mots à l'aide de la pièce, tandis que le modèle de phrase est un modèle qui convertit les mots directement en unigramme sans partager des mots ↩ ↩
Pour plus de détails sur chaque modèle, voir le chapitre 4 de l'article de l'auteur. Notez que le modèle SC-2M-Wiki n'est pré-entraîné que sur Wikipedia, il n'est donc pas strictement un modèle spécifique au domaine. ↩
Les modèles d'incorporation ont été classés en utilisant la récupération de texte dense basée sur des modèles de langage pré-entraînés: une enquête (Zhao +, 2022). Le bi-encodeur est une architecture dans laquelle deux entrées sont entrées individuellement dans un modèle, chacune étant vectorisée, puis formulée comme proximité des entrées en formulant le produit DOT et la similitude en cosinus de ces entrées. En revanche, Cross-Encoder est une architecture qui saisit deux entrées dans un modèle et calcule directement la proximité dans le modèle. Dans le domaine de l'extraction de l'information, l'encodeur croisé est plus coûteux de calcul, mais comme il est prévu que le modèle calcule la proximité des entrées plus finement, il est souvent utilisé comme relance pour réexaminer l'ordre des résultats d'extraction. De plus, parmi les bi-cocodeurs, il existe des types de bi-encodeurs qui représentent les entrées comme des vecteurs multiples (par exemple, Colbert) plutôt que des vecteurs uniques (par exemple, Colbert), ils ont donc été divisés en bi-co-encodeurs à représentation unique et aux bi-encoders multi-représentants. ↩
Cependant, cela appelle les gens à garder à l'esprit l'utilisation à des fins de recherche et d'éducation. Notez également que certaines licences pour le modèle à partir duquel vous avez fusionné ne sont pas Apache 2.0. ↩ ↩ 2 ↩ 3