[ Inglés |
Un resumen de este repositorio también se publica como una preimpresión: Explorando modelos abiertos de idiomas grandes para el idioma japonés: una guía práctica
Si se refiere a este repositorio, cite:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
Se han realizado algunos cambios de arquitectura. Para obtener más información, consulte a continuación: Pre-aprendizaje del LLM original "PLAMO-100B" con una escala de 100 mil millones de parámetros ↩
Para obtener más información, consulte el siguiente artículo: Notas estratégicas para el aprendizaje previo y posterior al desarrollar modelos de lenguaje a gran escala, incluidas las pautas de posicionamiento y desarrollo para modelos de lenguaje a gran escala Tanuki-8b y 8x8b, etc., especialmente en datos sintéticos-↩ ↩ 2
Sin embargo, para acelerar el modelo, ha habido cambios en la llama original. Para obtener más información, consulte a continuación: PLAMO-13B ha sido lanzado ↩
Aunque no se especifican detalles, el comunicado de prensa establece lo siguiente: además de los conjuntos de datos abiertos, los datos de capacitación incluyen los conjuntos de datos originales creados por la estabilidad IA Japón, así como los datos creados con la cooperación del equipo de idiomas japoneses del Proyecto Polyglot Eleuthai y miembros de la comunidad estable Japón. '↩
Este estudio realizó una evaluación de un modelo lingüístico entrenado para predecir palabras de derecha a izquierda en lugar de lo habitual de izquierda a derecha. Se publican modelos de lenguaje normales e inversos. ↩
Antes de realizar un ajuste de instrucciones, agregamos un vector de chat, que es la diferencia entre el instructo Llama 3 y la base de Llama 3. ↩ ↩ 2
Después de realizar un ajuste de instrucciones, se agrega un vector de chat, que es la diferencia entre el instructo de Llama 3 y la base de Llama 3. ↩ ↩ 2
Sin embargo, si desea utilizar Karakuri LM con fines comerciales, deberá comunicarse con Karakuri Co., Ltd., el desarrollador. ↩
Ajuste de instrucciones, el sistema utiliza datos generados por modelos OpenAI como GPT-3.5 y GPT-4 para aprender, por lo que puede estar en violación de las regulaciones de OpenAI. ↩ ↩ 2 ↩ 3 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
Antes de realizar un ORPO, agregamos un vector de chat de la diferencia entre Gemma 2 Instruct y Gemma 2 Base. ↩
○: El modelo se ha subido al Hub Model Hub de Huggingface, y se puede leer inmediatamente utilizando AutoModel.from_pretrained() etc. △: No se cargan modelos para modelos HUB, pero admiten la cara de abrazo de formato (Transformers, anteriormente Pytorch-Transformers). ✕: El modelo no es compatible con Huggingface. ↩
Este es un estudio que experimenta con una combinación de varios analizadores de morfema y técnicas de subvención. Es difícil enumerar modelos para todas las combinaciones, por lo que aquí presentamos el modelo Juman +++ BPE, que tiene el rendimiento promedio de tareas más alto en el experimento. ↩
Sin embargo, la longitud máxima de la serie se ha extendido a 2048, y se han realizado varios cambios arquitectónicos en el Bert original. Consulte ReadMe en el repositorio de Huggingface para obtener más información. ↩
NLP-WaseSa/Roberta-Base-Japanese y NLP-WaseSa/Roberta-Large-Japonés pretrenado la longitud de token máxima de la entrada del modelo en 128, mientras que NLP-WaskA/Roberta-Large-Japonés-SEQ512 PRE-TRENAS A 512 ↩
Sin embargo, la longitud máxima de la serie se extiende desde el 512 a 1282 normal, lo que permite manejar las declaraciones de entrada más largas ↩
El pequeño es un estudio de scratch utilizando Wikipedia japonesa y un corpus financiero japonés, mientras que el Base One es un estudio diferente que utiliza un corpus financiero japonés en la Universidad de Tohoku Bert ↩
El modelo de obra de palabras a prueba de hombre es un modelo que divide las palabras usando MECAB (diccionario IPA + Diccionario a prueba de hombre) y luego subvenciones usando una obra de palabras, mientras que el modelo de pieza de oración es un modelo que convierte las palabras directamente en unigram sin dividir palabras ↩
Para obtener detalles sobre cada modelo, consulte el Capítulo 4 del documento del autor. Tenga en cuenta que el modelo SC-2M-Wiki solo se entrena en Wikipedia, por lo que no es estrictamente un modelo específico de dominio. ↩
Los modelos de incrustación se clasificaron utilizando la recuperación de texto denso basado en modelos de lenguaje previos a la aparición: una encuesta (Zhao+, 2022). Bi-Engoder es una arquitectura en la que se ingresan dos entradas individualmente en un modelo, cada uno de los cuales está vectorizado, y luego se formula como la cercanía de las entradas formulando el producto DOT y la similitud coseno de estas entradas. Por el contrario, el codificador cruzado es una arquitectura que ingresa dos entradas en un modelo y calcula directamente la proximidad dentro del modelo. En el campo de la extracción de información, el codificador cruzado es más costoso computacional, pero dado que se espera que el modelo calcule la cercanía de las entradas más finamente, a menudo se usa como relanzador para reexaminar el orden de los resultados de la extracción. Además, entre los biéndores, hay tipos de bi-coders que representan las entradas como múltiples vectores (por ejemplo, Colbert) en lugar de vectores individuales (por ejemplo, Colbert), por lo que se han dividido aún más en bi-codificadores de representación única y biecodificadores multirresentativos. ↩
Sin embargo, requiere que las personas tengan en cuenta el uso de la investigación y la educación. También tenga en cuenta que algunas licencias para el modelo del que se fusionó no son Apache 2.0. ↩ ↩ 2 ↩ 3