[ Английский | .
Краткое изложение этого хранилища также опубликовано как предварительное изготовление: изучение открытых больших языковых моделей для японского языка: практическое руководство
Если вы имеете в виду этот репозиторий, пожалуйста, цитируйте:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
Некоторые изменения архитектуры были внесены. Для получения дополнительной информации см. Ниже: предварительное обучение исходного LLM "Plamo-100B" со шкалой 100 миллиардов параметров ↩
Для получения дополнительной информации см. Следующую статью: Стратегические примечания для до и после обучения при разработке крупномасштабных языковых моделей, включая руководящие принципы позиционирования и разработки для крупномасштабных языковых моделей Tanuki-8b и 8x8b и т. Д.-особенно на синтетических данных-↩ ↩ 2
Однако, чтобы ускорить модель, произошли изменения в исходной ламе. Для получения дополнительной информации см. Ниже: Plamo-13b был выпущен ↩
Несмотря на то, что не указано никаких подробностей, в пресс -релизе говорится следующее: в дополнение к открытым наборам данных, данные обучения включают исходные наборы данных, созданные Stability AI Japan, а также данные, созданные с помощью сотрудничества японской команды проекта Eleutherai Polyglot и членов стабильной сообщества Японии. '↩
Это исследование провело оценку лингвистической модели, обученной для прогнозирования слов справа налево, а не обычной слева направо. Опубликованы как нормальные, так и обратные языковые модели. ↩
Перед выполнением настройки инструкций мы добавляем вектор чата, который является разницей между инструктором Llama 3 и базой Llama 3. ↩ ↩ 2
После выполнения настройки инструкций добавляется вектор чата, что является разницей между инструктом Llama 3 и базой Llama 3. ↩ ↩ 2
Однако, если вы хотите использовать Karakuri LM для коммерческих целей, вам нужно будет связаться с Carakuri Co., Ltd., разработчиком. ↩
Настройка инструкций, система использует данные, сгенерированные моделями OpenAI, такими как GPT-3.5 и GPT-4 для изучения, поэтому это может нарушать правила OpenAI. ↩ ↩ 2 ↩ 3 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
Перед тем, как выполнять ORPO, мы добавляем вектор чата разницы между Gemma 2 Instruct и Base Gemma 2. ↩
○: Модель была загружена в модель Huggingface и может быть немедленно прочитана с помощью AutoModel.from_pretrained() и т. Д. △: Модели не загружаются в модель-концентратор, но они поддерживают формат HuggingFace (Transformers, ранее Pytorch-трансформаторы). ✕: Модель не поддерживает Huggingface. ↩
Это исследование, которое экспериментирует с комбинацией различных анализаторов морфем и методов подлонного излома. Трудно перечислить модели для всех комбинаций, поэтому здесь мы представляем модель Juman +++ BPE, которая имеет наивысшую среднюю производительность задачи в эксперименте. ↩
Тем не менее, максимальная длина серии была расширена до 2048 года, и различные архитектурные изменения были внесены в оригинал BERT. См. Readme в репозитории HuggingChipface для получения дополнительной информации. ↩
NLP-WASEDA/ROBERTA-BASE-JAPANESE и NLP-WASEDA/ROBERTA-LARGE-JAPANESE Pre-Train максимальная длина входа модели при 128, в то время как NLP-WASEDA/ROBERTA-LARGE-JAPANESE-SEQ512 Pre-Prains при 512 ↩
Тем не менее, максимальная длина серии расширяется от обычных 512 до 1282, что позволяет обрабатывать более длительные входные операторы ↩
Маленький - это исследование царапин с использованием японской Википедии и японского финансового корпуса, в то время как базовым является другое исследование с использованием японского финансового корпуса в университете Тохоку Берт ↩
Модель слова, защищенная от мужчин,-это модель, которая делит слова с использованием Mecab (Dictionary + Man-защищенный словарь), а затем подчинки, используя слова, в то время как модель предложения-это модель, которая преобразует слова непосредственно в Unigram, не разделяя слова ↩
Подробнее о каждой модели см. В главе 4 статьи автора. Обратите внимание, что модель SC-2M-Wiki предварительно обучена только на Википедии, поэтому она не является строго специфической для домена модель. ↩
Модели встраивания были классифицированы с использованием плотного извлечения текста на основе предварительно проведенных языковых моделей: опрос (Zhao+, 2022). Bi-Encoder-это архитектура, в которой два входа вводятся индивидуально в модель, каждый из которых векторизируется, а затем сформулирован как близость входов путем формулирования точечного продукта и сходства косинуса этих входов. Напротив, CrossCoder-это архитектура, которая вводит два входа в модель и непосредственно вычисляет близость в модели. В области извлечения информации, перекрестный кодер является более вычислительным дорогостоящим, но, поскольку ожидается, что модель будет рассчитывать более тонкую близость входов, она часто используется в качестве перезапуска для пересмотра порядка результатов экстракции. Кроме того, среди двухкодеров существуют типы биодеров, которые представляют входные данные в виде множественных векторов (например, Colbert), а не отдельных векторов (например, Colbert), поэтому они были дополнительно разделены на однорепрессирующие биодеры и биопроводы с несколькими репрессиями. ↩
Тем не менее, это призывает людей помнить об использовании для исследований и образовательных целей. Также обратите внимание, что некоторые лицензии на модель, из которой вы объединились, не являются Apache 2.0. ↩ ↩ 2 ↩ 3