Обнимающееся лицо | Препринт | Бумага | Демо

Крупные языковые модели (LLM) имеют значительно продвинутую обработку естественного языка, но их прогресс еще не был равным на разных языках. В то время как большинство LLM обучаются на языках с высоким разрешением, такими как английский, многоязычные модели, как правило, снижают одноязычные. Кроме того, аспекты их многоязычной основы иногда ограничивают побочные продукты, которые они производят, такие как вычислительные требования и режимы лицензирования. В этом исследовании мы документируем разработку открытых моделей, адаптированных для использования в условиях низкого ресурса, их ограничений и их преимуществ. Это подростка Teenytinyllama : две компактные модели для бразильского португальского генерации текста. Мы выпускаем их под разрешающую лицензию Apache 2.0 на GitHub и обнимая лицо для использования сообщества и дальнейшего развития.
Основное предполагаемое использование Teenytinyllama заключается в изучении проблем, связанных с разработкой языковых моделей для языков с низким разрешением. Контрольные точки, сохраненные во время обучения, предназначены для предоставления контролируемых условий для проведения научных экспериментов. Вы также можете дополнительно настраивать и адаптировать Teenytinylanmama для развертывания, если ваше использование состоится в лицензии Apache 2.0. Если вы решите использовать предварительно обученную Teenytinyllama в качестве основы для вашей тонкой модели, пожалуйста, проведите свой собственный риск и оценку предвзятости.
Teenytinyllama не предназначен для развертывания. Это не продукт и не должен использоваться для взаимодействия с человеком.
Модели Teenytinyllama - только бразильский португальский язык и не подходят для перевода или создания текста на других языках.
Teenytinyllama не была настраивана для непрерывных контекстов, в которых обычно развернуты языковые модели.
Как и почти все другие языковые модели, обученные большим текстовым наборам данных, скрещенным из Интернета, пара TTL демонстрировала поведение, которое не делает их нестандартным решением для многих реальных приложений, особенно тех, которые требуют фактического, надежного, нетоксичного генерации текста. Все наши модели подлежат следующему:
Галлюцинации: эта модель может создавать контент, который может быть принят за истину, но на самом деле является вводящей в заблуждение или совершенно ложным, то есть галлюцинации.
Предвзятость и токсичность: эта модель наследует социальные и исторические стереотипы от данных, используемых для ее обучения. Учитывая эти предубеждения, модель может производить токсическое содержание, т.е., вредное, оскорбительное или вредное для отдельных лиц, групп или сообществ.
Ненадежный код: модель может создать неправильные фрагменты кода и операторы. Эти поколения кода не должны рассматриваться как предложения или точные решения.
Языковые ограничения: модель в первую очередь предназначена для понимания стандартных бразильских португальцев. Другие языки могут оспорить его понимание, что приведет к потенциальным неправильным толкованиям или ошибкам в ответ.
Повторение и условно: модель может застрять в петях повторения (особенно, если штраф за повторение в течение поколений устанавливается на скудное значение) или создает условные ответы, не связанные с подсказкой.
Следовательно, несмотря на то, что наши модели выпускаются с разрешающей лицензией, мы призываем пользователей выполнять анализ рисков на этих моделях, если они намерены использовать их для реальных приложений, а также пусть люди смягчают результаты этих моделей в приложениях, где они будут взаимодействовать с аудиторией, гарантируя, что пользователи всегда знают, что они взаимодействуют с языковой моделью.
Этот репозиторий содержит исходный код, используемый для обучения наших моделей. Мы создали все наши реализации кода, используя библиотеки, привязанные к экосистеме обнимающего лица, т.е., трансформаторам, наборами данных, токенизаторам и ускорению, которые позволяют легко воспроизводимости, адаптацию и дальнейшее масштабирование. Наши сценарии обучения и оценки следуют стандартной структуре Pytorch, в то время как мы использовали Codecarbon и Weights & Fiases для отслеживания наших экспериментов.
Все требования перечислены в файле TEDS.TXT (версия Python: 3.10.12).
Предварительное обучение: папка перед тренировкой содержит два основных сценария: pre-training.py и train-sentencepiece.py . Эти сценарии использовались для обучения как токенизатора предложения, так и моделей. Вы можете найти больше информации о том, как их запустить здесь.
Точная настройка: папка с тонкой настройкой содержит сценарий supervised-fine-tuning.py . Этот скрипт используется для тонкой настройки 460-метровой версии наших моделей на наборе данных Instruct-Aira версии 2.0. Вы можете найти больше информации о том, как их запустить здесь.
Оценка: папка оценки содержит результаты наших оценок (Eval.md). Он также содержит сценарий evaluation.py , который позволяет вам оценить любую из контрольных точек наших моделей или моделей, которые вы можете прийти на обучение. Ноутбук lm-evaluation-harness-pt.ipynb демонстрирует, как оценить модель на Laiviet версии LM-Evaluation-Harness . Вы можете найти больше информации о том, как их запустить здесь. Оценки на португальских критериях доступны в новой папке.
Утилиты: папка утилит содержит некоторые вспомогательные сценарии (дополнительная информация доступна здесь):
chinchilla-estimation.py помогает вам оценить размер набора данных, касающийся размера модели, используя бумагу Chinchilla в качестве ссылки.quantize.py выполнит 4-битное квантование AWQ на моделях.tokenize-dataset.py создаст токеновую версию текстового набора данных и загрузит его в концентратор объятий. В папке img вы найдете подпапку с именем logs and plots . В нем вы можете найти все журналы и графики (и сценарий, используемый для изготовления графиков), которые мы использовали в нашем препринре.
@misc{correa24ttllama,
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={arXiv preprint arXiv:2401.16640},
year={2024}
}
@misc{correa24ttllama,
doi = {10.1016/j.mlwa.2024.100558},
url = {https://www.sciencedirect.com/science/article/pii/S2666827024000343},
title = {TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese},
author = {Corr{ ^ e}a, Nicholas Kluge and Falk, Sophia and Fatimah, Shiza and Sen, Aniket and De Oliveira, Nythamar},
journal={Machine Learning With Applications},
publisher = {Springer},
year={2024}
}Это исследование финансировалось RAIES (REDE DE Inteligência Artificial Etica e Segura). RAIES - это проект, поддерживаемый Fapergs (Fundação de Amparo à Pesquisa do Estado Do Rio Grande do Sul) и CNPQ (Conselho nacional de desenvolvimento científico e tecnológico).
Teenytinyllama лицензирован по лицензии Apache, версия 2.0. Смотрите файл лицензии для получения более подробной информации.