godot dodo скачать - загрузка исходного кода godot dodo

godot dodo

Другой исходный код

1.0.0

Скачать

Годо-додо

Логотип Годо-Додо, представляемый Midjourney V5

Проект Годо-Додо представляет собой конвейер для моделей с открытым исходным кодом на разработанном человеке, языковом коде, извлеченном из GitHub.

В этом случае целевым языком является GDSICT, но та же методология может быть применена к другим языкам.

Этот репозиторий включает в себя следующее:

Скрипты для сборки набора данных Manetuning
Предварительно собранные, необработанные наборы данных (до 60 тысяч строк)
Сценарии, чтобы исправить модель
Ссылки на модели веса
Отчет о производительности сравнивает современные модели

Производительность

Результаты

Для получения комплексных результатов, объясняющих используемую методологию, и полный список всех результатов, пожалуйста, обратитесь к полному отчету о производительности здесь.

Таким образом, модели godot_dodo достигают значительно большей согласованности, чем gpt-4 / gpt-3.5-turbo когда речь идет о создании точного синтаксиса GDSCRIPT, и варианты, обученные на основе кода, могут даже превосходить их по сложным инструкциям.

Основным оставшимся слабым пунктом этого подхода является потеря соответствующей условности при написании методов. Поскольку образцы, написанные человеком, часто включают ссылки на объекты, инициализированные вне объема метода выборки, модель учится делать то же самое, что приводит к случаям, когда предполагается, что функция, относящаяся к инструкции, уже реализована. Скорее всего, это можно значительно улучшить с помощью более сложного набора данных.

Концепция

Как?

В отличие от других, аналогичные подходы к созданию моделей создания, таких как Стэнфорд-Альпака, в этом подходе не используется существующие, более крупные языковые модели для выходных значений Manetuning-Dataset. Весь используемый код создан человеком. Языковые модели вместо этого используются только для маркировки каждого фрагмента кода.

Таким образом, мы можем собрать comment:code данные в стиле CodeSearchnet, используя мощные существующие модели для аннотирования высококачественного кода, созданного человеком.

Почему?

Некоторые существующие языковые модели, такие как gpt-4 являются отличными кодерами. Тем не менее, большая часть их способности сосредоточена только на самых популярных языках, таких как Python или JavaScript.

Менее широко используемые языки недопредставлены в учебных данных и испытывают массовое снижение производительности, где модели регулярно ошибаются синтаксисом или функциями галлюцинатного языка, которые не существуют.

Это направлено на то, чтобы предоставить гораздо более надежные модели, специфичные для языка, которые можно использовать для надежного генерирования кода, который компилируется с первой попытки.

Демо

Чтобы попробовать предварительно обученные модели, вы можете использовать ноутбук ounference_demo.ipynb.

Чтобы использовать эту записную книжку в Google Colab, перейдите по этой ссылке.

Генерация набора данных

Благодаря этому подходу полагается на созданные человеческие данные, мы царапаем репозитории GitHub, используя API поиска GitHub.

Используя language:gdscript поисковый термин, мы получаем список репозиториев, включая код GDSCRIPT.

Мы также используем license:mit для ограничения набора данных до подходящих репозиториев. Для обучения используется только лицензированный код MIT!

Затем мы клонируем каждый и применяем следующую логику:

Найти файл project.godot
Обнаружение того, создан ли проект для версий двигателя 3.x или 4.x Godot
Итерация через все файлы .gd , найденные в репозитории
Для каждого из них разделить файл на отдельные функции
Для каждой найденной функции попросите существующего LLM ( gpt-3.5-turbo ) для подробного комментария, описывающего цель функций
Добавить instruction:response в набор данных

Обратите внимание, что существующие, написанные человеком комментарии, расположенные над блоком кода, не используются для значения instruction . Мы заинтересованы в последовательных деталях для комментариев, вместо того, чтобы пытаться сохранить некоторые потенциально более качественные человеческие, написанные человеком.

Человеческие комментарии в кодовом блоке, однако, сохраняются.

Бегать

Чтобы собрать набор данных самостоятельно, следуйте этим инструкциям:

Запустите python data/generate_unlabeled_dataset.py
Запустите python data/label_dataset.py

Пожалуйста, обратите внимание, что вам понадобятся клавиши GitHub и OpenAI API, чтобы использовать эти сценарии.

Предварительно собранные наборы данных

Предварительно собранные наборы данных включены в этот репозиторий:

Godot_dodo_4x_60K
- Собран с использованием проектов 4.x Годо

Дальнейшие наборы данных могут быть добавлены в будущем (особенно в отношении данных 3.x )

Тонкая настройка

Процесс тонкой настройки внимательно отражает тот, который представлен Stanford_alpaca.

Чтобы воспроизвести тонкую версию Llama, пожалуйста, выполните шаги ниже.

Аппаратные требования

Чтобы эффективно определить модель llama-7b или llama-13b , настоятельно рекомендуется использовать как минимум два графических процессора A100 80GB . В противном случае вы можете столкнуться с ошибками памяти или испытать чрезвычайно длительное время обучения, и вам нужно будет настроить параметры обучения.

Для создания godot_dodo_4x_60k_llama_13b использовались восемь A100 80GB GPU.

Другим важным соображением является протокол, используемый для общения с графическим процессором. Рекомендуется использовать настройки NVLink , а не PCIe .

Если у вас есть только доступ к настройкам PCIe , замените full-shard на shard_grad_op в команде torchrun . Это может серьезно ускорить ваши тренировочные прогоны за счет потенциально более высокого использования памяти.

Настраивать

Перед созданием, обязательно установите все требования, используя:

pip install -r requirements.txt

Бегать

Для точных команд, используемых для моделей создания, пожалуйста, обратитесь к отдельным страницам модели:

Модели/Годот_додо_4X_60K_LLAMA_7B
Модели/Годот_додо_4X_60K_LLAMA_13B

Вывод

Чтобы проверить свою современную модель, вы можете использовать сценарий eval.py Просто беги:

python finetune/eval.py --model_name_or_path PATH_TO_FINETUNED_MODEL/

Публикация в HuggingFace

Чтобы легко загрузить современную модель в HuggingFace, вы можете использовать:

python finetune/push_to_hub.py --model_name_or_path PATH_TO_FINETUNED_MODEL/ --push_name HF_MODEL_NAME --auth_token HF_ACCESS_TOKEN

Веса модели

Ссылки на веса модели, размещенные на Huggingface, представлены на соответствующих страницах моделей:

Модели/Годот_додо_4X_60K_LLAMA_7B
Модели/Годот_додо_4X_60K_LLAMA_13B

Расходы

Ниже затрат в долларах сборки каждого доступного набора данных и создания каждой модели.

Наборы данных

Godot_dodo_4x_60K
- 30$ ( gpt-3.5-turbo API затрат)

МОДЕЛЕННЫЕ МОДЕЛИ

Модели/Годот_додо_4X_60K_LLAMA_7B
- 24$ (8x A100 80 ГБ затраты)
Модели/Годот_додо_4X_60K_LLAMA_13B
- 84$ (8x A100 80 ГБ затраты)

Используйте с Годо-Копилотом

Использование современных моделей с Годо-Копилотом для Editor, полностью локальная генерация кода может быть поддержана в будущем.

Благодарности

Спасибо всем MIT-лицензированным проектам Годо! Это было бы невозможно без вас.

Все проекты, которые были сохранены во время сборки включенных данных о создании, перечислены в соответствующих папках набора данных в данных.

Еще одна благодарность за FluidStack.io за их надежные, дешевые экземпляры GPU, которые использовались для создания этих моделей.

Цитирование

Если вы хотите привести этот проект, используйте:

 @misc{godot-dodo,
  author = {Markus Sobkowski},
  title = {Godot-Dodo: Finetuned language models for GDScript generation},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/minosvasilias/godot-dodo}},
}

Вам также следует привести оригинальную ламаную бумагу, а также Стэнфорд-Альпака.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-02-27
размер 8.05MB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Приложение «Планета ДоДо»

2024-05-24
додо

2023-07-12
Пончик Додо

2022-07-25

godot dodo

Годо-додо

Производительность

Концепция

Как?

Почему?

Демо

Генерация набора данных

Бегать

Предварительно собранные наборы данных

Тонкая настройка

Аппаратные требования

Настраивать

Бегать

Вывод

Публикация в HuggingFace

Веса модели

Расходы

Наборы данных

МОДЕЛЕННЫЕ МОДЕЛИ

Используйте с Годо-Копилотом

Благодарности

Цитирование

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Приложение «Планета ДоДо»

додо

Пончик Додо

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf