Fine-Tune-GPT-35-Turbo
Учебные шаги
# STEP 1:
python prepare_data.py --raw_data=./test/raw_data/qa.txt --base_system_instruction=./test/raw_data/fine_tune_instructions_base.json --output=./data
# STEP 2:
python json2jsonl.py --input=./data --output=./data
# STEP 3:
python fine_tune.py --action=check --json_dir=./data
# STEP 4:
python fine_tune.py --action=upload --jsonl_file=./data/fine_tune_instructions.jsonl
# STEP 5:
python fine_tune.py --action=start
# STEP 6:
python fine_tune.py --action=status
Ограничения и предупреждения
- Прямо сейчас мы можем конкретно настраивать GPT-3.5-Turbo (GPT-3.5-Turbo-0613), который имеет 4K контекст.
- Стоимость самой настройки довольно низкая (0,008 долл. США для 1K токенов набора данных), но основной проблемой является стоимость вывода-поскольку тонкая настраиваемая модель будет использоваться только вами, вывод будет стоить в 8 раз по сравнению с обычным 4-километровым турбо, что делает ее почти вдвое столько же, сколько GPT-4.
- Модель тонкой настройки не может быть разделена между различными учетными записями OpenAI, поэтому единственный способ иметь «такую же» тонкую настройку-это запустить задание с тонкой настройкой во всех отдельных учетных записях, которые вы хотите использовать.
- Набор данных для тонкой настройки должен быть на 100% SFW, потому что, чтобы процитировать Openai-«данные обучения с тонкой настройкой передаются через нашу модерацию API и систему модерации GPT-4 для обнаружения небезопасных данных обучения, которые противоречат нашим стандартам безопасности». API модерации довольно строгие, поэтому даже такие вещи, как «сосать пальцем», не пройдут.
- Владелец учетной записи получит электронное письмо, когда закончится тонкая настройка.
Ссылки
- Тонкая настройка Doc от Openai