https://datadreamer.dev
Быстрый. Генерировать синтетические данные. Train & Align Models.
DatadReamer-это мощная библиотека Python с открытым исходным кодом для подсказки, генерации синтетических данных и учебных рабочих процессов. Он предназначен для того, чтобы быть простым, чрезвычайно эффективным и исследовательским уровнем.
Установка pip3 install datadreamer.dev | |
demo.py | Результат demo.py |
|---|---|
Смотрите полный демонстрационный сценарий | Смотрите синтетический набор данных и обученную модель |
Для получения дополнительных демонстраций и рецептов см. Страницу быстрого тура. | |
С DataDreamer вы можете:
DataDreamer:
Пожалуйста, цитируйте бумагу DatadReamer:
@misc { patel2024datadreamer ,
title = { DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows } ,
author = { Ajay Patel and Colin Raffel and Chris Callison-Burch } ,
year = { 2024 } ,
eprint = { 2402.10379 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}Пожалуйста, обратитесь к нам по электронной почте ([email protected]) или по Discord, если у вас есть какие -либо вопросы, комментарии или отзывы.
Copyright © 2024, Ajay Patel. Выпущено по лицензии MIT.
Спасибо соавторам в обнимании лица и Litellm за принятие взносов, необходимых для DataDreamer, и оказания поддержки вверх по течению.
ODNI, IARPA: Это исследование частично поддерживается Управлением директора National Intelligence (ODNI), разведывательных исследовательских проектов (IARPA), через контракт программы Hiatus #2022-22072200005. Мнения и выводы, содержащиеся в настоящем документе, относятся к авторам, и они не должны интерпретироваться как обязательно представляющие официальную политику, выраженную или подразумеваемой ODNI, IARPA или правительства США. Правительство США уполномочено воспроизводить и распространять перепечатки в правительственных целях, несмотря на какую -либо аннотацию авторских прав в них.