https://datadreamer.dev
Inmediato. Generar datos sintéticos. Modelos de tren y alineación.
Datadreamer es una poderosa biblioteca de Python de código abierto para solicitar, generación de datos sintéticos y flujos de trabajo de capacitación. Está diseñado para ser simple, extremadamente eficiente y de grado de investigación.
Instalación pip3 install datadreamer.dev | |
demo.py | Resultado de demo.py |
|---|---|
Ver el script de demostración completo | Ver el conjunto de datos sintético y el modelo capacitado |
Para obtener más demostraciones y recetas, consulte la página de Tour Quick. | |
Con DatadReamer puede:
DataDreamer es:
Por favor cita el documento DatadReamer:
@misc { patel2024datadreamer ,
title = { DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows } ,
author = { Ajay Patel and Colin Raffel and Chris Callison-Burch } ,
year = { 2024 } ,
eprint = { 2402.10379 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}Comuníquese con nosotros por correo electrónico ([email protected]) o en Discord si tiene alguna pregunta, comentario o comentarios.
Copyright © 2024, Ajay Patel. Liberado bajo la licencia MIT.
Gracias a los mantenedores de Hugging Face y Litellm por aceptar las contribuciones necesarias para Datadreamer y proporcionar soporte aguas arriba.
ODNI, IARPA: Esta investigación es apoyada en parte por la Oficina del Director de Inteligencia Nacional (ODNI), Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA), a través del Contrato del Programa Hialo #2022-22072200005. Las opiniones y conclusiones contenidas en este documento son las de los autores y no deben interpretarse como necesariamente que representen las políticas oficiales, ya sea expresadas o implícitas, de Odni, Iarpa o el gobierno de los Estados Unidos. El gobierno de los Estados Unidos está autorizado a reproducir y distribuir reimpresiones con fines gubernamentales a pesar de cualquier anotación de derechos de autor en el mismo.