https://datadreamer.dev
Rapide. Générer des données synthétiques. Modèles de train et d'alignement.
DataDreamer est une puissante bibliothèque Python open source pour l'invitation, la génération de données synthétiques et les workflows de formation. Il est conçu pour être simple, extrêmement efficace et de niveau de recherche.
Installation pip3 install datadreamer.dev | |
demo.py | Résultat de demo.py |
|---|---|
Voir le script de démonstration complet | Voir l'ensemble de données synthétique et le modèle formé |
Pour plus de démonstrations et de recettes, consultez la page de tournée rapide. | |
Avec DataDreamer, vous pouvez:
DataDreamer est:
Veuillez citer le document DataDreamer:
@misc { patel2024datadreamer ,
title = { DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows } ,
author = { Ajay Patel and Colin Raffel and Chris Callison-Burch } ,
year = { 2024 } ,
eprint = { 2402.10379 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}Veuillez nous contacter par e-mail ([email protected]) ou sur Discord si vous avez des questions, des commentaires ou des commentaires.
Copyright © 2024, Ajay Patel. Libéré sous la licence du MIT.
Merci aux mainteneurs de Hugging Face et Litellm d'avoir accepté les contributions nécessaires à DataDreamer et de fournir un soutien en amont.
ODNI, IARPA: Cette recherche est soutenue en partie par le Bureau du directeur du renseignement national (ODNI), Intelligence Advanced Research Projects Activity (IARPA), via le contrat du programme hiatus # 2022-22072200005. Les opinions et les conclusions contenues ici sont celles des auteurs et ne doivent pas être interprétées comme représentant nécessairement les politiques officielles, exprimées ou implicites, ODNI, IARPA ou le gouvernement américain. Le gouvernement américain est autorisé à reproduire et à distribuer des réimpressions à des fins gouvernementales malgré toute annotation du droit d'auteur qui y est.