Ce référentiel contient le code prenant en charge le modèle de base GPT-4V pour une utilisation avec AutoDistill.
GPT-4V, développé par OpenAI, est un modèle de langue multimodale. Avec GPT-4V, vous pouvez poser des questions sur les images en langage naturel. Le module autodistill-gpt4v vous permet de classer les images à l'aide de GPT-4V.
Ce modèle utilise l'API GPT-4-Vision-Preview annoncée par OpenAI le 6 novembre 2023.
Note
L'utilisation de ce projet entraînera des frais de facturation pour les appels API à l'API Vision OpenAI GPT-4. Reportez-vous à la page de tarification OpenAI pour plus d'informations et pour calculer vos prix attendus. Ce package fait un appel API par image que vous souhaitez étiqueter.
Lisez la documentation complète AutoDistill.
Lisez la documentation GPT-4V AutoDistill.
Pour utiliser GPT-4V avec AutoDistill, vous devez installer la dépendance suivante:
pip3 install autodistill-gpt-4v from autodistill_gpt_4v import GPT4V
# define an ontology to map class names to our GPT-4V prompt
# the ontology dictionary has the format {caption: class}
# where caption is the prompt sent to the base model, and class is the label that will
# be saved for that caption in the generated annotations
# then, load the model
base_model = GPT4V (
ontology = CaptionOntology (
{
"person" : "person" ,
"a forklift" : "forklift"
}
),
api_key = "OPENAI_API_KEY"
)
base_model . label ( "./context_images" , extension = ".jpeg" )Ce projet est autorisé sous une licence du MIT.
Nous aimons votre contribution! Veuillez consulter le Guide de contribution Core AutoDistill pour démarrer. Merci à tous nos contributeurs!