Dieses Repository enthält den Code, der das GPT-4V-Basismodell für die Verwendung mit Autodistill unterstützt.
GPT-4V, entwickelt von OpenAI, ist ein multimodales Sprachmodell. Mit GPT-4V können Sie Fragen zu Bildern in der natürlichen Sprache stellen. Mit dem autodistill-gpt4v Modul können Sie Bilder mit GPT-4V klassifizieren.
Dieses Modell verwendet die von OpenAI am 6. November 2023 angekündigte GPT-4-Vision-Preview-API.
Notiz
Die Verwendung dieses Projekts wird Abrechnungsgebühren für API-Anrufe bei der OpenAI GPT-4 Vision API anfallen. Weitere Informationen finden Sie in der OpenAI -Preisseite und berechnen Sie Ihre erwarteten Preisgestaltung. Dieses Paket erstellt einen API -Anruf pro Bild, den Sie kennzeichnen möchten.
Lesen Sie die vollständige Autodistill -Dokumentation.
Lesen Sie die Dokumentation GPT-4V Autodistill.
Um GPT-4V mit Autodistill zu verwenden, müssen Sie die folgende Abhängigkeit installieren:
pip3 install autodistill-gpt-4v from autodistill_gpt_4v import GPT4V
# define an ontology to map class names to our GPT-4V prompt
# the ontology dictionary has the format {caption: class}
# where caption is the prompt sent to the base model, and class is the label that will
# be saved for that caption in the generated annotations
# then, load the model
base_model = GPT4V (
ontology = CaptionOntology (
{
"person" : "person" ,
"a forklift" : "forklift"
}
),
api_key = "OPENAI_API_KEY"
)
base_model . label ( "./context_images" , extension = ".jpeg" )Dieses Projekt ist unter einer MIT -Lizenz lizenziert.
Wir lieben Ihre Eingabe! Weitere Informationen finden Sie in den Kern -Autodistill -Fitnive -Leitfaden, um loszulegen. Vielen Dank an alle unsere Mitwirkenden!