Digital Form with GPT4 Vision API Descarga - Digital Form with GPT4 Vision API

Digital Form with GPT4 Vision API

Otro código fuente

1.0.0

Descargar

PDF a forma digital utilizando GPT4 Vision API

Un POC que utiliza la API de Vision GPT 4 para generar una forma digital a partir de una imagen utilizando formularios JSON de https://jsonforms.io/

? Inspirado por:

captura de pantalla de captura a coodo: https: //github.com/abi/screenshot-to-code
Draw-a-ui: https: //github.com/sawyerhood/draw-a-aui

Ambos repositorios demuestran que la API de visión GPT4 se puede utilizar para generar una interfaz de usuario a partir de una imagen y puede reconocer los patrones y la estructura del diseño proporcionado en la imagen.

cifra

Imagen generada por Dall-E 3.

¿Demo?

Haga clic en la miniatura para ver en YouTube:

Pruébalo en mi página de Github

https://nathanfhh.github.io/digital-form-with-gpt4-vision-api/

Estoy usando PDF.JS para procesar el archivo PDF y solicitar la API de OpenAI para generar la respuesta por completo en el navegador.

Ejecutando con un entorno local

Interfaz

cd en directorio frontend

 cd ai-json-form

Instalar paquetes y ejecutar

npm install
npm run dev

Backend

cd en directorio

 cd backend

Instalar paquetes

poetry install
# alternatively, you can use pip install
pip install -r requirements.txt

Configuración de variables de entorno

 export OPENAI_API_KEY=
# optional
export OPENAI_ORG=

Si planea usar solo la respuesta simulada, debe configurar OpenAI_API_KEY en cualquier valor.

Correr

python main.py

¿Correr usando Docker?

Exportar las variables de entorno

 echo " OPENAI_API_KEY=YOUR_API_KEY " > .env
# The following is optional
echo " OPENAI_ORG=YOUR_ORG " >> .env

Ejecutar la composición de Docker

docker-compose up --build

Abra el navegador y visite http://localhost:8080/aijsv/

Descargo de responsabilidad

Soy nuevo en Vue, por lo que el código podría no ser la mejor práctica. Todavía estoy aprendiendo y mejorando. Si tiene alguna sugerencia, no dude en las relaciones públicas.

Flow Explicar

Sube archivos PDF de hasta tres páginas desde el frontend
Si desea ajustar el número de páginas, puede cambiar la variable MAX_PDF_PAGES en backend/app/socket.py
Cuando el backend recibe el archivo PDF en formato de cadena Base64, realiza los siguientes procesos:
- Convertir la cadena de URL de nuevo a bytes
- Lea el archivo PDF, conviértalo en una imagen JPG y guárdelo en la carpeta /TMP usando el paquete pdf2image .
- Extraiga las cadenas del mismo archivo PDF utilizando el paquete PyPDF2 . Las cadenas extraídas se convertirán en parte del aviso enviado al modelo GPT4 para mejorar la precisión.
- Prepare las indicaciones y envíelas junto con la captura de pantalla PDF a la API de visión GPT4
- Envíe la porción al frontend a través de Socket.io incrementalmente.
Cada vez que el frontend recibe el fragmento, lo agrega al editor codemirror y verifica si el contenido actual es un YAML válido. Si es un YAML válido, lo aplicará al esquema JSON para obligar a la interfaz de usuario a volver a renderizar.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-06
tamaño 4.78MB
Proviene de Github

Aplicaciones relacionadas

easy digital downloads

2024-11-06
Software de seguimiento digital MultiSales

2024-09-01
Blasfemo Edición Digital Deluxe

2022-08-26
Estambul: Edición Digital

2022-08-19
Extras digitales de lujo de Wasteland 3

2022-07-29
Pájaros con sentimientos

2022-07-26

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo