Descarga de MAX Image Caption Generator Web App - Código fuente de MAX Image Caption Generator Web App

MAX Image Caption Generator Web App

Datos del sitio web

Patch Release

Descargar

Cree una aplicación web para interactuar con los subtítulos de imagen generados por el aprendizaje automático

Todos los días se crean 2.5 quintillones de datos de datos, basados en un estudio de IBM. Muchos de esos datos son datos no estructurados, como textos grandes, grabaciones de audio e imágenes. Para hacer algo útil con los datos, primero debemos convertirlo en datos estructurados.

En este patrón de código utilizaremos uno de los modelos del Model Asset Exchange (Max), un intercambio donde los desarrolladores pueden encontrar y experimentar con modelos de aprendizaje profundo de código abierto. Específicamente, utilizaremos el generador de título de imagen para crear una aplicación web que subtitule las imágenes y permitirá al usuario filtrar a través del contenido de imagen basado en imágenes. La aplicación web proporciona una interfaz de usuario interactiva respaldada por un servidor Python ligero que usa Tornado. El servidor toma imágenes a través de la interfaz de usuario y las envía a un punto de descanso para el modelo y muestra los subtítulos generados en la interfaz de usuario. El punto final REST del modelo se configura utilizando la imagen Docker proporcionada en Max. La interfaz de usuario web muestra los subtítulos generados para cada imagen, así como una nube de palabras interactiva para filtrar imágenes en función de su leyenda.

Cuando el lector haya completado este patrón de código, comprenderá cómo:

Construya una imagen Docker del modelo Max Generator de Artificación de imagen
Disgima un modelo de aprendizaje profundo con un punto final de descanso
Genere subtítulos para una imagen utilizando la API REST del modelo MAX
Ejecute una aplicación web que usa la API REST del modelo

Arquitectura

Fluir

El servidor envía imágenes predeterminadas a la API del modelo y recibe datos de subtítulos.
El usuario interactúa con la interfaz de usuario web que contiene contenido predeterminado y carga la (s) imagen (s).
Web UI solicita datos de título para imágenes del servidor y actualiza el contenido cuando se devuelven los datos.
El servidor envía imágenes a la API del modelo y recibe datos de subtítulos para volver a la interfaz de usuario web.

Componentes incluidos

IBM Model Asset Exchange: un lugar para que los desarrolladores encuentren y usen modelos de aprendizaje profundo de código abierto y gratuito.
Docker: Docker es una herramienta diseñada para facilitar la creación, implementar y ejecutar aplicaciones utilizando contenedores.

Tecnologías destacadas

Python: Python es un lenguaje de programación que le permite trabajar más rápido e integrar sus sistemas de manera más efectiva.
JQuery: JQuery es una biblioteca JavaScript multiplataforma diseñada para simplificar la secuencia de comandos del lado del cliente de HTML.
Bootstrap 3: Bootstrap es una biblioteca frontal gratuita y de código abierto para diseñar sitios web y aplicaciones web.
Pexels: Pexels proporciona fotos de alta calidad y completamente gratuitas con licencia bajo la licencia Creative Commons Zero (CC0).

Mira el video

La siguiente es una charla en Spark+AI Summit 2018 sobre Max que incluye una breve demostración de la aplicación web.

Pasos

Formas de ejecutar el patrón de código:

Desplegar en IBM Cloud
Implementar en kubernetes
Ejecutar localmente

Desplegar en IBM Cloud

Implementar el modelo

Siga el Doc de implementación del modelo para implementar el modelo de generador de título de imagen en IBM Cloud. Si ya tiene un punto final de API de modelo disponible, puede omitir este proceso.

Nota: Implementar el modelo puede tomar tiempo, para ponerse en marcha más rápido, puede intentar ejecutar localmente.

Implementar la aplicación web

Presione el botón Deploy to IBM Cloud . Si aún no tiene una cuenta de IBM Cloud, deberá crear una.
Haga clic en Delivery Pipeline y haga clic en el botón Create + en el formulario para generar una IBM Cloud API Key para la aplicación web.
Una vez que se genera la clave API, las secciones de la Region , Organization y el formulario de Space poblarán. Complete la sección Image Caption Generator Model API Endpoint con el punto final implementado arriba, luego haga clic en Create .
El formato para esta entrada debe ser http://170.0.0.1:5000
En las cadenas de herramientas, haga clic en Delivery Pipeline para ver mientras se implementa la aplicación. Una vez implementado, la aplicación se puede ver haciendo clic en View app .

Implementar en kubernetes

También puede implementar el modelo y la aplicación web en Kubernetes utilizando las últimas imágenes de Docker en Quay.

En su clúster Kubernetes, ejecute los siguientes comandos:

kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Image-Caption-Generator/master/max-image-caption-generator.yaml
kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Image-Caption-Generator-Web-App/master/max-image-caption-generator-web-app.yaml

La aplicación web estará disponible en el puerto 8088 de su clúster. El modelo solo estará disponible internamente, pero se puede acceder externamente a través de NodePort .

Nota: Para implementar la aplicación web en IBM Cloud, se recomienda seguir las instrucciones de implementación en IBM Cloud anteriores en lugar de implementar con el servicio IBM Cloud Kubernetes.

Ejecutar localmente

NOTA: Estos pasos solo se necesitan cuando se ejecutan localmente en lugar de usar el botón Deploy to IBM Cloud .

Configuración del modelo MAX

Implementar el modelo
Experimentar con la API (opcional)

Iniciar la aplicación web

Mira el código
Instalación de dependencias
Ejecutando el servidor
Configuración de puertos (opcional)
Instrucciones para Docker (opcional)

Configuración del modelo MAX

Nota: El conjunto de instrucciones en esta sección es una versión modificada de la que se encuentra en la página del proyecto del generador de subtítulos de imagen

1. Implementar el modelo

Para ejecutar la imagen Docker, que inicia automáticamente la API de servicio de modelo, ejecute:

 docker run -it -p 5000:5000 quay.io/codait/max-image-caption-generator

Esto extraerá una imagen preconstruida del muelle (o usará una imagen existente si ya está almacenada en caché localmente) y la ejecutará. Si prefiere construir el modelo localmente, puede seguir los pasos en el modelo ReadMe.

Tenga en cuenta que actualmente esta imagen de Docker es solo CPU (agregaremos soporte para imágenes de GPU más adelante).

2. Experimentar con la API (opcional)

El servidor API genera automáticamente una página de documentación de Swagger interactiva. Vaya a http://localhost:5000 para cargarlo. A partir de ahí, puede explorar la API y también crear solicitudes de prueba.

Use el punto final model/predict para cargar un archivo de prueba y obtener subtítulos para la imagen de la API.

La carpeta de muestras de modelo contiene algunas imágenes que puede usar para probar la API, o puede usar las suyas.

También puede probarlo en la línea de comando, por ejemplo:

curl -F " image=@path/to/image.jpg " -X POST http://localhost:5000/model/predict

{
  "status" : " ok " ,
  "predictions" : [
    {
      "index" : " 0 " ,
      "caption" : " a man riding a wave on top of a surfboard . " ,
      "probability" : 0.038827644239537
    },
    {
      "index" : " 1 " ,
      "caption" : " a person riding a surf board on a wave " ,
      "probability" : 0.017933410519265
    },
    {
      "index" : " 2 " ,
      "caption" : " a man riding a wave on a surfboard in the ocean . " ,
      "probability" : 0.0056628732021868
    }
  ]
}

Iniciar la aplicación web

1. Mira el código

Clone El repositorio de aplicaciones web del generador de subtítulos de imagen localmente ejecutando el siguiente comando:

 git clone https://github.com/IBM/MAX-Image-Caption-Generator-Web-App

NOTA: Es posible que deba cd .. Fuera del directorio de Generator Max-Image-Generator primero

Luego cambie el directorio al repositorio local

 cd MAX-Image-Caption-Generator-Web-App

2. Instalación de dependencias

Antes de ejecutar esta aplicación web, debe instalar sus dependencias:

 pip install -r requirements.txt

3. Ejecutando el servidor

Luego inicia la aplicación web ejecutando:

 python app.py

Una vez que haya terminado de procesar las imágenes predeterminadas (<1 minuto), puede acceder a la aplicación web en: http://localhost:8088

El punto final del generador de título de imagen debe estar disponible en http://localhost:5000 para que la aplicación web comience correctamente.

4. Configuración de puertos (opcionales)

Si desea usar un puerto diferente o está ejecutando el punto final ML en una ubicación diferente, puede cambiarlos con opciones de línea de comandos:

 python app.py --port=[new port] --ml-endpoint=[endpoint url including protocol and port]

5. Instrucciones para Docker (opcional)

Para ejecutar la aplicación web con Docker, los contenedores que ejecutan el servidor web y el punto final REST necesita compartir la misma pila de red. Esto se hace en los siguientes pasos:

Modifique el comando que ejecuta el punto final REST del generador de subtítulos de imagen para asignar un puerto adicional en el contenedor a un puerto en la máquina host. En el ejemplo a continuación se asigna al puerto 8088 en el host, pero también se pueden usar otros puertos.

 docker run -it -p 5000:5000 -p 8088:8088 --name max-image-caption-generator quay.io/codait/max-image-caption-generator

Cree la imagen de la aplicación web ejecutando:

 docker build -t max-image-caption-generator-web-app .

Ejecute el contenedor de la aplicación web usando:

 docker run --net='container:max-image-caption-generator' -it max-image-caption-generator-web-app

Usando la imagen del muelle

También puede implementar la aplicación web con la última imagen de Docker disponible en Quay.io ejecutando:

 docker run --net='container:max-image-caption-generator' -it quay.io/codait/max-image-caption-generator-web-app

Esto utilizará el contenedor Docker modelo que se ejecuta arriba y se puede ejecutar sin clonar el repositorio de la aplicación web localmente.

Salida de muestra

Captura de pantalla de interfaz de usuario web

Solución de problemas

Hay una gran cantidad de imágenes cargadas de usuario en una aplicación web larga y ejecutada

Al ejecutar la aplicación web en http://localhost:8088 una página de administrador está disponible en http://localhost:8088/cleanup que permite al usuario eliminar todos los archivos cargados del usuario del servidor.
[Nota: esto elimina todas las imágenes cargadas por el usuario]

Captura de pantalla de UI administradora

Campo de golf

Intercambio de activos del modelo (Max)
Centro de datos de código abierto y tecnologías AI (Codait)
Blog de anuncio máximo

Bibliotecas utilizadas en este patrón de código

D3.JS: D3.JS es una biblioteca JavaScript para manipular documentos basados en datos.
D3-Cloud: un diseño de nube de palabras inspirado en Wordle escrito en JavaScript.
Featherlight: Featherlight es un complemento JQuery Lightbox muy liviano.
Glyphicons: Glyphicons es una biblioteca de iconos y símbolos monocromáticos preparados con precisión, creado con énfasis a la simplicidad y la orientación fácil.
El selector de imágenes: el selector de imágenes es un complemento JQuery simple que transforma un elemento seleccionado en una interfaz gráfica más fácil de usar.
Consentimiento de cookies: el consentimiento de cookies es un complemento JavaScript para alertar a los usuarios sobre el uso de cookies en un sitio web.

Obtenga más información

Patrones de código de inteligencia artificial : ¿disfrutó de este patrón de código? Echa un vistazo a nuestros otros patrones de código de inteligencia artificial
Lista de reproducción de patrones de AI y código de datos : Marque nuestra lista de reproducción con todos nuestros videos de patrón de código
Watson Studio : Master The Art of Data Science con el estudio de Watson de IBM
Aprendizaje profundo con Watson Studio : Diseñe y despliegue modelos de aprendizaje profundo utilizando redes neuronales, fácilmente escala a cientos de ejecuciones de capacitación. Obtenga más información en Deep Learning con Watson Studio.

Licencia

Este patrón de código tiene licencia bajo la licencia de software Apache, versión 2. Los objetos de código de terceros separados invocados dentro de este patrón de código tienen licencia por sus respectivos proveedores de conformidad con sus propias licencias separadas. Las contribuciones están sujetas al Certificado de origen del desarrollador, la versión 1.1 (DCO) y la licencia de software Apache, versión 2.

Preguntas frecuentes de Licencia de software de Apache (ASL)

Expandir

Información adicional