Descarga de uform - Descarga del código fuente uform

UForm

AI multimodal de bolsillo
Para la comprensión y generación de contenido

Discordia LinkedIn Gorjeo Blog Github

Incrustos multimodales de 64 a 768 dimensiones • Chat de parámetros 1B
Textos cortos • Imágenes • Video Clips • Documentos largos
Onnx • Coreml • Pytorch
Python • JavaScript • Swift

Vista previa del chat de uForm

Bienvenido a UForm, una biblioteca de IA multimodal que es tan versátil como eficiente. Los modelos de incrustación de UForm Tiny lo ayudarán a comprender y buscar contenido visual y textual en varios idiomas. Los modelos generativos pequeños de UForm, por otro lado, no solo admiten casos de conversación y chat, sino que son excelentes para el subtítulos de imágenes rápidas y la respuesta de preguntas visuales (VQA). Con modelos de transformador pre-capacitados personalizados compactos, esto puede ejecutarse en cualquier lugar desde la granja de su servidor hasta su teléfono inteligente.

Características

Pequeños incrustaciones : incrustaciones de estilo Matryoshka de 64 dimensiones para una búsqueda extremadamente rápida.
Rendimiento : gracias al pequeño tamaño, la velocidad de inferencia es 2-4x más rápida que los competidores.
Portable : los modelos vienen con soporte de ONNX nativo, lo que los hace fáciles de implementar en cualquier plataforma.
CUANTACIÓN CONSIDO : Incrustaciones de fastidia de f32 a i8 sin perder mucho recuerdo.
Multilingüe : entrenado en un conjunto de datos equilibrado, el retiro es excelente en más de 20 idiomas.

Modelos

Para obtener puntos de referencia de precisión y velocidad, consulte la página de evaluación.

Incrustación de modelos

Modelo	Parámetros	Lenguas	Arquitectura
`uform3-image-text-english-large` ?	365 m	1	12 Capa Bert, Vit-L/14
`uform3-image-text-english-base`	143 m	1	4 capa Bert, Vit-B/16
`uform3-image-text-english-small` ?	79 m	1	4 capa Bert, Vit-S/16
`uform3-image-text-multilingual-base`	206m	21	12 Capa Bert, Vit-B/16

Modelos generativos

Modelo	Parámetros	Objetivo	Arquitectura
`uform-gen2-dpo` ?	1.2 b	Chat, subtitulación de imágenes, vqa	QWEN1.5-0.5B, VIT-H/14
`uform-gen2-qwen-500m`	1.2 b	Chat, subtitulación de imágenes, vqa	QWEN1.5-0.5B, VIT-H/14
`uform-gen` ️	1.5 b	Subtitulación de imágenes, VQA	Llama-1.3b, Vit-B/16

Ejemplos de inicio rápido

Incrustación de modelos

Primero, pip install uform . Entonces, cargue el modelo:

 from uform import get_model , Modality

processors , models = get_model ( 'unum-cloud/uform3-image-text-english-small' )

model_text = models [ Modality . TEXT_ENCODER ]
model_image = models [ Modality . IMAGE_ENCODER ]
processor_text = processors [ Modality . TEXT_ENCODER ]
processor_image = processors [ Modality . IMAGE_ENCODER ]

Incrustar imágenes:

 import requests
from io import BytesIO
from PIL import Image

image_url = 'https://media-cdn.tripadvisor.com/media/photo-s/1b/28/6b/53/lovely-armenia.jpg'
image = Image . open ( BytesIO ( requests . get ( image_url ). content ))
image_data = processor_image ( image )
image_features , image_embedding = model_image . encode ( image_data , return_features = True )

Incrustar consultas:

 text = 'a cityscape bathed in the warm glow of the sun, with varied architecture and a towering, snow-capped mountain rising majestically in the background'
text_data = processor_text ( text )
text_features , text_embedding = model_text . encode ( text_data , return_features = True )

Para más detalles, consulte:

Python Docs sobre modelos de incrustación en Python/Readme.md
JavaScript Docs sobre modelos de incrustación en JavaScript/ReadMe.md
Swift Docs sobre modelos de incrustación en Swift/ReadMe.md

Modelos generativos

Los modelos generativos son nativamente compatibles con

 from transformers import AutoModel , AutoProcessor

model = AutoModel . from_pretrained ( 'unum-cloud/uform-gen2-dpo' , trust_remote_code = True )
processor = AutoProcessor . from_pretrained ( 'unum-cloud/uform-gen2-dpo' , trust_remote_code = True )

prompt = 'Question or Instruction'
image = Image . open ( 'image.jpg' )

inputs = processor ( text = [ prompt ], images = [ image ], return_tensors = 'pt' )

with torch . inference_mode ():
     output = model . generate (
        ** inputs ,
        do_sample = False ,
        use_cache = True ,
        max_new_tokens = 256 ,
        eos_token_id = 151645 ,
        pad_token_id = processor . tokenizer . pad_token_id
    )
prompt_len = inputs [ 'input_ids' ]. shape [ 1 ]
decoded_text = processor . batch_decode ( output [:, prompt_len :])[ 0 ]

Para más detalles, consulte:

Python Docs en modelos generativos en Python/Readme.md
JavaScript Docs en modelos generativos
Swift Docs en modelos generativos

Detalle técnico

Casting, cuantificación, matryoshka y corte

Dependiendo de la aplicación, los incrustaciones se pueden fundir hacia abajo a representaciones numéricas más pequeñas sin perder mucho retiro. Se recomienda cambiar de f32 a f16 en casi todos los casos, a menos que se ejecute en hardware muy antiguo sin soporte de medios precisiones. También es posible cambiar a i8 con escala lineal, pero se notará en el retiro de colecciones más grandes con millones de entradas de búsqueda. Del mismo modo, para los incrustaciones de dimensiones superiores (512 o 768), una estrategia común es cuantificarlos en representaciones de un solo bits para una búsqueda más rápida.

 import numpy as np

f32_embedding : np . ndarray = model . encode_text ( text_data , return_features = False )
f16_embedding : np . ndarray = f32_embedding . astype ( np . float16 )
i8_embedding : np . ndarray = ( f32_embedding * 127 ). astype ( np . int8 )
b1_embedding : np . ndarray = np . packbits (( f32_embedding > 0 ). astype ( np . uint8 ))

El enfoque alternativo para la cuantización es usar los incrustaciones de Matryoshka, donde los incrustaciones se cortan en partes más pequeñas, y la búsqueda se realiza de manera jerárquica.

 import numpy as np

large_embedding : np . ndarray = model . encode_text ( text_data , return_features = False )
small_embedding : np . ndarray = large_embedding [:, : 256 ]
tiny_embedding : np . ndarray = large_embedding [:, : 64 ]

Ambos enfoques son compatibles de forma nativa por el motor USearch Vector-Search y las Bibliotecas Numéricas SIMSIMD. Al tratar con pequeñas colecciones (hasta millones de entradas) y en busca de cálculos de distancia de coseno de baja latencia, puede lograr una mejora del rendimiento 5X-2500X sobre la antorcha, numpy, scipy y vainilla Python utilizando SIMSIMD.

 from simsimd import cosine , hamming

distance : float = cosine ( f32_embedding , f32_embedding ) # 32x SciPy performance on Apple M2 CPU
distance : float = cosine ( f16_embedding , f16_embedding ) # 79x SciPy performance on Apple M2 CPU
distance : float = cosine ( i8_embedding , i8_embedding ) # 133x SciPy performance on Apple M2 CPU
distance : float = hamming ( b1_embedding , b1_embedding ) # 17x SciPy performance on Apple M2 CPU

Del mismo modo, cuando se trata de grandes colecciones (hasta miles de millones de entradas por servidor) y en busca de una búsqueda de alto rendimiento, puede lograr una mejora de rendimiento 100 veces sobre FAISS y otras soluciones de búsqueda vectorial utilizando USEARCH. Aquí hay un par de ejemplos:

 from usearch . index import Index

f32_index = Index ( ndim = 64 , metric = 'cos' , dtype = 'f32' ) # for Matryoshka embeddings
f16_index = Index ( ndim = 64 , metric = 'cos' , dtype = 'f16' ) # for Matryoshka embeddings
i8_index = Index ( ndim = 256 , metric = 'cos' , dtype = 'i8' ) # for quantized embeddings
b1_index = Index ( ndim = 768 , metric = 'hamming' , dtype = 'b1' ) # for binary embeddings

Embalaje compacto

Pytorch es una gran dependencia para llevar, especialmente si se ejecuta en dispositivos de borde o IoT. Usando el tiempo de ejecución de Vanilla ONNX, uno puede reducir significativamente el consumo de memoria y la latencia de implementación.

$ conda create -n uform_torch python=3.10 -y
$ conda create -n uform_onnx python=3.10 -y
$ conda activate uform_torch && pip install -e " .[torch] " && conda deactivate
$ conda activate uform_onnx && pip install -e " .[onnx] " && conda deactivate
$ du -sh $( conda info --envs | grep ' uform_torch ' | awk ' {print $2} ' )
> 5.2G    ~ /conda/envs/uform_torch
$ du -sh $( conda info --envs | grep ' uform_onnx ' | awk ' {print $2} ' )
> 461M    ~ /conda/envs/uform_onnx

La mayor parte de ese peso se puede reducir aún más a 100 MB tanto para el modelo como para el tiempo de ejecución. Puede elegir uno de los muchos proveedores de ejecución ONNX compatibles, que incluye xnnpack, cuda y tensorrt para las GPU NVIDIA, OpenVino en Intel, DirectML en Windows, ROCM en AMD, coreMl en dispositivos Apple y más por venir.

Chat multimodal en CLI

Los modelos generativos se pueden usar para experiencias similares a chat en la línea de comandos. Para eso, puede usar la herramienta uform-chat CLI, que está disponible en el paquete UForm.

$ pip install uform
$ uform-chat --model unum-cloud/uform-gen2-dpo --image=zebra.jpg
$ uform-chat --model unum-cloud/uform-gen2-dpo 
>     --image= " https://bit.ly/3tIVg9M " 
>     --device= " cuda:0 " 
>     --fp16

Expandir

uform

UForm

AI multimodal de bolsillo
Para la comprensión y generación de contenido

Características

Modelos

Incrustación de modelos

Modelos generativos

Ejemplos de inicio rápido

Incrustación de modelos

Modelos generativos

Detalle técnico

Casting, cuantificación, matryoshka y corte

Embalaje compacto

Chat multimodal en CLI

Juego móvil de carrera de obstáculos OVNI

Aplicación QEDAUFON

Invasión OVNI Gratis Genuino

Sistema de artículos de archivos OVNI

Ladrón recoge OVNI

OVNI

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

uform

UForm

AI multimodal de bolsillo Para la comprensión y generación de contenido

Características

Modelos

Incrustación de modelos

Modelos generativos

Ejemplos de inicio rápido

Incrustación de modelos

Modelos generativos

Detalle técnico

Casting, cuantificación, matryoshka y corte

Embalaje compacto

Chat multimodal en CLI

AI multimodal de bolsillo
Para la comprensión y generación de contenido