uform скачать - uform исходный код скачать

Uform

Карманный мультимодальный ИИ
Для понимания контента и поколения

Раздор LinkedIn Twitter Блог GitHub

Мультимодальные встраивания от 64 до 768 измерений • 1B Параметр чат
Короткие тексты • Изображения • Видеально -клипы • Длинные документы
Onnx • coreml • pytorch
Python • JavaScript • Swift

Предварительный просмотр чата

Добро пожаловать в Uform, мультимодальную библиотеку ИИ, которая так же универсальна, как и эффективна. Ufform Tiny Models поможет вам понять и искать визуальный и текстовый контент на разных языках. С другой стороны, небольшие генеративные модели Uform не только поддерживают разговорные и использование чата, но и отлично подходят для быстрого подписания изображения и ответа на визуальные вопросы (VQA). С компактными пользовательскими предварительно обученными моделями трансформаторов , это может работать в любом месте от вашего серверного фермы до вашего смартфона.

Функции

Крошечные встраивания : 64-мерные встроенные в стиле Матришка для чрезвычайно быстрого поиска.
Пропускная способность : благодаря небольшому размеру скорость вывода в 2-4 раза быстрее, чем конкуренты.
Portable : модели поставляются с нативной поддержкой ONNX, что позволяет их развернуть на любой платформе.
Осведомленность о квантовании : встраивание вниз от f32 до i8 , не потеряв особого отзывания.
Многоязычный : обученный сбалансированному набору данных, отзыв великолепен на более чем 20 языках.

Модели

Для точности и уровня скорости обращаются к странице оценки.

Встраиваемые модели

Модель	Параметры	Языки	Архитектура
`uform3-image-text-english-large` ?	365 м	1	12 слой Bert, Vit-L/14
`uform3-image-text-english-base`	143 м	1	4 слой Bert, Vit-B/16
`uform3-image-text-english-small` ?	79 м	1	4 слой Bert, Vit-S/16
`uform3-image-text-multilingual-base`	206 м	21	12 слой Bert, Vit-B/16

Генеративные модели

Модель	Параметры	Цель	Архитектура
`uform-gen2-dpo` ?	1,2 б	Чат, подписание изображения, VQA	QWEN1.5-0,5B, VIT-H/14
`uform-gen2-qwen-500m`	1,2 б	Чат, подписание изображения, VQA	QWEN1.5-0,5B, VIT-H/14
`uform-gen` ️	1,5 б	Подпись изображения, vqa	Llama-1,3B, Vit-B/16

Примеры быстрого начала

Встраиваемые модели

Во -первых, pip install uform . Затем загрузите модель:

 from uform import get_model , Modality

processors , models = get_model ( 'unum-cloud/uform3-image-text-english-small' )

model_text = models [ Modality . TEXT_ENCODER ]
model_image = models [ Modality . IMAGE_ENCODER ]
processor_text = processors [ Modality . TEXT_ENCODER ]
processor_image = processors [ Modality . IMAGE_ENCODER ]

Встраивать изображения:

 import requests
from io import BytesIO
from PIL import Image

image_url = 'https://media-cdn.tripadvisor.com/media/photo-s/1b/28/6b/53/lovely-armenia.jpg'
image = Image . open ( BytesIO ( requests . get ( image_url ). content ))
image_data = processor_image ( image )
image_features , image_embedding = model_image . encode ( image_data , return_features = True )

Встраивать запросы:

 text = 'a cityscape bathed in the warm glow of the sun, with varied architecture and a towering, snow-capped mountain rising majestically in the background'
text_data = processor_text ( text )
text_features , text_embedding = model_text . encode ( text_data , return_features = True )

Для получения более подробной информации проверьте:

Python Docs на моделях встраивания в python/readme.md
Документы JavaScript по моделям встраивания в javaScript/readme.md
Swift Docs по моделям встраивания в swift/readme.md

Генеративные модели

Генеративные модели изначально совместимы с

 from transformers import AutoModel , AutoProcessor

model = AutoModel . from_pretrained ( 'unum-cloud/uform-gen2-dpo' , trust_remote_code = True )
processor = AutoProcessor . from_pretrained ( 'unum-cloud/uform-gen2-dpo' , trust_remote_code = True )

prompt = 'Question or Instruction'
image = Image . open ( 'image.jpg' )

inputs = processor ( text = [ prompt ], images = [ image ], return_tensors = 'pt' )

with torch . inference_mode ():
     output = model . generate (
        ** inputs ,
        do_sample = False ,
        use_cache = True ,
        max_new_tokens = 256 ,
        eos_token_id = 151645 ,
        pad_token_id = processor . tokenizer . pad_token_id
    )
prompt_len = inputs [ 'input_ids' ]. shape [ 1 ]
decoded_text = processor . batch_decode ( output [:, prompt_len :])[ 0 ]

Для получения более подробной информации проверьте:

Python Docs на генеративных моделях в python/readme.md
JavaScript Docs на генеративных моделях
Swift Docs на генеративных моделях

Технические детали

Понижаемая, квантование, матришка и нарезка

В зависимости от применения, встраивания могут быть понижены до более мелких численных представлений, не теряя особого отзыва. Переключение с f32 на f16 рекомендуется практически во всех случаях, если вы не работаете на очень старом оборудовании без получения половины. Переключение на i8 с линейным масштабированием также возможно, но будет заметно в отзыве в более крупных коллекциях с миллионами доступных для поиска записей. Аналогичным образом, для более измерных встраиваний (512 или 768) общей стратегией является квантование их в однобиточные представления для более быстрого поиска.

 import numpy as np

f32_embedding : np . ndarray = model . encode_text ( text_data , return_features = False )
f16_embedding : np . ndarray = f32_embedding . astype ( np . float16 )
i8_embedding : np . ndarray = ( f32_embedding * 127 ). astype ( np . int8 )
b1_embedding : np . ndarray = np . packbits (( f32_embedding > 0 ). astype ( np . uint8 ))

Альтернативный подход к квантованию состоит в том, чтобы использовать встраиваемые встраиваемые матришки, где встраиваемые встроены на более мелкие части, а поиск выполняется иерархическим образом.

 import numpy as np

large_embedding : np . ndarray = model . encode_text ( text_data , return_features = False )
small_embedding : np . ndarray = large_embedding [:, : 256 ]
tiny_embedding : np . ndarray = large_embedding [:, : 64 ]

Оба подхода изначально поддерживаются вектором-исследовательским двигателем Usearch и библиотеками SIMSIMD Numerics. При работе с небольшими коллекциями (вплоть до миллионов записей) и поиска расчетов на расстоянии косинуса с низкой задержкой, вы можете достичь улучшения производительности 5x-2500X по сравнению с факелом, Numpy, Scipy и Vanilla Python, используя Simsimd.

 from simsimd import cosine , hamming

distance : float = cosine ( f32_embedding , f32_embedding ) # 32x SciPy performance on Apple M2 CPU
distance : float = cosine ( f16_embedding , f16_embedding ) # 79x SciPy performance on Apple M2 CPU
distance : float = cosine ( i8_embedding , i8_embedding ) # 133x SciPy performance on Apple M2 CPU
distance : float = hamming ( b1_embedding , b1_embedding ) # 17x SciPy performance on Apple M2 CPU

Аналогичным образом, при работе с большими коллекциями (до миллиардов записей на сервер) и поиска высокопроизводительного поиска, вы можете достичь 100-кратного улучшения производительности по сравнению с Faiss и другими решениями по поиску векторов с использованием Usearch. Вот несколько примеров:

 from usearch . index import Index

f32_index = Index ( ndim = 64 , metric = 'cos' , dtype = 'f32' ) # for Matryoshka embeddings
f16_index = Index ( ndim = 64 , metric = 'cos' , dtype = 'f16' ) # for Matryoshka embeddings
i8_index = Index ( ndim = 256 , metric = 'cos' , dtype = 'i8' ) # for quantized embeddings
b1_index = Index ( ndim = 768 , metric = 'hamming' , dtype = 'b1' ) # for binary embeddings

Компактная упаковка

Pytorch - это тяжелая зависимость, особенно если вы запускаете на грани или IoT -устройства. Используя ванильное время выполнения ONNX, можно значительно сократить потребление памяти и задержку развертывания.

$ conda create -n uform_torch python=3.10 -y
$ conda create -n uform_onnx python=3.10 -y
$ conda activate uform_torch && pip install -e " .[torch] " && conda deactivate
$ conda activate uform_onnx && pip install -e " .[onnx] " && conda deactivate
$ du -sh $( conda info --envs | grep ' uform_torch ' | awk ' {print $2} ' )
> 5.2G    ~ /conda/envs/uform_torch
$ du -sh $( conda info --envs | grep ' uform_onnx ' | awk ' {print $2} ' )
> 461M    ~ /conda/envs/uform_onnx

Большая часть этого веса может быть дополнительно уменьшена до 100 МБ как для модели, так и для времени выполнения. Вы можете выбрать одного из многих поддерживаемых поставщиков выполнения ONNX, который включает в себя xnnpack, cuda и tensorrt для графических процессоров Nvidia, OpenVino на Intel, DirectML на Windows, ROCM на AMD, Coreml на устройствах Apple и многое другое.

Мультимодальный чат в CLI

Генеративные модели могут использоваться для чата в командной строке. Для этого вы можете использовать инструмент CLI uform-chat , который доступен в пакете UForm.

$ pip install uform
$ uform-chat --model unum-cloud/uform-gen2-dpo --image=zebra.jpg
$ uform-chat --model unum-cloud/uform-gen2-dpo 
>     --image= " https://bit.ly/3tIVg9M " 
>     --device= " cuda:0 " 
>     --fp16

Расширять

uform

Uform

Карманный мультимодальный ИИ
Для понимания контента и поколения

Функции

Модели

Встраиваемые модели

Генеративные модели

Примеры быстрого начала

Встраиваемые модели

Генеративные модели

Технические детали

Понижаемая, квантование, матришка и нарезка

Компактная упаковка

Мультимодальный чат в CLI

Мобильная игра «Гонка с препятствиями НЛО»

Приложение QEDAUFON

Вторжение НЛО Бесплатно Подлинное

Система статей архивов НЛО

Вор собирает НЛО

НЛО

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

uform

Uform

Карманный мультимодальный ИИ Для понимания контента и поколения

Функции

Модели

Встраиваемые модели

Генеративные модели

Примеры быстрого начала

Встраиваемые модели

Генеративные модели

Технические детали

Понижаемая, квантование, матришка и нарезка

Компактная упаковка

Мультимодальный чат в CLI

Карманный мультимодальный ИИ
Для понимания контента и поколения