uformダウンロードuformソースコードのダウンロード

uform

ポケットサイズのマルチモーダルAI
コンテンツの理解と生成のため

LinkedIn ツイッターブログ github

64から768の寸法までのマルチモーダル埋め込み•1bパラメーターチャット
短いテキスト•画像•ビデオクリップ•長いドキュメント
onnx•coreml•pytorch
Python•JavaScript•Swift

UFormチャットプレビュー

Welcome Welcome uformは、効率的なマルチモーダルAIライブラリです。 uform embeddingモデルは、さまざまな言語で視覚的およびテキストコンテンツを理解して検索するのに役立ちます。一方、UFormの小型生成モデルは、会話やチャットのユースケースをサポートするだけでなく、高速な画像キャプションと視覚的な質問応答（VQA）に最適です。コンパクトなカスタムの事前訓練を受けたトランスモデルを使用すると、サーバーファームからスマートフォンまでどこでも実行できます。

特徴

小さな埋め込み：非常に速い検索のための64次元のマトリオシュカスタイルの埋め込み。
スループット：小さなサイズのおかげで、推論速度は競合他社よりも2〜4倍高速です。
ポータブル：モデルにはネイティブのONNXサポートが付属しており、あらゆるプラットフォームに簡単に展開できます。
量子化認識： f32からi8へのダウンキャスト埋め込みは、多くのリコールを失うことなく。
多言語：バランスの取れたデータセットでトレーニングされたリコールは、20以上の言語で優れています。

モデル

精度と速度ベンチマークについては、評価ページを参照してください。

埋め込みモデル

モデル	パラメーター	言語	建築
`uform3-image-text-english-large` ？	365 m	1	12レイヤーバート、VIT-L/14
`uform3-image-text-english-base`	143 m	1	4レイヤーバート、VIT-B/16
`uform3-image-text-english-small` ？	79 m	1	4レイヤーバート、VIT-S/16
`uform3-image-text-multilingual-base`	206m	21	12レイヤーバート、VIT-B/16

生成モデル

モデル	パラメーター	目的	建築
`uform-gen2-dpo` ？	1.2 b	チャット、画像キャプション、VQA	QWEN1.5-0.5B、VIT-H/14
`uform-gen2-qwen-500m`	1.2 b	チャット、画像キャプション、VQA	QWEN1.5-0.5B、VIT-H/14
`uform-gen`ショ和	1.5 b	画像キャプション、VQA	llama-1.3b、vit-b/16

クイックスタートの例

埋め込みモデル

まず、 pip install uform 。次に、モデルをロードします。

 from uform import get_model , Modality

processors , models = get_model ( 'unum-cloud/uform3-image-text-english-small' )

model_text = models [ Modality . TEXT_ENCODER ]
model_image = models [ Modality . IMAGE_ENCODER ]
processor_text = processors [ Modality . TEXT_ENCODER ]
processor_image = processors [ Modality . IMAGE_ENCODER ]

埋め込まれた画像：

 import requests
from io import BytesIO
from PIL import Image

image_url = 'https://media-cdn.tripadvisor.com/media/photo-s/1b/28/6b/53/lovely-armenia.jpg'
image = Image . open ( BytesIO ( requests . get ( image_url ). content ))
image_data = processor_image ( image )
image_features , image_embedding = model_image . encode ( image_data , return_features = True )

埋め込みクエリ：

 text = 'a cityscape bathed in the warm glow of the sun, with varied architecture and a towering, snow-capped mountain rising majestically in the background'
text_data = processor_text ( text )
text_features , text_embedding = model_text . encode ( text_data , return_features = True )

詳細については、ご覧ください。

python/readme.mdの埋め込みモデルに関するPythonドキュメント
javascript/readme.mdの埋め込みモデルに関するJavaScriptドキュメント
swift/readme.mdの埋め込みモデルに関する迅速なドキュメント

生成モデル

生成モデルはネイティブに互換性があります

 from transformers import AutoModel , AutoProcessor

model = AutoModel . from_pretrained ( 'unum-cloud/uform-gen2-dpo' , trust_remote_code = True )
processor = AutoProcessor . from_pretrained ( 'unum-cloud/uform-gen2-dpo' , trust_remote_code = True )

prompt = 'Question or Instruction'
image = Image . open ( 'image.jpg' )

inputs = processor ( text = [ prompt ], images = [ image ], return_tensors = 'pt' )

with torch . inference_mode ():
     output = model . generate (
        ** inputs ,
        do_sample = False ,
        use_cache = True ,
        max_new_tokens = 256 ,
        eos_token_id = 151645 ,
        pad_token_id = processor . tokenizer . pad_token_id
    )
prompt_len = inputs [ 'input_ids' ]. shape [ 1 ]
decoded_text = processor . batch_decode ( output [:, prompt_len :])[ 0 ]

詳細については、ご覧ください。

Python/readme.mdの生成モデルに関するPythonドキュメント
生成モデルに関するJavaScriptドキュメント
生成モデルに関する迅速なドキュメント

技術的な詳細

ダウンキャスティング、量子化、マトリオシュカ、スライス

アプリケーションに応じて、埋め込みは、多くのリコールを失うことなく、数値表現をより小さな数値にダウンキャストできます。 f32からf16への切り替えは、ほぼすべての場合に推奨されます。線形スケーリングでi8に切り替えることも可能ですが、数百万の検索可能なエントリを備えた大規模なコレクションのリコールでは顕著になります。同様に、高次元の埋め込み（512または768）の場合、一般的な戦略は、より速い検索のためにそれらを単一ビット表現に量子化することです。

 import numpy as np

f32_embedding : np . ndarray = model . encode_text ( text_data , return_features = False )
f16_embedding : np . ndarray = f32_embedding . astype ( np . float16 )
i8_embedding : np . ndarray = ( f32_embedding * 127 ). astype ( np . int8 )
b1_embedding : np . ndarray = np . packbits (( f32_embedding > 0 ). astype ( np . uint8 ))

量子化への代替アプローチは、埋め込みがより小さな部分にスライスされ、検索が階層的に実行されるマトリオシュカ埋め込みを使用することです。

 import numpy as np

large_embedding : np . ndarray = model . encode_text ( text_data , return_features = False )
small_embedding : np . ndarray = large_embedding [:, : 256 ]
tiny_embedding : np . ndarray = large_embedding [:, : 64 ]

両方のアプローチは、Usearch Vector-SearchエンジンとSIMSIMD数字ライブラリによってネイティブにサポートされています。小さなコレクション（最大数百万のエントリ）を扱い、低遅延のコサイン距離計算を探している場合、Simsimdを使用してトーチ、Numpy、Scipy、およびVanilla Pythonよりも5x-2500倍のパフォーマンス改善を達成できます。

 from simsimd import cosine , hamming

distance : float = cosine ( f32_embedding , f32_embedding ) # 32x SciPy performance on Apple M2 CPU
distance : float = cosine ( f16_embedding , f16_embedding ) # 79x SciPy performance on Apple M2 CPU
distance : float = cosine ( i8_embedding , i8_embedding ) # 133x SciPy performance on Apple M2 CPU
distance : float = hamming ( b1_embedding , b1_embedding ) # 17x SciPy performance on Apple M2 CPU

同様に、大規模なコレクション（サーバーごとの最大数十億エントリ）を扱って、ハイスループット検索を探している場合、USEarchを使用してFAISSおよびその他のVector-Searchソリューションよりも100倍のパフォーマンス改善を達成できます。ここにいくつかの例があります：

 from usearch . index import Index

f32_index = Index ( ndim = 64 , metric = 'cos' , dtype = 'f32' ) # for Matryoshka embeddings
f16_index = Index ( ndim = 64 , metric = 'cos' , dtype = 'f16' ) # for Matryoshka embeddings
i8_index = Index ( ndim = 256 , metric = 'cos' , dtype = 'i8' ) # for quantized embeddings
b1_index = Index ( ndim = 768 , metric = 'hamming' , dtype = 'b1' ) # for binary embeddings

コンパクトパッケージ

Pytorchは、特にEdgeまたはIoTデバイスで走る場合は、持ち運びが重い依存関係です。バニラONNXランタイムを使用すると、メモリの消費と展開の遅延を大幅に減らすことができます。

$ conda create -n uform_torch python=3.10 -y
$ conda create -n uform_onnx python=3.10 -y
$ conda activate uform_torch && pip install -e " .[torch] " && conda deactivate
$ conda activate uform_onnx && pip install -e " .[onnx] " && conda deactivate
$ du -sh $( conda info --envs | grep ' uform_torch ' | awk ' {print $2} ' )
> 5.2G    ~ /conda/envs/uform_torch
$ du -sh $( conda info --envs | grep ' uform_onnx ' | awk ' {print $2} ' )
> 461M    ~ /conda/envs/uform_onnx

その体重のほとんどは、モデルとランタイムの両方でさらに100 MBに減少させることができます。 XNNPack、CUDA、NVIDIA GPUのTensorrt、IntelのOpenVino、WindowsのDirectMl、AMDのROCM、AppleデバイスのCoremlなどを含む、サポートされている多くのONNX実行プロバイダーのいずれかを選択できます。

CLIのマルチモーダルチャット

生成モデルは、コマンドラインでのチャットのようなエクスペリエンスに使用できます。そのためには、UFormパッケージで使用できるuform-chat CLIツールを使用できます。

$ pip install uform
$ uform-chat --model unum-cloud/uform-gen2-dpo --image=zebra.jpg
$ uform-chat --model unum-cloud/uform-gen2-dpo 
>     --image= " https://bit.ly/3tIVg9M " 
>     --device= " cuda:0 " 
>     --fp16

拡大する

uform

uform

ポケットサイズのマルチモーダルAI
コンテンツの理解と生成のため

特徴

モデル

埋め込みモデル

生成モデル

クイックスタートの例

埋め込みモデル

生成モデル

技術的な詳細

ダウンキャスティング、量子化、マトリオシュカ、スライス

コンパクトパッケージ

CLIのマルチモーダルチャット

UFO障害物レースモバイルゲーム

QEDAUFONアプリ

UFO インベイジョンフリー正規品

UFO アーカイブ記事システム

泥棒はUFOを収集します

UFO

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

uform

uform

ポケットサイズのマルチモーダルAIコンテンツの理解と生成のため

特徴

モデル

埋め込みモデル

生成モデル

クイックスタートの例

埋め込みモデル

生成モデル

技術的な詳細

ダウンキャスティング、量子化、マトリオシュカ、スライス

コンパクトパッケージ

CLIのマルチモーダルチャット

ポケットサイズのマルチモーダルAI
コンテンツの理解と生成のため