Descargar docarray - Descargar el código fuente de docarray

docarray

Pitón

v0.40.0

Descargar

Logotipo de docarray: la estructura de datos para datos no estructurados
La estructura de datos para datos multimodales

Tenga en cuenta que el ReadMe que está viendo actualmente es para Darterray> 0.30, que introduce algunos cambios significativos de Darterray 0.21. Si desea continuar usando el Darterray más antiguo <= 0.21, asegúrese de instalarlo a través de pip install docarray==0.21 . Consulte su Base de código, documentación y su rama de fijados en caliente para obtener más información.

Darterray es una biblioteca de Python elaborada por la representación, transmisión, almacenamiento y recuperación de datos multimodales. Administrada para el desarrollo de aplicaciones de IA multimodales, su diseño garantiza una integración perfecta con los extensos ecosistemas de aprendizaje de Python y Machine. A partir de enero de 2022, Darterray se distribuye abiertamente bajo la Licencia de Apache 2.0 y actualmente disfruta del estado de un proyecto Sandbox dentro de la LF AI & Data Foundation.

Ofrece apoyo nativo para Numpy , Pytorch , TensorFlow y Jax , que atiende específicamente a los escenarios de entrenamiento modelados .
⚡ Basado en Pydantic e instantáneamente compatible con marcos web y de microservicios como Fastapi y Jina .
? Proporciona soporte para bases de datos vectoriales como ** Weaviate, Qdrant, Elasticsearch, Redis , Mongo Atlas y Hnswlib .
⛓️ Permite la transmisión de datos como JSON a través de HTTP o como ProtoBuf sobre GRPC .

Instalación

Para instalar DarCarray desde la CLI, ejecute el siguiente comando:

pip install -U docarray

Nota Para usar DarCarray <= 0.21, asegúrese de instalar a través de pip install docarray==0.21 y consulte su base de código y documentos y su rama de fijados en caliente.

Empezar

¿Nuevo en Dargarray? Dependiendo de su caso de uso y antecedentes, hay múltiples formas de aprender sobre Darterray:

Viniendo de puro pytorch o tensorflow
Viniendo de Pydantic
Viniendo de Fastapi
Viniendo de Jina
Proveniente de una base de datos vectorial
Viniendo de Langchain

Representar

Darterray le permite representar sus datos de una manera inherentemente en sintonía con el aprendizaje automático.

Esto es particularmente beneficioso para varios escenarios:

? Estás entrenando un modelo : estás tratando con tensores de diferentes formas y tamaños, cada uno significa diferentes elementos. Desea un método para organizarlos lógicamente.
☁️ Estás sirviendo un modelo : digamos a través de Fastapi, y desea definir tus puntos finales de API con precisión.
Está analizando datos : tal vez para la implementación futura en sus proyectos de aprendizaje automático o ciencia de datos.

Familiarizado con Pydantic? ¡Te complacerá saber que Darterray no solo está construido sobre Pydantic, sino que también mantiene una compatibilidad completa con él! Además, ¡tenemos una sección específica dedicada a sus necesidades!

En esencia, Darterray facilita la representación de datos de una manera que refleje las dataclases de Python, con el aprendizaje automático como un componente integral:

 from docarray import BaseDoc
from docarray . typing import TorchTensor , ImageUrl
import torch


# Define your data model
class MyDocument ( BaseDoc ):
    description : str
    image_url : ImageUrl  # could also be VideoUrl, AudioUrl, etc.
    image_tensor : TorchTensor [ 1704 , 2272 , 3 ]  # you can express tensor shapes!


# Stack multiple documents in a Document Vector
from docarray import DocVec

vec = DocVec [ MyDocument ](
    [
        MyDocument (
            description = "A cat" ,
            image_url = "https://example.com/cat.jpg" ,
            image_tensor = torch . rand ( 1704 , 2272 , 3 ),
        ),
    ]
    * 10
)
print ( vec . image_tensor . shape )  # (10, 1704, 2272, 3)

Haga clic para más detalles

Echemos un vistazo más de cerca a cómo puede representar sus datos con Darterray:

 from docarray import BaseDoc
from docarray . typing import TorchTensor , ImageUrl
from typing import Optional
import torch


# Define your data model
class MyDocument ( BaseDoc ):
    description : str
    image_url : ImageUrl  # could also be VideoUrl, AudioUrl, etc.
    image_tensor : Optional [
        TorchTensor [ 1704 , 2272 , 3 ]
    ] = None  # could also be NdArray or TensorflowTensor
    embedding : Optional [ TorchTensor ] = None

Entonces, no solo puede definir los tipos de sus datos, ¡incluso puede especificar la forma de sus tensores!

 # Create a document
doc = MyDocument (
    description = "This is a photo of a mountain" ,
    image_url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
)

# Load image tensor from URL
doc . image_tensor = doc . image_url . load ()


# Compute embedding with any model of your choice
def clip_image_encoder ( image_tensor : TorchTensor ) -> TorchTensor :  # dummy function
    return torch . rand ( 512 )


doc . embedding = clip_image_encoder ( doc . image_tensor )

print ( doc . embedding . shape )  # torch.Size([512])

Componer documentos anidados

Por supuesto, puede componer documentos en una estructura anidada:

 from docarray import BaseDoc
from docarray . documents import ImageDoc , TextDoc
import numpy as np


class MultiModalDocument ( BaseDoc ):
    image_doc : ImageDoc
    text_doc : TextDoc


doc = MultiModalDocument (
    image_doc = ImageDoc ( tensor = np . zeros (( 3 , 224 , 224 ))), text_doc = TextDoc ( text = 'hi!' )
)

Raramente trabaja con un solo punto de datos a la vez, especialmente en aplicaciones de aprendizaje automático. Es por eso que puede recopilar fácilmente múltiples Documents :

Recopilar múltiples `Documents`

Al construir o interactuar con un sistema ML, generalmente desea procesar múltiples documentos (puntos de datos) a la vez.

Darterray ofrece dos estructuras de datos para esto:

DocVec : un vector de Documents . Todos los tensores en los documentos están apilados en un solo tensor. Perfecto para el procesamiento por lotes y usar dentro de los modelos ML .
DocList : una lista de Documents . Todos los tensores en los documentos se mantienen tal cual. Perfecto para transmitir, volver a rangar y barajar datos .

Echemos un vistazo a ellos, comenzando con DocVec :

 from docarray import DocVec , BaseDoc
from docarray . typing import AnyTensor , ImageUrl
import numpy as np


class Image ( BaseDoc ):
    url : ImageUrl
    tensor : AnyTensor  # this allows torch, numpy, and tensor flow tensors


vec = DocVec [ Image ](  # the DocVec is parametrized by your personal schema!
    [
        Image (
            url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
            tensor = np . zeros (( 3 , 224 , 224 )),
        )
        for _ in range ( 100 )
    ]
)

En el fragmento de código anterior, DocVec se parametriza mediante el tipo de documento que desea usar con él: DocVec[Image] .

¡Esto puede parecer extraño al principio, pero estamos seguros de que se acostumbrará rápidamente! Además, nos permite hacer algunas cosas interesantes, como tener acceso a granel a los campos que definió en su documento:

 tensor = vec . tensor  # gets all the tensors in the DocVec
print ( tensor . shape )  # which are stacked up into a single tensor!
print ( vec . url )  # you can bulk access any other field, too

La segunda estructura de datos, DocList , funciona de manera similar:

 from docarray import DocList

dl = DocList [ Image ](  # the DocList is parametrized by your personal schema!
    [
        Image (
            url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
            tensor = np . zeros (( 3 , 224 , 224 )),
        )
        for _ in range ( 100 )
    ]
)

Todavía puede acceder a gran parte de los campos de su documento:

 tensors = dl . tensor  # gets all the tensors in the DocList
print ( type ( tensors ))  # as a list of tensors
print ( dl . url )  # you can bulk access any other field, too

Y puede insertar, eliminar y agregar documentos a su DocList :

 # append
dl . append (
    Image (
        url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
        tensor = np . zeros (( 3 , 224 , 224 )),
    )
)
# delete
del dl [ 0 ]
# insert
dl . insert (
    0 ,
    Image (
        url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
        tensor = np . zeros (( 3 , 224 , 224 )),
    ),
)

Y puede cambiar sin problemas entre DocVec y DocList :

 vec_2 = dl . to_doc_vec ()
assert isinstance ( vec_2 , DocVec )

dl_2 = vec_2 . to_doc_list ()
assert isinstance ( dl_2 , DocList )

Enviar

Darterray facilita la transmisión de sus datos de manera inherentemente compatible con el aprendizaje automático.

Esto incluye apoyo nativo para ProtoBuf y GRPC , junto con HTTP y serialización a JSON, Jsonschema, Base64 y Bytes.

Esta característica resulta beneficiosa para varios escenarios:

☁️ Estás sirviendo un modelo , tal vez a través de marcos como Jina o Fastapi
? ️ Está distribuyendo su modelo en múltiples máquinas y necesita un medio eficiente para transmitir sus datos entre nodos
Está arquitectando un entorno de microservicio y requiere un método para la transmisión de datos entre microservicios

¿Estás familiarizado con Fastapi? ¡Estará encantado de saber que Darterray mantiene una compatibilidad completa con Fastapi! Además, ¡tenemos una sección dedicada específicamente para usted!

Cuando se trata de la transmisión de datos, la serialización es un paso crucial. Vamos a profundizar en cómo DarCarray optimiza este proceso:

 from docarray import BaseDoc
from docarray . typing import ImageTorchTensor
import torch


# model your data
class MyDocument ( BaseDoc ):
    description : str
    image : ImageTorchTensor [ 3 , 224 , 224 ]


# create a Document
doc = MyDocument (
    description = "This is a description" ,
    image = torch . zeros (( 3 , 224 , 224 )),
)

# serialize it!
proto = doc . to_protobuf ()
bytes_ = doc . to_bytes ()
json = doc . json ()

# deserialize it!
doc_2 = MyDocument . from_protobuf ( proto )
doc_4 = MyDocument . from_bytes ( bytes_ )
doc_5 = MyDocument . parse_raw ( json )

Por supuesto, la serialización no es todo lo que necesitas. Así que vea cómo Dargarray se integra con Jina y Fastapi .

Almacenar

Después de modelar y posiblemente distribuir sus datos, generalmente querrá almacenarlos en algún lugar. ¡Ahí es donde interviene Darterray!

Las tiendas de documentos proporcionan una forma perfecta, como su nombre indica, almacenar sus documentos. Ya sea local o remotamente, puede hacerlo todo a través de la misma interfaz de usuario:

? En el disco , como un archivo en su sistema de archivos local
? En AWS S3
☁️ en Jina Ai Cloud

La interfaz del almacén de documentos le permite presionar y extraer documentos hacia y desde múltiples fuentes de datos, todas con la misma interfaz de usuario.

Por ejemplo, veamos cómo funciona con el almacenamiento en el disco:

 from docarray import BaseDoc , DocList


class SimpleDoc ( BaseDoc ):
    text : str


docs = DocList [ SimpleDoc ]([ SimpleDoc ( text = f'doc { i } ' ) for i in range ( 8 )])
docs . push ( 'file://simple_docs' )

docs_pull = DocList [ SimpleDoc ]. pull ( 'file://simple_docs' )

Recuperar

Los índices de documentos le permiten indexar sus documentos en una base de datos vectorial para una recuperación eficiente basada en similitud.

Esto es útil para:

"Aumento de LLMS y chatbots con conocimiento del dominio (generación de recuperación aumentada)
? Aplicaciones de búsqueda neuronal
Sistemas de recomendación

Actualmente, los índices de documentos admiten Weaviate , Qdrant , Elasticsearch , Redis , Mongo Atlas y Hnswlib , ¡con más por venir!

La interfaz de índice de documentos le permite indexar y recuperar documentos de múltiples bases de datos vectoriales, todas con la misma interfaz de usuario.

Admite búsqueda de vectores ANN, búsqueda de texto, filtrado y búsqueda híbrida.

 from docarray import DocList , BaseDoc
from docarray . index import HnswDocumentIndex
import numpy as np

from docarray . typing import ImageUrl , ImageTensor , NdArray


class ImageDoc ( BaseDoc ):
    url : ImageUrl
    tensor : ImageTensor
    embedding : NdArray [ 128 ]


# create some data
dl = DocList [ ImageDoc ](
    [
        ImageDoc (
            url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
            tensor = np . zeros (( 3 , 224 , 224 )),
            embedding = np . random . random (( 128 ,)),
        )
        for _ in range ( 100 )
    ]
)

# create a Document Index
index = HnswDocumentIndex [ ImageDoc ]( work_dir = '/tmp/test_index' )


# index your data
index . index ( dl )

# find similar Documents
query = dl [ 0 ]
results , scores = index . find ( query , limit = 10 , search_field = 'embedding' )

Aprender Darterray

Dependiendo de sus antecedentes y su caso de uso, hay diferentes formas para que comprenda Darterray.

Viniendo de Dargarray <= 0.21

Haga clic para expandir

Si está utilizando DarCarray Version 0.30.0 o inferior, estará familiarizado con su API de DataClass.

Darterray> = 0.30 es esa idea, tomada en serio. Cada documento se crea a través de una interfaz de dataclass, cortesía de Pydantic.

Esto ofrece las siguientes ventajas:

Flexibilidad: no es necesario ajustar a un conjunto fijo de campos: sus datos definen el esquema
Multimodalidad: en su núcleo, los documentos son solo diccionarios. Esto hace que sea fácil crearlos y enviarlos desde cualquier idioma, no solo Python.

También puede estar familiarizado con nuestras antiguas tiendas de documentos para la integración de Vector DB. Ahora se les llama índices de documentos y ofrecen las siguientes mejoras (ver aquí para la nueva API):

Búsqueda híbrida: ahora puede combinar la búsqueda vectorial con la búsqueda de texto e incluso filtrar por campos arbitrarios
Listo para la producción: los nuevos índices de documentos son un envoltorio mucho más delgado en torno a las diversas bibliotecas de DB vectoriales, lo que los hace más robustos y más fáciles de mantener
Mayor flexibilidad: nos esforzamos por admitir cualquier configuración o configuración que pueda realizar a través del cliente de primera parte del DB

Por ahora, los índices de documentos son compatibles con Weaviate , Qdrant , Elasticsearch , Redis , Mongo Atlas , Exact Search y Hnswlib , con más por venir.

Viniendo de Pydantic

Haga clic para expandir

Si viene de Pydantic, puede ver documentos de Darterray como modelos Pydantic Juguese y Darterray como una colección de golosinas a su alrededor.

Más específicamente, nos propusimos hacer que Pydantic se ajuste al mundo ML , no reemplazándolo, sino construyendo encima de él!

Esto significa que obtiene los siguientes beneficios:

Tipos centrados en ML : tensor, torchtensor, incrustación, ..., incluida la validación de forma del tensor
Compatibilidad completa con Fastapi
Doclist y Docvec generalizan la idea de un modelo a una secuencia o lote de modelos. Perfecto para usar en modelos ML y otras tareas de procesamiento por lotes.
Tipos que están vivos : imageUrl can .load() una URL al tensor de imagen, Texturl puede cargar y tokenizar documentos de texto, etc.
Listo en la nube: Serialización a ProtoBuf para su uso con microservicios y GRPC
Documentos multimodales preconstruidos para diferentes modalidades de datos: imagen, texto, 3DMesh, video, audio y más. ¡Tenga en cuenta que todos estos son modelos pydánticos válidos!
Las tiendas de documentos e índices de documentos le permiten almacenar sus datos y recuperarlos utilizando Vector Search

La ventaja más obvia aquí es el soporte de primera clase para los datos centrados en ML , como {Torch, TF, ...}Tensor , Embedding , etc.

Esto incluye características útiles, como validar la forma de un tensor:

 from docarray import BaseDoc
from docarray . typing import TorchTensor
import torch


class MyDoc ( BaseDoc ):
    tensor : TorchTensor [ 3 , 224 , 224 ]


doc = MyDoc ( tensor = torch . zeros ( 3 , 224 , 224 ))  # works
doc = MyDoc ( tensor = torch . zeros ( 224 , 224 , 3 ))  # works by reshaping

try :
    doc = MyDoc ( tensor = torch . zeros ( 224 ))  # fails validation
except Exception as e :
    print ( e )
    # tensor
    # Cannot reshape tensor of shape (224,) to shape (3, 224, 224) (type=value_error)


class Image ( BaseDoc ):
    tensor : TorchTensor [ 3 , 'x' , 'x' ]


Image ( tensor = torch . zeros ( 3 , 224 , 224 ))  # works

try :
    Image (
        tensor = torch . zeros ( 3 , 64 , 128 )
    )  # fails validation because second dimension does not match third
except Exception as e :
    print ()


try :
    Image (
        tensor = torch . zeros ( 4 , 224 , 224 )
    )  # fails validation because of the first dimension
except Exception as e :
    print ( e )
    # Tensor shape mismatch. Expected(3, 'x', 'x'), got(4, 224, 224)(type=value_error)

try :
    Image (
        tensor = torch . zeros ( 3 , 64 )
    )  # fails validation because it does not have enough dimensions
except Exception as e :
    print ( e )
    # Tensor shape mismatch. Expected (3, 'x', 'x'), got (3, 64) (type=value_error)

Viniendo de Pytorch

Haga clic para expandir

Si viene de Pytorch, puede ver Darterray principalmente como una forma de organizar sus datos a medida que fluye a través de su modelo .

Te ofrece varias ventajas:

Expresar formas de tensor en sugerencias de tipo
Tensores grupales que pertenecen al mismo objeto , por ejemplo, una pista de audio y una imagen
Vaya directamente a la implementación , reutilizando su modelo de datos como un esquema de API de Fastapi o Jina
Conecte los componentes del modelo entre microservicios , utilizando ProtoBuf y GRPC

Darterray se puede usar directamente dentro de los modelos ML para manejar y representar multimodaldata. Esto le permite razonar sobre sus datos utilizando las abstracciones de Dargarray en el fondo del nn.Module , y proporciona un esquema compatible con FastAPI que facilita la transición entre el entrenamiento del modelo y el servicio del modelo.

Para ver el efecto de esto, primero observemos una implementación de vainilla pytorch de un modelo ML tri-modal:

 import torch
from torch import nn


def encoder ( x ):
    return torch . rand ( 512 )


class MyMultiModalModel ( nn . Module ):
    def __init__ ( self ):
        super (). __init__ ()
        self . audio_encoder = encoder ()
        self . image_encoder = encoder ()
        self . text_encoder = encoder ()

    def forward ( self , text_1 , text_2 , image_1 , image_2 , audio_1 , audio_2 ):
        embedding_text_1 = self . text_encoder ( text_1 )
        embedding_text_2 = self . text_encoder ( text_2 )

        embedding_image_1 = self . image_encoder ( image_1 )
        embedding_image_2 = self . image_encoder ( image_2 )

        embedding_audio_1 = self . image_encoder ( audio_1 )
        embedding_audio_2 = self . image_encoder ( audio_2 )

        return (
            embedding_text_1 ,
            embedding_text_2 ,
            embedding_image_1 ,
            embedding_image_2 ,
            embedding_audio_1 ,
            embedding_audio_2 ,
        )

No es muy fácil para los ojos si nos preguntas. Y lo que es peor, si necesita agregar una modalidad más, debe tocar cada parte de su base de código, cambiar el tipo de retorno forward() y hacer muchos cambios aguas abajo de eso.

Entonces, ahora veamos cómo se ve el mismo código con Dargarray:

 from docarray import DocList , BaseDoc
from docarray . documents import ImageDoc , TextDoc , AudioDoc
from docarray . typing import TorchTensor
from torch import nn
import torch


def encoder ( x ):
    return torch . rand ( 512 )


class Podcast ( BaseDoc ):
    text : TextDoc
    image : ImageDoc
    audio : AudioDoc


class PairPodcast ( BaseDoc ):
    left : Podcast
    right : Podcast


class MyPodcastModel ( nn . Module ):
    def __init__ ( self ):
        super (). __init__ ()
        self . audio_encoder = encoder ()
        self . image_encoder = encoder ()
        self . text_encoder = encoder ()

    def forward_podcast ( self , docs : DocList [ Podcast ]) -> DocList [ Podcast ]:
        docs . audio . embedding = self . audio_encoder ( docs . audio . tensor )
        docs . text . embedding = self . text_encoder ( docs . text . tensor )
        docs . image . embedding = self . image_encoder ( docs . image . tensor )

        return docs

    def forward ( self , docs : DocList [ PairPodcast ]) -> DocList [ PairPodcast ]:
        docs . left = self . forward_podcast ( docs . left )
        docs . right = self . forward_podcast ( docs . right )

        return docs

Se ve mucho mejor, ¿no? Usted ganas instantáneamente en legibilidad y capacidad de mantenimiento. Y por el mismo precio, puede convertir su modelo Pytorch en una aplicación Fastapi y reutilizar su definición de esquema de documentos (ver más abajo). Todo se maneja de manera pitónica confiando en pistas de tipo.

Viniendo de TensorFlow

Haga clic para expandir

Al igual que el enfoque de Pytorch, también puede usar Darterray con TensorFlow para manejar y representar datos multimodales dentro de su modelo ML.

En primer lugar, para usar DarCarray con TensorFlow primero necesitamos instalarlo de la siguiente manera:

 pip install tensorflow==2.12.0
pip install protobuf==3.19.0

En comparación con el uso de DarCarray con Pytorch, hay una diferencia principal cuando se usa con TensorFlow: mientras que TorchTensor de DarCarray es una subclase de torch.Tensor , este no es el caso del TensorFlowTensor : debido a algunas limitaciones técnicas de tf.Tensor , TensorFlowTensor de TFArray, sino que no es un subclass de tf.Tensor , sino que también es un tf.Tensor de tf. su atributo .tensor .

¿Cómo te afecta esto? Siempre que desee acceder a los datos del tensor, digamos, realice operaciones con él o entregamos a su modelo ML, en lugar de entregar su instancia TensorFlowTensor , debe acceder a su atributo .tensor .

Esto se vería como lo siguiente:

 from typing import Optional

from docarray import DocList , BaseDoc

import tensorflow as tf


class Podcast ( BaseDoc ):
    audio_tensor : Optional [ AudioTensorFlowTensor ] = None
    embedding : Optional [ AudioTensorFlowTensor ] = None


class MyPodcastModel ( tf . keras . Model ):
    def __init__ ( self ):
        super (). __init__ ()
        self . audio_encoder = AudioEncoder ()

    def call ( self , inputs : DocList [ Podcast ]) -> DocList [ Podcast ]:
        inputs . audio_tensor . embedding = self . audio_encoder (
            inputs . audio_tensor . tensor
        )  # access audio_tensor's .tensor attribute
        return inputs

Viniendo de Fastapi

Haga clic para expandir

¡Los documentos son modelos pydánticos (con un giro), y como tal son totalmente compatibles con Fastapi!

Pero, ¿por qué deberías usarlos, y no los modelos pydánticos que ya conoces y amas? ¡Buena pregunta!

Debido a las características, tipos y validaciones de ML primero, aquí
Porque Darterray puede actuar como un ORM para las bases de datos de vectores, similar a lo que SQLModel hace para las bases de datos SQL

Y para sellar el trato, permítanos mostrarle con qué facilidad los documentos de los documentos en su aplicación Fastapi:

 import numpy as np
from fastapi import FastAPI
from docarray . base_doc import DocArrayResponse
from docarray import BaseDoc
from docarray . documents import ImageDoc
from docarray . typing import NdArray , ImageTensor


class InputDoc ( BaseDoc ):
    img : ImageDoc
    text : str


class OutputDoc ( BaseDoc ):
    embedding_clip : NdArray
    embedding_bert : NdArray


app = FastAPI ()


def model_img ( img : ImageTensor ) -> NdArray :
    return np . zeros (( 100 , 1 ))


def model_text ( text : str ) -> NdArray :
    return np . zeros (( 100 , 1 ))


@ app . post ( "/embed/" , response_model = OutputDoc , response_class = DocArrayResponse )
async def create_item ( doc : InputDoc ) -> OutputDoc :
    doc = OutputDoc (
        embedding_clip = model_img ( doc . img . tensor ), embedding_bert = model_text ( doc . text )
    )
    return doc


input_doc = InputDoc ( text = '' , img = ImageDoc ( tensor = np . random . random (( 3 , 224 , 224 ))))

async with AsyncClient ( app = app , base_url = "http://test" ) as ac :
    response = await ac . post ( "/embed/" , data = input_doc . json ())

¡Al igual que una modelo pydantic de vainilla!

Viniendo de Jina

Haga clic para expandir

Jina ha adoptado Dargarray como su biblioteca para representar y serializar documentos.

Jina permite servir modelos y servicios construidos con Dargarray, lo que le permite servir y escalar estas aplicaciones que hacen uso completo de las capacilitas de serialización de Darterray.

 import numpy as np
from jina import Deployment , Executor , requests
from docarray import BaseDoc , DocList
from docarray . documents import ImageDoc
from docarray . typing import NdArray , ImageTensor


class InputDoc ( BaseDoc ):
    img : ImageDoc
    text : str


class OutputDoc ( BaseDoc ):
    embedding_clip : NdArray
    embedding_bert : NdArray


def model_img ( img : ImageTensor ) -> NdArray :
    return np . zeros (( 100 , 1 ))


def model_text ( text : str ) -> NdArray :
    return np . zeros (( 100 , 1 ))


class MyEmbeddingExecutor ( Executor ):
    @ requests ( on = '/embed' )
    def encode ( self , docs : DocList [ InputDoc ], ** kwargs ) -> DocList [ OutputDoc ]:
        ret = DocList [ OutputDoc ]()
        for doc in docs :
            output = OutputDoc (
                embedding_clip = model_img ( doc . img . tensor ),
                embedding_bert = model_text ( doc . text ),
            )
            ret . append ( output )
        return ret


with Deployment (
    protocols = [ 'grpc' , 'http' ], ports = [ 12345 , 12346 ], uses = MyEmbeddingExecutor
) as dep :
    resp = dep . post (
        on = '/embed' ,
        inputs = DocList [ InputDoc ](
            [ InputDoc ( text = '' , img = ImageDoc ( tensor = np . random . random (( 3 , 224 , 224 ))))]
        ),
        return_type = DocList [ OutputDoc ],
    )
    print ( resp )

Proveniente de una base de datos vectorial

Haga clic para expandir

Si se encontró con Dargarray como un cliente de base de datos de Vector Universal, puede pensarlo mejor como un nuevo tipo de ORM para las bases de datos de vectores . El trabajo de Darterray es tomar datos multimodales, anidados y específicos de dominio y asignarlo a una base de datos vectorial, almacenarlo allí y, por lo tanto, hacer que se pueda buscar:

 from docarray import DocList , BaseDoc
from docarray . index import HnswDocumentIndex
import numpy as np

from docarray . typing import ImageUrl , ImageTensor , NdArray


class ImageDoc ( BaseDoc ):
    url : ImageUrl
    tensor : ImageTensor
    embedding : NdArray [ 128 ]


# create some data
dl = DocList [ ImageDoc ](
    [
        ImageDoc (
            url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg" ,
            tensor = np . zeros (( 3 , 224 , 224 )),
            embedding = np . random . random (( 128 ,)),
        )
        for _ in range ( 100 )
    ]
)

# create a Document Index
index = HnswDocumentIndex [ ImageDoc ]( work_dir = '/tmp/test_index2' )


# index your data
index . index ( dl )

# find similar Documents
query = dl [ 0 ]
results , scores = index . find ( query , limit = 10 , search_field = 'embedding' )

Actualmente, Darterray admite las siguientes bases de datos de vectores:

Tejido
Qdrant
Elasticsearch v8 y v7
Rehacer
Milvus
ExactNnnMemorySearch como una alternativa local con búsqueda exacta de KNN.
Hnswlib como una alternativa de Ann local
Mongo Atlas

Actualmente está en progreso una integración de OpenSearch.

Por supuesto, esta es solo una de las cosas que Darraray puede hacer, ¡así que le recomendamos que revise el resto de este Readme!

Viniendo de Langchain

Haga clic para expandir

Con Darterray, puede conectar datos externos a LLM a través de Langchain. Darterray le brinda la libertad de establecer esquemas de documentos flexibles y elegir entre diferentes backends para el almacenamiento de documentos. Después de crear su índice de documentos, puede conectarlo a su aplicación Langchain utilizando DarArrayRetRiever.

Instalar langchain a través de:

pip install langchain

Definir un esquema y crear documentos:

 from docarray import BaseDoc , DocList
from docarray . typing import NdArray
from langchain . embeddings . openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings ()


# Define a document schema
class MovieDoc ( BaseDoc ):
    title : str
    description : str
    year : int
    embedding : NdArray [ 1536 ]


movies = [
    { "title" : "#1 title" , "description" : "#1 description" , "year" : 1999 },
    { "title" : "#2 title" , "description" : "#2 description" , "year" : 2001 },
]

# Embed `description` and create documents
docs = DocList [ MovieDoc ](
    MovieDoc ( embedding = embeddings . embed_query ( movie [ "description" ]), ** movie )
    for movie in movies
)

Inicializar un índice de documento utilizando cualquier backend compatible:

 from docarray . index import (
    InMemoryExactNNIndex ,
    HnswDocumentIndex ,
    WeaviateDocumentIndex ,
    QdrantDocumentIndex ,
    ElasticDocIndex ,
    RedisDocumentIndex ,
    MongoDBAtlasDocumentIndex ,
)

# Select a suitable backend and initialize it with data
db = InMemoryExactNNIndex [ MovieDoc ]( docs )

¡Finalmente, inicialice un retriever e integre en su cadena!

 from langchain . chat_models import ChatOpenAI
from langchain . chains import ConversationalRetrievalChain
from langchain . retrievers import DocArrayRetriever


# Create a retriever
retriever = DocArrayRetriever (
    index = db ,
    embeddings = embeddings ,
    search_field = "embedding" ,
    content_field = "description" ,
)

# Use the retriever in your chain
model = ChatOpenAI ()
qa = ConversationalRetrievalChain . from_llm ( model , retriever = retriever )

Alternativamente, puede usar tiendas vectoriales incorporadas. Langchain admite dos tiendas vectoriales: DarArrayInMemorySearch y DartarrayhnswSearch. Ambos son fáciles de usar y son los más adecuados para conjuntos de datos pequeños a medianos.