Descarga SkyPaint AI Diffusion - Descargar el código fuente SkyPaint AI Diffusion Descarga

SkyPaint AI Diffusion

Otro código fuente

1.0.0

Descargar

Skypaint-chinese-en-v-1.0

Documento inglés

Página de inicio del modelo de cara de abrazo: enlaces

SkyPaint es un proyecto que genera imágenes en textos bilingües chinos e inglés desarrollados por Singularity Intelligence.

Usando nuestro modelo, ingresar varios textos chinos o ingleses permite a las máquinas dibujar obras con un estilo de arte moderno como los pintores humanos. Aquí hay algunos ejemplos:

Visualización de efectos

Chino

Perro mecánico

Castle Sea Sunset Miyazaki Animación

Cuantas flores caen

Medio pollo y medio hombre, fuerte

Pollo, eres tan hermosa

Experimentar el juicio

Visite SkyPaint, SkyPaint imagen

También puede escanear el código QR en WeChat y experimentarlo en el programa MINI: GH_0E89C7C92D3F_430

Ventajas del modelo

El modelo de imagen de generación de texto de SkyPaint consta principalmente de dos partes, a saber, el modelo de codificador de texto de palabras de inmediato y el modelo de difusión. Por lo tanto, nuestra optimización también se divide en dos pasos: primero, basado en el clip de OpenAI, el modelo de codificador de texto de palabras de inmediato está optimizado para permitir que SkyPaint tenga capacidades de reconocimiento chino e inglés, y luego, el modelo de difusión está optimizado, de modo que SkyPaint tiene capacidades de arte modernas para producir imágenes de alta calidad.

Funciones del modelo

Admite entrada china e inglesa y mixta china e inglesa
Admite la generación de imágenes de alta calidad en el estilo de arte moderno
Palabras de inmediato en inglés que admiten stable_diffusion_1.x modelo oficial y modelo de ajuste fino relacionado
Utilice hábitos y métodos para retener las palabras de inmediato de Stable_Diffusion

Casos de prueba

Dirección de descarga del modelo SkyPaint-V1.0

 from diffusers import StableDiffusionPipeline

device = 'cuda'
pipe = StableDiffusionPipeline . from_pretrained ( "path_to_our_model" ). to ( device )

prompts = [
    '机械狗' ,
    '城堡 大海 夕阳 宫崎骏动画' ,
    '花落知多少' ,
    '鸡你太美' ,
]

for prompt in prompts :
    prompt = 'sai-v1 art, ' + prompt
    image = pipe ( prompt ). images [ 0 ]  
    image . save ( "%s.jpg" % prompt )

——————————————————————————————————————————————————————————————————————————————————————-

Introducción al modelo SkyClip

SkyClip es un modelo de clip obtenido por nosotros utilizando un método eficiente de capacitación de modelos de clip bilingües chinos e inglés. Este método solo cambia el codificador de texto de OpenAI-Clip, y puede usarse para realizar la función de recuperación de imagen y texto utilizando OpenAI-Clip.

Fuente de datos de entrenamiento de SkyClip

Ensayos paralelos para tareas de traducción automática en chino e inglés
Materiales de idiomas paralelos de las Naciones Unidas en chino e inglés
Laion chino e corpus inglés (parcial)
Corpus chino de Wukong (parcial)
Tareas de traducción de desafío AI-AI-ensayos chino e inglés
Poemas antiguos y materiales ingleses
Materiales chinos e ingleses compuestos de palabras comunes en libros mágicos

Método de entrenamiento de SkyClip

El Text_Encoder de OpenAI se usa como modelo de maestro y los parámetros están congelados. Como L1, L2, las distancias COS se utilizan para que el chino e inglés se oculte del modelo de estudiante se acerque gradualmente al Hidden_State del modelo de maestro. Debido a que los chinos e inglés del corpus paralelo tienen propiedades de desigualdad natural, para que el chino paralelo e inglés lo sea lo más cerca posible, también agregamos un decodificador chino durante el proceso de capacitación, utilizando el estado Hidden_State de China e Inglés de la Modelo de los Estudiantes como la entrada Hidden_state de la decodificadora y ayudando a lograr la alineación de los chinos e inglés a través de las tareas de traducción.

Evaluación del modelo de SkyClip

En la actualidad, evaluamos principalmente el rendimiento de disparo cero de SkyClip en FlickR30K-CN, y comparamos principalmente varios modelos de código abierto relevantes con capacidades chinas para garantizar la equidad de la comparación, todos seleccionamos los modelos basados en los tamaños de Vit-L/14 de OpenAI-Clip para múltiples tamaños de modelos.

Recuperación de Flickr30K-CN :

Tarea	Texto a imagen			Imagen a texto			SEÑOR
Configuración	Cero			Cero
Métrico	R@1	R@5	R@10	R@1	R@5	R@10
Taiyi-326m	53.8	79.9	86.6	64.0	90.4	96.1	78.47
Altclip	50.7	75.4	83.1	73.4	92.8	96.9	78.72
Wukong	51.9	78.6	85.9	75	94.4	97.7	80.57
R2D2	42.6	69.5	78.6	63.0	90.1	96.4	73.37
Clip de CN	68.1	89.7	94.5	80.2	96.6	98.2	87.87
Clip de cielo	58.8	82.6	89.6	78.8	96.1	98.3	84.04

SkyClip calcula la similitud de los gráficos y el texto

 from PIL import Image
import requests
import clip
import torch
from transformers import BertTokenizer
from transformers import CLIPProcessor , CLIPModel , CLIPTextModel
import numpy as np

query_texts = [ '一个人' , '一辆汽车' , '两个男人' , '两个女人' ]  # 这里是输入提示词，可以随意替换。
# 加载SkyCLIP 中英文双语 text_encoder
text_tokenizer = BertTokenizer . from_pretrained ( "./tokenizer" )
text_encoder = CLIPTextModel . from_pretrained ( "./text_encoder" ). eval ()
text = text_tokenizer ( query_texts , return_tensors = 'pt' , padding = True )[ 'input_ids' ]

url = "http://images.cocodataset.org/val2017/000000040083.jpg"  #这里可以换成任意图片的url
# 加载CLIP的image encoder
clip_model = CLIPModel . from_pretrained ( "openai/clip-vit-large-patch14" )
clip_text_proj = clip_model . text_projection
processor = CLIPProcessor . from_pretrained ( "openai/clip-vit-large-patch14" )
image = processor ( images = Image . open ( requests . get ( url , stream = True ). raw ), return_tensors = "pt" )

with torch . no_grad ():
    image_features = clip_model . get_image_features ( ** image )
    text_features = text_encoder ( text )[ 0 ]
    # sep_token对应于openai-clip的eot_token
    sep_index = torch . nonzero ( text == student_tokenizer . sep_token_id )
    text_features = text_features [ torch . arange ( text . shape [ 0 ]), sep_index [:, 1 ]]
    # 乘text投影矩阵
    text_features = clip_text_proj ( text_features )
    image_features = image_features / image_features . norm ( dim = 1 , keepdim = True )
    text_features = text_features / text_features . norm ( dim = 1 , keepdim = True )
    # 计算余弦相似度 logit_scale是尺度系数
    logit_scale = clip_model . logit_scale . exp ()
    logits_per_image = logit_scale * image_features @ text_features . t ()
    logits_per_text = logits_per_image . t ()
    probs = logits_per_image . softmax ( dim = - 1 ). cpu (). numpy ()
    print ( np . around ( probs , 3 ))

Modelo de difusión

Nuestros datos utilizan el conjunto de datos de Laion filtrado como datos de capacitación, y el texto está precedido por 'SAI-V1 Art' como la etiqueta para permitir que el modelo aprenda el estilo y la calidad que queremos más rápidamente. El modelo previamente capacitado utiliza la difusión estable-V1-5 como pre-entrenamiento, y 16 A100 se usaron durante 50 horas. En la actualidad, el modelo todavía se está optimizando continuamente, y habrá más actualizaciones de modelos estables en el futuro.