SkyPaint AI DiffusionダウンロードSkyPaint AI Diffusionソースコードダウンロード

SkyPaint AI Diffusion

その他のソースコード

1.0.0

ダウンロード

Skypaint-Chinese-en-V-1.0

英語文書

抱きしめるフェイスモデルのホームページ：リンク

Skypaintは、単一性インテリジェンスによって開発されている中国語と英語のバイリンガルテキストで画像を生成するプロジェクトです。

私たちのモデルを使用して、いくつかの中国語または英語のテキストを入力すると、マシンは人間の画家のような現代アートスタイルで作業を描くことができます。ここにいくつかの例があります：

エフェクトディスプレイ

中国語

機械犬

城の夕日宮崎アニメーション

花が倒れます

半分の鶏と半分の男、強い

鶏肉、あなたはとても美しいです

体験トライアル

Skypaint、Skypaintにアクセスしてください

WeChatのQRコードをスキャンして、MINIプログラムで体験することもできます。 GH_0E89C7C92D3F_430

モデルの利点

Skypaint Text Generation Picture Modelは、主に2つの部分、つまり迅速な単語テキストエンコーダーモデルと拡散モデルで構成されています。したがって、最適化は2つのステップに分割されます。まず、Openai-Clipに基づいて、Skypaintが中国と英語の認識能力を持つように最適化され、その後、Skypaintが最適化され、高品質の写真を作成するための現代の芸術能力があります。

モデル関数

中国語と英語とミックス中国語と英語の迅速な言葉の入力をサポートしています
モダンアートスタイルの高品質の写真の生成をサポートしています
stable_diffusion_1.x公式モデルと関連する微調整モデルをサポートする英語の迅速な言葉
Stable_Diffusionの迅速な単語を保持する習慣と方法を使用します

テストケース

モデルダウンロードアドレスSkypaint-V1.0

 from diffusers import StableDiffusionPipeline

device = 'cuda'
pipe = StableDiffusionPipeline . from_pretrained ( "path_to_our_model" ). to ( device )

prompts = [
    '机械狗' ,
    '城堡 大海 夕阳 宫崎骏动画' ,
    '花落知多少' ,
    '鸡你太美' ,
]

for prompt in prompts :
    prompt = 'sai-v1 art, ' + prompt
    image = pipe ( prompt ). images [ 0 ]  
    image . save ( "%s.jpg" % prompt )

——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

SkyClipモデルの紹介

Skyclipは、中国語と英語のバイリンガルクリップモデルをトレーニングする効率的な方法を使用して得られるクリップモデルです。このメソッドは、Openai-Clipのテキストエンコーダーのみを変更し、Openai-Clipを使用して画像とテキストの検索機能を実現するために使用できます。

Skyclipトレーニングデータソース

中国語と英語の機械翻訳タスクの並列エッセイ
国連中国語と英語の並行言語資料
ライオン中国語と英語のコーパス（部分）
ウーコン中国のコーパス（部分的）
Ai-Challenger翻訳は、中国と英語のエッセイをタスクします
古代の詩と英語の素材
魔法の本の一般的な言葉で構成される中国語と英語の資料

Skyclipトレーニング方法

Openai-Clipのテキストは、教師モデルと同じサイズを採用しています1、L2、COS距離を使用して、学生モデルの中国語と英語のHidden_stateを徐々に教師モデルのHidden_stateに徐々にアプローチするようにします。並列コーパスの中国と英語には自然な不平等特性があるため、平行中国と英語を可能な限り近くにするために、トレーニングプロセス中に中国語のデコーダーを追加し、学生モデルの中国語と英語のdestate_StateをデコーダーのHidden_state入力として使用し、翻訳タスクを通じて中国と英語の整合を達成するのを支援します。

SkyClipモデルの評価

現在、FlickR30K-CNのSkyclipのゼロショットパフォーマンスを評価し、主に中国の能力を確保するために、いくつかの関連する能力を確保しました。

flickr30k-cn検索：

タスク	テキストから画像へ			画像からテキスト			氏
設定	ゼロショット			ゼロショット
メトリック	R@1	R@5	r@10	R@1	R@5	r@10
Taiyi-326m	53.8	79.9	86.6	64.0	90.4	96.1	78.47
altclip	50.7	75.4	83.1	73.4	92.8	96.9	78.72
ウーコン	51.9	78.6	85.9	75	94.4	97.7	80.57
R2D2	42.6	69.5	78.6	63.0	90.1	96.4	73.37
CNクリップ	68.1	89.7	94.5	80.2	96.6	98.2	87.87
Skyclip	58.8	82.6	89.6	78.8	96.1	98.3	84.04

Skyclipは、グラフィックとテキストの類似性を計算します

 from PIL import Image
import requests
import clip
import torch
from transformers import BertTokenizer
from transformers import CLIPProcessor , CLIPModel , CLIPTextModel
import numpy as np

query_texts = [ '一个人' , '一辆汽车' , '两个男人' , '两个女人' ]  # 这里是输入提示词，可以随意替换。
# 加载SkyCLIP 中英文双语 text_encoder
text_tokenizer = BertTokenizer . from_pretrained ( "./tokenizer" )
text_encoder = CLIPTextModel . from_pretrained ( "./text_encoder" ). eval ()
text = text_tokenizer ( query_texts , return_tensors = 'pt' , padding = True )[ 'input_ids' ]

url = "http://images.cocodataset.org/val2017/000000040083.jpg"  #这里可以换成任意图片的url
# 加载CLIP的image encoder
clip_model = CLIPModel . from_pretrained ( "openai/clip-vit-large-patch14" )
clip_text_proj = clip_model . text_projection
processor = CLIPProcessor . from_pretrained ( "openai/clip-vit-large-patch14" )
image = processor ( images = Image . open ( requests . get ( url , stream = True ). raw ), return_tensors = "pt" )

with torch . no_grad ():
    image_features = clip_model . get_image_features ( ** image )
    text_features = text_encoder ( text )[ 0 ]
    # sep_token对应于openai-clip的eot_token
    sep_index = torch . nonzero ( text == student_tokenizer . sep_token_id )
    text_features = text_features [ torch . arange ( text . shape [ 0 ]), sep_index [:, 1 ]]
    # 乘text投影矩阵
    text_features = clip_text_proj ( text_features )
    image_features = image_features / image_features . norm ( dim = 1 , keepdim = True )
    text_features = text_features / text_features . norm ( dim = 1 , keepdim = True )
    # 计算余弦相似度 logit_scale是尺度系数
    logit_scale = clip_model . logit_scale . exp ()
    logits_per_image = logit_scale * image_features @ text_features . t ()
    logits_per_text = logits_per_image . t ()
    probs = logits_per_image . softmax ( dim = - 1 ). cpu (). numpy ()
    print ( np . around ( probs , 3 ))

拡散モデル

私たちのデータは、フィルタリングされたLaionデータセットをトレーニングデータとして使用し、テキストの前には「SAI-V1 ART」がタグとして先行し、モデルがより迅速に必要なスタイルと品質を学習できるようにします。事前に訓練されたモデルでは、安定した拡散V1-5を事前訓練として使用し、16 A100を50時間使用しました。現在、モデルはまだ継続的に最適化されており、将来的にはより安定したモデルの更新があります。

ライセンス

Creativemlオープンレール-M

開発者グループに参加してください

WeChatのQRコードをスキャンして、開発者グループに参加します。

ペイント

興味があるなら、見つめることを忘れないでください〜

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-01
サイズ 7.79MB
から Github

SkyPaint AI Diffusion

Skypaint-Chinese-en-V-1.0

英語文書

抱きしめるフェイスモデルのホームページ：リンク

Skypaintは、単一性インテリジェンスによって開発されている中国語と英語のバイリンガルテキストで画像を生成するプロジェクトです。

私たちのモデルを使用して、いくつかの中国語または英語のテキストを入力すると、マシンは人間の画家のような現代アートスタイルで作業を描くことができます。ここにいくつかの例があります：

エフェクトディスプレイ

中国語

体験トライアル

モデルの利点

モデル関数

テストケース

SkyClipモデルの紹介

Skyclipトレーニングデータソース

Skyclipトレーニング方法

SkyClipモデルの評価

Skyclipは、グラフィックとテキストの類似性を計算します

拡散モデル

ライセンス

開発者グループに参加してください

WeChatのQRコードをスキャンして、開発者グループに参加します。

興味があるなら、見つめることを忘れないでください〜

stable diffusion webui forge

krita ai diffusion

stable diffusion webui

その前に

AIクリエイター

ジャスパーAI

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf