Redes leves que controlam informações espaciais de difusão estável usando o ajuste fino chinês
Em inglês
A Controlora é uma engenharia que usa a tecnologia LORA para simplesmente depurar a difusão estável para controlar suas informações espaciais. Geralmente, uma rede simples e pequena é usada (~ 7m parâmetros, ~ 25m de armazenamento). Mais informações estão disponíveis na Controlora.
Este projeto pode ser considerado como um garfo de controlora. E dois campos chineses são dados com base no método do controlora.
Você pode usar o espaço on -line do HuggingFace para fazer upload de suas fotos e texto rápido chinês para ver os resultados da saída. Como é implantado e usado na CPU, recomendo que você faça o download desses projetos localmente e execute -os usando sua GPU. (Devido à configuração de "IS_AVALEBL", trocará dinamicamente os dispositivos com base se há uma GPU)
| nome | Link do modelo de huggingface | Link do espaço Huggingface |
|---|---|---|
| Controlnet por chinês chineses? | https://huggingface.co/svjack/canny-control-lora-zh | https://huggingface.co/spaces/svjack/controlnet-canny-chinese |
| Controlnet por pose chinesa? | https://huggingface.co/svjack/pose-control-lora-zh | https://huggingface.co/spaces/svjack/controlnet-pose-chinese |
pip install -r requirements.txtApós a instalação, você pode CD em ControlNet-Chinese e Controlnet-Pose-Chinese para executar separadamente
python app.pyAbra o navegador e vá para http: // localhost: 7860 para experimentar no navegador.
| Nome | Incitar | Imagem original | Imagem da espinha dorsal | Imagem transformada |
|---|---|---|---|---|
| Controlnet por chinês chineses? | Um palhaço brincalhão | ![]() | ![]() | ![]() |
| Controlnet por chinês chineses? | Noite cheia de meteoros | ![]() | ![]() | ![]() |
| Controlnet por chinês chineses? | Vampiro de gato | ![]() | ![]() | ![]() |
| Controlnet por pose chinesa? | Vigilante do campo de trigo | ![]() | ![]() | ![]() |
| Controlnet por pose chinesa? | Oficial Militar de uniforme militar | ![]() | ![]() | ![]() |
LORA: A adaptação de baixo rank de grandes modelos de linguagem Lora reduz o número de parâmetros de treinamento aprendendo o par de matrizes de decomposição de classificação e congelando o peso original. Isso reduz bastante as limitações de armazenamento das tarefas a jusante de ajuste fino e troca de tarefas pelo grande modelo, abrindo o potencial de inferência ao implantar. Lora também supera muitos outros modelos de ajuste (como adaptador, ajuste de prefixo e ajuste fino)
No campo de difusão estável, também forneço três modelos de difusão estáveis ajustados usando o LORA. O conjunto de dados CC3M é baixado e convertido pelo SVJack/IMG2DataSet-PQ2HF-transform-toolkit.
| nome | Link do modelo de huggingface | linguagem | Tune o conjunto de dados |
|---|---|---|---|
| SVJack/Pokemon-SD-Lora-Zh | https://huggingface.co/svjack/pokemon-sd-lora-zh | chinês | Svjack/Pokemon-Blip-Captions-en-Zh |
| svjack/conceito-caption-3m-sd-lora-en | https://huggingface.co/svjack/concept-caption-3m-sd-lora-en | Inglês | Legendas conceituais (CC3M) |
| svjack/conceito-caption-3m-sd-lora-zh | https://huggingface.co/svjack/concept-caption-3m-sd-lora-zh | chinês | Legendas conceituais (CC3M) |
Você pode descobrir como usar esses modelos através do cartão modelo.
svjack - [email protected] - [email protected]
Link do projeto: https: //github.com/svjack/controllora-chinese