A Bytedance, juntamente com equipes de pesquisa da Universidade da China e Cingapura, lançou um novo sistema de edição de imagens de IA chamado PhotoDoodle, que está redefinindo nossa percepção da criação de imagens. A PhotoDoodle, baseada no modelo de fluxo.1, é capaz de aprender estilo artístico a partir de um pequeno número de amostras e executar instruções de edição específicas com precisão, abrindo novas possibilidades de expressão criativa.
A tecnologia principal da Photodoodle é o sistema omnieditor desenvolvido pela equipe de pesquisa, que utiliza inteligentemente a tecnologia Lora (Adaptive de baixo rank) para melhorar o fluxo.1 Modelo de geração de imagens da startup alemão Black Forest Labs. Essa abordagem não requer uma alteração completa dos pesos do modelo original, mas permite a capacidade de ajustar de pequenos conceitos para a conversão de estilo completo, adicionando uma matriz pequena dedicada.
Os pesquisadores usaram uma variante chamada Editlora para treinar Omnieditor para replicar um estilo artístico único. Por meio de pares selecionados de imagens criadas em colaboração com os artistas, o sistema é capaz de entender as sutilezas de cada estilo artístico.

A inovação mais atraente da Photodoodle é a tecnologia "codificação de posição". Essa tecnologia permite que a IA lembre -se da localização exata de cada pixel na imagem original, mantendo assim a integridade da composição da imagem ao adicionar novos elementos e garantir que os elementos recém -adicionados se misturem naturalmente ao fundo.
Isso resolve os principais pontos problemáticos da IA tradicional de edição de imagens: alterando todo o estilo de imagem ou editando apenas áreas locais, dificultando a incorporação de novos elementos decorativos, mantendo a perspectiva e o fundo originais. A PhotoDoodle pode alcançar esse avanço sem treinamento adicional de parâmetros, melhorando bastante a eficiência do processamento.

Nos testes reais, a Photodoodle lida facilmente com instruções complexas de "Making the Cat Whiter" para "Adicionar um monstro rosa subindo um edifício". Comparado com a arte anterior, ele tem um desempenho excelentemente em benchmarks, como a similaridade da descrição do texto da imagem, excedendo em muito seus pares se a edição direcionada ou as mudanças globais de imagem.

Atualmente, o PhotoDoodle requer dezenas de pares de imagens e milhares de etapas de treinamento para dominar o novo estilo. A equipe de pesquisa voltou sua atenção para métodos de treinamento de imagem única mais eficientes e lançou um conjunto de dados contendo seis estilos de arte diferentes e mais de 300 pares de imagens. O código relevante também foi de origem aberta no GitHub, fornecendo uma base sólida para pesquisas futuras.
Endereço: https://github.com/showlab/photodoodle