Como fazer upgrade de IA em qualquer imagem com difusão estável

Pintura digital de um carro usando capacete espacial, com um lado ampliado para uma resolução mais alta.

Decepcionado com a baixa resolução de suas criações de Difusão Estável? Ou talvez você tenha fotos “reais” mais antigas que gostaria de aprimorar? O Stable Diffusion WebUI possui ferramentas exatamente para isso, e orientaremos você durante o processo enquanto compartilhamos algumas dicas que aprendemos ao longo do caminho.

Neste guia, presumimos que você tenha o Stable Diffusion WebUI do automatic11111 instalado e em execução . É a edição definitiva do Stable Diffusion e torna o upscaling (junto com muitos outros aspectos do trabalho com imagens de IA) muito mais simples e intuitivo em comparação com uma instalação padrão do Stable Diffusion .

Como aprimorar imagens em difusão estável

Quer você tenha digitalizado uma foto antiga , uma foto digital antiga ou uma imagem gerada por IA de baixa resolução , inicie o Stable Diffusion WebUI e siga as etapas abaixo.

1. Faça upload de uma imagem

Todas as ferramentas de upscaling do Stable Diffusion estão localizadas na guia “Extras”, então clique nela para abrir o menu de upscaling.

Clique no

Ou, se você acabou de gerar uma imagem que deseja aumentar, clique em “Enviar para Extras” e você será levado para lá com a imagem no lugar para aumento. Caso contrário, você pode arrastar e soltar sua imagem no campo de upload de Extras.

Uma foto colocada no campo de upload de extras no Stable Diffusion WebUI.

Se você tiver várias imagens que deseja aprimorar de uma vez, mude para a guia “Processo em lote” e solte várias de uma vez. Na minha experiência, porém, isso nem sempre funciona, e

Recomendado:  Agora você pode comprar o monitor de jogos de 144 Hz semelhante a uma TV da Samsung

Etapa 2: escolha um tamanho

Use o controle deslizante “Redimensionar” para ajustar o tamanho que a imagem de saída deve ter. Por padrão, você usará a guia “Dimensionar por”, que permite multiplicar a resolução atual da imagem por um determinado número. Por exemplo, se você definir como 2 e sua imagem de entrada for 512×512, a imagem será aumentada para 1024×1024.

Ajusta a

Alternativamente, você pode mudar para a guia “Escala para” e inserir a resolução específica desejada. Preste muita atenção à proporção atual da imagem e desmarque a opção “Cortar para caber” se não quiser que as bordas sejam cortadas.

Se você está planejando fazer um papel de parede, lembre-se de que a maioria dos telefones modernos usa uma proporção de 9:16 , os tablets usam 4:3 e os computadores 16:9 (embora os monitores ultralargos vão até 21:9).

Etapa 3: escolha um upscaler

Agora, é aqui que é fácil se sentir sobrecarregado: você tem à sua disposição vários algoritmos de upscaling diferentes, todos com nomes enigmáticos, e você deve escolher um.

O que você deve escolher depende, em última análise, do tipo de imagem que você está ampliando, como uma foto, uma pintura, arte de anime ou outro tipo de arte no estilo “desenho animado”. Algoritmos diferentes também funcionam em velocidades diferentes, então também pode depender do tipo de pressa em que você está.

Lista suspensa no Stable Diffusion WebUI mostrando upscalers disponíveis.

Qual é o melhor upscaler de difusão estável?

Experimentar os diferentes algoritmos é a única maneira de saber exatamente qual dos upscalers integrados do Stable Diffucion é melhor para o seu caso. Dito isto, se você quiser uma recomendação básica, estas geralmente são boas escolhas:

  • Fotos: ESRGAN_4x
  • Pinturas: R-ESRGAN 4x+
  • Anime: R-ESRGAN 4x+ Anime6B
Recomendado:  Por que ainda uso um teclado IBM Modelo M de 34 anos

Etapa 4: sofisticado!

Depois de definir suas configurações, é hora de fazer upgrade. Clique no grande botão “Gerar” para iniciar o processo.

Uma foto colocada no campo de upload de extras no Stable Diffusion WebUI.

Na primeira vez que você fizer upgrade com um determinado algoritmo, o Stable Diffusion precisará baixar os modelos apropriados, portanto, espere que a execução inicial leve mais tempo (o que dependerá em parte da velocidade da sua conexão).

Assim que o upscaling for concluído, você encontrará as imagens de saída no seu

 extras-images 

subdiretório do seu

 outputs 

pasta.

Dicas para melhores resultados de upscaling

Se as imagens não estiverem exatamente como você esperava, há algumas coisas que você pode fazer para obter melhores resultados com as ferramentas de aumento de escala do Stable Diffusion.

Experimente um combo Upscaler

Para upscaling avançado, você pode selecionar um segundo algoritmo que aplicará seu efeito à mesma imagem, e os resultados dos dois upscalers serão mesclados para o produto final. (Para ser claro, um segundo upscaler não dobrará a resolução de saída.) Isso é útil se você descobrir que dois upscalers diferentes produzem melhores resultados por motivos diferentes.

Por exemplo, em meus testes, descobri que o ESRGAN_4x era melhor para manter os detalhes, mas o SwinIR tinha menos granulação, ao mesmo tempo que introduzia alguns artefatos de bloco irritantes. Eu poderia obter o melhor dos dois mundos definindo ESRGAN_4x como upscaler primário e SwinIR como secundário, com visibilidade de 0,5.

Upscaler secundário selecionado no Stable Diffusino WebUI.

Corrigir relações de aspecto ruins com pintura externa

Se você tiver uma imagem que deseja usar em uma proporção específica, mas a imagem ampliada for muito alta ou larga demais para ser usada sem corte, você pode corrigir esse problema usando a ferramenta “outpainting” do Stable Diffusion . Ele permite gerar “mais” da imagem, adicionando imagens nas laterais ou na parte superior e inferior que não existiam antes.

Recomendado:  O que é uma caneta USI?

Para começar a pintar, coloque sua imagem na entrada img2img e procure o menu suspenso “Script” e selecione Outpainting mk2 ou Poor Man’s Outpainting. Ajuste todas as configurações necessárias e clique em “Gerar”.

Como você descobrirá rapidamente, pintar bem é difícil e provavelmente é assunto para outro guia, especialmente com conteúdo de imagem complexo, como pessoas e animais. Dito isto, apenas brincando e sem fazer muitas alterações consegui gerar esta versão panorâmica da minha imagem que, à primeira vista, parece meio crível.

Foto ampliada de uma trilha de caminhada no outono com os lados esquerdo e direito gerados usando Difusão Estável.

Restaure rostos distorcidos com GPFGAN ou CodeFormer

Se houver o rosto de uma pessoa na imagem que você está ampliando, ela pode facilmente ficar distorcida e irreconhecível. Você, sem dúvida, também viu algumas das representações horríveis de rostos humanos do Stable Diffusion. Qualquer um dos casos ocorre quando você deseja ajustar os  controles deslizantes de visibilidade GPFGAN  ou  CodeFormer . Cada um aplica uma camada de correção facial durante o processo de aumento de escala para corrigir aqueles olhos assustadores e rugas bizarras.

Se estiver usando o CodeFormer, você também pode ajustar o “peso” de seu efeito, que é como controlar seu nível de força (enquanto o controle deslizante de visibilidade é como ajustar a transparência da camada de correção). Quanto mais você aumenta o peso, mais o CodeFormer tentará corrigir. Isto pode melhorar ou degradar a imagem final dependendo da situação. Talvez você precise passar por algumas tentativas e erros para obter o melhor resultado possível.

GPFGAN vs. CodeFormer para restauração facial

Embora ambas sejam ferramentas capazes, o GPFGAN geralmente é melhor para restaurar a estrutura do rosto (olhos em particular), mas o CodeFormer é melhor para corrigir texturas da pele. GPFGAN tem a tendência de dar à pele humana uma aparência estranha e ultrassuave, então se você notar isso acontecendo, experimente o CodeFormer. Alternativamente, combine os dois e tente obter o melhor dos dois mundos. Novamente, a experimentação é fundamental.

Use os controles deslizantes GFPGAN e CodeFormer para adicionar correção facial às suas imagens ampliadas.

Em termos de velocidade, o GPFGAN é um pouco mais rápido que o CodeFormer. Portanto, se você deseja que seu aumento de escala aconteça o mais rápido possível, provavelmente você desejará contar com o GPFGAN.