Como escrever um prompt de difusão estável incrível

Stable Diffusion , um popular gerador de arte de IA, requer prompts de texto para criar uma imagem. Às vezes, ele faz um trabalho incrível e gera exatamente o que você deseja com um aviso vago. Outras vezes, você obtém resultados abaixo do ideal. Aqui estão algumas dicas e truques para obter resultados ideais.

Como escrever um prompt de difusão estável

Se você já passou algum tempo com geradores de imagens de IA, como Stable Diffusion, DALL-E ou MidJourney , deve ter notado que um prompt bem formulado é crítico. Uma mensagem bem formulada é a diferença entre transformar sua ideia em uma ótima imagem e obter alguma monstruosidade de um vale misterioso com muitos dedos olhando para você.

As pessoas têm tentado descobrir as melhores maneiras de obter resultados ideais desde o lançamento do Stable Diffusion em agosto de 2022, e eles serão “ferreiros imediatos” ou “engenharia imediata” nos próximos anos. Isso é especialmente provável porque os pontos de verificação que informam como o Stable Diffusion gera imagens receberão atualizações periódicas. O prompt ideal será um alvo móvel no futuro próximo.

ATUALIZAÇÃO: 23/12/22

A versão mais recente do Stable Diffusion no momento desta atualização, versão 2.1, responde muito bem a solicitações negativas. Os prompts negativos são iguais aos prompts normais, mas em vez de descrever o que você deseja, você descreve o que não deseja. Tente gerar seu primeiro conjunto de imagens sem avisos negativos e, em seguida, adicione avisos negativos para remover os elementos que você não gosta.

Seja o mais específico possível

A difusão estável tende a prosperar em prompts específicos, especialmente quando comparada a algo como MidJourney. Você precisa dizer exatamente o que deseja. Aqui está um exemplo usando os animais favoritos da internet: Gatos fofos.

Um painel de 6 imagens de saída do Stable Diffusion usando o prompt "Cute cat".

Tudo bem, eles são muito fofos, exceto talvez pelo pobre sujeito do meio-alto que parece ter passado muito tempo olhando para o abismo. Mas e se você quisesse gatos cinzentos, e não uma mistura de gatos? Bem, você precisa especificar isso. Use “Gatos cinzentos fofos” como prompt.

Um painel de 6 imagens de saída do Stable Diffusion usando o prompt "Cute grey cat".

Agora o Stable Diffusion retorna todos os gatos cinzentos. Você pode continuar adicionando descrições do que deseja, incluindo acessórios para os gatos nas fotos.

Outro painel de 6 imagens de saída do Stable Diffusion usando o prompt "Gato cinza fofo com olhos azuis, usando gravata borboleta"

Isso se aplica a tudo o que você deseja que o Stable Diffusion produza, incluindo paisagens. Seja descritivo e, ao tentar diferentes combinações de palavras-chave, observe mentalmente como a imagem muda. Algumas palavras e frases tendem a distorcer uma imagem mais fortemente do que outras palavras, portanto, talvez seja necessário ajustar sua solicitação de acordo.

Recomendado:  As melhores capas para Samsung Galaxy S23 Ultra de 2023

Nomeie estilos de arte ou meios específicos

A necessidade de especificidade não termina quando você descreve completamente o conteúdo da imagem desejada. Você pode (e deve) também especificar o estilo desejado. Manteremos nosso prompt “Gato cinza fofo” para isso. Digamos que queremos alguns gatos cinzentos fofos, mas também queremos que pareçam uma pintura acrílica. A primeira coisa que você deve tentar é adicionar “pintura acrílica” como a próxima palavra-chave em seu prompt, para que leia: “Gato cinza fofo, pintura acrílica”.

Geralmente, é melhor começar com o menor número de palavras-chave para chegar perto do que você deseja e, em seguida, adicionar mais para focar na estética que você está procurando.

6 gatos cinzentos da Stable Diffusion que parecem pinturas em acrílico.

A difusão estável reconhece dezenas de estilos diferentes , desde desenhos a lápis a modelos de argila e renderização 3D do Unreal Engine.

Outro exemplo de gatos cinzentos no estilo "Unreal Engine".

Esses exemplos de prompts são extremamente simples, mas você pode usar dezenas de palavras-chave para ajustar seus resultados. Se você quiser modelos estranhos de frango de barro com cores psicodélicas em um Walmart, precisará especificar todos esses termos.

Uma estranha escultura de argila derretida de uma galinha em um Walmart.

Nomeie artistas específicos para orientar a difusão estável

Stable Diffusion é capaz de fazer mais do que emular estilos ou mídias específicas; pode até imitar artistas específicos, se você quiser fazer isso. Este exemplo usou Pablo Picasso.

Definitivamente, você deve tentar inserir “por (nome do artista)” em seus prompts, caso ainda não o tenha feito. Tende a produzir resultados dramáticos. Não tenha medo de combinar artistas que normalmente não combinariam. Muitas vezes, o Stable Diffusion combinará seus respectivos estilos de maneiras emocionantes e imprevisíveis.

Se você estiver usando a versão GUI do Stable Diffusion para Windows que recomendamos , há um botão “Roll” à direita da janela do prompt que lançará aleatoriamente um artista no seu prompt. É uma ótima maneira de descobrir novos estilos.

6 gatos, como imagens de difusão estável que Picasso os teria pintado.

Pese suas palavras-chave

É claro que apenas inserir palavras-chave em seu prompt só o levará até certo ponto. O que acontece se você receber todas as coisas certas em seu prompt, mas elas não estiverem nas proporções adequadas?

O Stable Diffusion oferece suporte à ponderação de palavras-chave imediatas. Em outras palavras, você pode dizer que ele realmente precisa prestar atenção a uma palavra-chave (ou palavras-chave) específica e prestar menos atenção a outras. É útil se você estiver obtendo resultados que são exatamente o que você procura, mas não exatamente lá.

Recomendado:  Como levantar a mão em uma reunião do Microsoft Teams

Na versão de linha de comando do Stable Diffusion , basta adicionar dois pontos seguidos de um número decimal à palavra que deseja enfatizar. Os números decimais são porcentagens, portanto devem somar 1.

Voltando ao nosso prompt “Gato cinza fofo”, vamos imaginar que ele estava produzindo gatos fofos corretamente, mas poucas das imagens de saída apresentavam gatos cinzentos. Você poderia modificar o prompt para ler: “fofo, gato cinza: 0,7”, e ele prestaria mais atenção ao gato cinza e, em seguida, aplicaria automaticamente a diferença a “fofo”. Você também pode atribuir pesos a cada palavra no prompt manualmente se desejar um controle mais preciso, como “Fofo: 0,10, Gato cinza: 0,60, Renderização do Unreal Engine: 0,30”, por exemplo.

A maioria das GUIs disponíveis para Difusão Estável lida com ponderação sem exigir que você insira porcentagens explícitas. Geralmente, você pode adicionar parênteses em torno de um termo em seu prompt para enfatizá-lo e colchetes para diminuir a importância de um termo. Portanto, o “gato cinza fofo” anterior pode parecer “[fofo],((gato cinza)).”

Você pode usar vários parênteses para aumentar a ênfase tanto quanto desejar.

Encontre inspiração em outro lugar

Stable Diffusion e outros geradores de arte de IA experimentaram um aumento explosivo de popularidade. Você pode encontrar esse tipo de arte de IA em todo lugar. Isso significa que agora existem pelo menos alguns milhões de imagens geradas por usuários circulando na Internet e, na maioria das vezes, as pessoas incluem o prompt que usaram para obter seus resultados.

Aqui estão alguns recursos para ajudar a despertar sua inspiração se você não tiver certeza do que deseja criar:

Todos estes são potencialmente NSFW .

  • Lexica — um repositório de imagens geradas usando Stable Diffusion e o prompt correspondente. Pesquisável por palavra-chave.
  • Stable Diffusion Artist Style Studies  — Uma lista não exaustiva de artistas que a Stable Diffusion pode reconhecer, bem como descrições gerais de seu estilo artístico. Existe um sistema de classificação para descrever quão bem o Stable Diffusion responde ao nome do artista como parte de um prompt.
  • Estudos de modificadores de difusão estável — uma lista de modificadores que podem ser usados ​​com difusão estável, assim como a página do artista.
  • A lista de modificadores de arte AI — Uma galeria de fotos mostrando alguns dos modificadores mais fortes que você pode usar em seus prompts e o que eles fazem. Eles são classificados por tipo de modificador.
  • Os 500 principais artistas representados na difusão estável — Sabemos exatamente quais imagens foram incluídas no conjunto de treinamento da difusão estável, portanto é possível saber quais artistas contribuíram mais para o treinamento da IA. De modo geral, quanto mais fortemente representado um artista estiver nos dados de treinamento, melhor a Difusão Estável responderá ao seu nome como palavra-chave.
  • O subreddit de difusão estável — O subreddit de difusão estável tem um fluxo constante de novas dicas e descobertas divertidas. Se você está procurando inspiração ou insight, não há como errar.

Ajustar outras configurações importantes

Um bom prompt é a parte mais difícil de usar o Stable Diffusion, mas existem algumas outras configurações que mudarão drasticamente os resultados.

  • CFG: determina o quão fortemente a Difusão Estável segue seu prompt. Números mais altos resultam em maior adesão ao prompt, enquanto números mais baixos dão mais liberdade à IA. Tente ajustar isso primeiro.
  • Método de amostragem:  como a imagem é refinada a partir do ruído em formas reconhecíveis. Experimente alguns deles. Euler_a, k_LMS e PLMS parecem ser escolhas populares.
  • Etapas de amostragem:  o número de vezes que uma imagem será amostrada antes de você obter o resultado final. Às vezes você consegue bons resultados em 30 passos, às vezes você precisa ir para 50 ou 80. Normalmente você não consegue melhores resultados acima de 150 passos. Comece com menos passos e vá subindo.

Algumas de nossas instruções estilizadas favoritas

Esses são alguns de nossos prompts favoritos, pois tendem a funcionar de maneira confiável. Basta inserir um assunto de sua escolha e alguns modificadores. Todas as outras configurações de Difusão Estável foram mantidas iguais às instruções acima.

Recomendado:  Como ocultar ou excluir uma página do Facebook

Como regra, a Difusão Estável cria o pôr do sol e as folhas caem excepcionalmente bem.

(Assunto), 35 mm, nítido

Escolha um assunto e este prompt retornará de forma confiável resultados fotorrealistas de pessoas, animais e paisagens.

Este exemplo de prompt também incluiu “Golden Hour” para obter as cores do pôr do sol.

A visão da Stable Diffusion sobre o Monte Katahdin vista do outro lado de um lago.

(Assunto), renderização 3D low poly, cores pastel vibrantes, tilt shift, granulação do filme

Insira um assunto e você o obterá na estética “Art of Rally”.

Um carro muito colorido.

(Assunto), (Descrição Ambiental), cinematográfico, dramático, composição, céu ensolarado, brutalista, hiper-realista, escala épica, senso de admiração, hipermaximalista, nível de detalhes insano, HQ de estação de arte

Basta inserir um assunto e uma descrição ambiental, e esse prompt fornecerá ótimas imagens de arte conceitual de cidades com um efeito ambiental de sua escolha. Aqui está um exemplo usando a cidade de Nova York como tema e tempestade de poeira como descrição ambiental:

Um dia de tempo moderadamente ruim na cidade de Nova York.

Caco Qualquer coisa

A difusão estável produz ótimos resultados com Kermit. Experimente em qualquer lugar.

Caco com um boneco malvado atrás dele.

Por que é assim que a Stable Diffusion interpreta “Kermit in Mordor”, e quem é a coisa vermelha e maligna do Kermit que está por trás de nosso robusto herói? Nenhuma idéia.

Lembre-se, não tenha medo de remover o que você acha que pode ser um termo-chave do seu prompt. Certas palavras, como “linda”, influenciarão fortemente a aparência de uma imagem, mesmo que não tenha um significado preciso. À medida que você passa mais tempo com o Stable Diffusion, você desenvolverá uma noção de como ele responde a certas palavras e descobrirá rapidamente que escrever um bom prompt é uma arte em si.