Stable Diffusion , um popular gerador de arte de IA, requer prompts de texto para criar uma imagem. Às vezes, ele faz um trabalho incrível e gera exatamente o que você deseja com um aviso vago. Outras vezes, você obtém resultados abaixo do ideal. Aqui estão algumas dicas e truques para obter resultados ideais.
Índice
Como escrever um prompt de difusão estável
Se você já passou algum tempo com geradores de imagens de IA, como Stable Diffusion, DALL-E ou MidJourney , deve ter notado que um prompt bem formulado é crítico. Uma mensagem bem formulada é a diferença entre transformar sua ideia em uma ótima imagem e obter alguma monstruosidade de um vale misterioso com muitos dedos olhando para você.
As pessoas têm tentado descobrir as melhores maneiras de obter resultados ideais desde o lançamento do Stable Diffusion em agosto de 2022, e eles serão “ferreiros imediatos” ou “engenharia imediata” nos próximos anos. Isso é especialmente provável porque os pontos de verificação que informam como o Stable Diffusion gera imagens receberão atualizações periódicas. O prompt ideal será um alvo móvel no futuro próximo.
ATUALIZAÇÃO: 23/12/22
A versão mais recente do Stable Diffusion no momento desta atualização, versão 2.1, responde muito bem a solicitações negativas. Os prompts negativos são iguais aos prompts normais, mas em vez de descrever o que você deseja, você descreve o que não deseja. Tente gerar seu primeiro conjunto de imagens sem avisos negativos e, em seguida, adicione avisos negativos para remover os elementos que você não gosta.
Seja o mais específico possível
A difusão estável tende a prosperar em prompts específicos, especialmente quando comparada a algo como MidJourney. Você precisa dizer exatamente o que deseja. Aqui está um exemplo usando os animais favoritos da internet: Gatos fofos.
Tudo bem, eles são muito fofos, exceto talvez pelo pobre sujeito do meio-alto que parece ter passado muito tempo olhando para o abismo. Mas e se você quisesse gatos cinzentos, e não uma mistura de gatos? Bem, você precisa especificar isso. Use “Gatos cinzentos fofos” como prompt.
Agora o Stable Diffusion retorna todos os gatos cinzentos. Você pode continuar adicionando descrições do que deseja, incluindo acessórios para os gatos nas fotos.
Isso se aplica a tudo o que você deseja que o Stable Diffusion produza, incluindo paisagens. Seja descritivo e, ao tentar diferentes combinações de palavras-chave, observe mentalmente como a imagem muda. Algumas palavras e frases tendem a distorcer uma imagem mais fortemente do que outras palavras, portanto, talvez seja necessário ajustar sua solicitação de acordo.
Nomeie estilos de arte ou meios específicos
A necessidade de especificidade não termina quando você descreve completamente o conteúdo da imagem desejada. Você pode (e deve) também especificar o estilo desejado. Manteremos nosso prompt “Gato cinza fofo” para isso. Digamos que queremos alguns gatos cinzentos fofos, mas também queremos que pareçam uma pintura acrílica. A primeira coisa que você deve tentar é adicionar “pintura acrílica” como a próxima palavra-chave em seu prompt, para que leia: “Gato cinza fofo, pintura acrílica”.
Geralmente, é melhor começar com o menor número de palavras-chave para chegar perto do que você deseja e, em seguida, adicionar mais para focar na estética que você está procurando.
A difusão estável reconhece dezenas de estilos diferentes , desde desenhos a lápis a modelos de argila e renderização 3D do Unreal Engine.
Esses exemplos de prompts são extremamente simples, mas você pode usar dezenas de palavras-chave para ajustar seus resultados. Se você quiser modelos estranhos de frango de barro com cores psicodélicas em um Walmart, precisará especificar todos esses termos.
Nomeie artistas específicos para orientar a difusão estável
Stable Diffusion é capaz de fazer mais do que emular estilos ou mídias específicas; pode até imitar artistas específicos, se você quiser fazer isso. Este exemplo usou Pablo Picasso.
Definitivamente, você deve tentar inserir “por (nome do artista)” em seus prompts, caso ainda não o tenha feito. Tende a produzir resultados dramáticos. Não tenha medo de combinar artistas que normalmente não combinariam. Muitas vezes, o Stable Diffusion combinará seus respectivos estilos de maneiras emocionantes e imprevisíveis.
Se você estiver usando a versão GUI do Stable Diffusion para Windows que recomendamos , há um botão “Roll” à direita da janela do prompt que lançará aleatoriamente um artista no seu prompt. É uma ótima maneira de descobrir novos estilos.
Pese suas palavras-chave
É claro que apenas inserir palavras-chave em seu prompt só o levará até certo ponto. O que acontece se você receber todas as coisas certas em seu prompt, mas elas não estiverem nas proporções adequadas?
O Stable Diffusion oferece suporte à ponderação de palavras-chave imediatas. Em outras palavras, você pode dizer que ele realmente precisa prestar atenção a uma palavra-chave (ou palavras-chave) específica e prestar menos atenção a outras. É útil se você estiver obtendo resultados que são exatamente o que você procura, mas não exatamente lá.
Na versão de linha de comando do Stable Diffusion , basta adicionar dois pontos seguidos de um número decimal à palavra que deseja enfatizar. Os números decimais são porcentagens, portanto devem somar 1.
Voltando ao nosso prompt “Gato cinza fofo”, vamos imaginar que ele estava produzindo gatos fofos corretamente, mas poucas das imagens de saída apresentavam gatos cinzentos. Você poderia modificar o prompt para ler: “fofo, gato cinza: 0,7”, e ele prestaria mais atenção ao gato cinza e, em seguida, aplicaria automaticamente a diferença a “fofo”. Você também pode atribuir pesos a cada palavra no prompt manualmente se desejar um controle mais preciso, como “Fofo: 0,10, Gato cinza: 0,60, Renderização do Unreal Engine: 0,30”, por exemplo.
A maioria das GUIs disponíveis para Difusão Estável lida com ponderação sem exigir que você insira porcentagens explícitas. Geralmente, você pode adicionar parênteses em torno de um termo em seu prompt para enfatizá-lo e colchetes para diminuir a importância de um termo. Portanto, o “gato cinza fofo” anterior pode parecer “[fofo],((gato cinza)).”
Você pode usar vários parênteses para aumentar a ênfase tanto quanto desejar.
Encontre inspiração em outro lugar
Stable Diffusion e outros geradores de arte de IA experimentaram um aumento explosivo de popularidade. Você pode encontrar esse tipo de arte de IA em todo lugar. Isso significa que agora existem pelo menos alguns milhões de imagens geradas por usuários circulando na Internet e, na maioria das vezes, as pessoas incluem o prompt que usaram para obter seus resultados.
Aqui estão alguns recursos para ajudar a despertar sua inspiração se você não tiver certeza do que deseja criar:
Todos estes são potencialmente NSFW .
- Lexica — um repositório de imagens geradas usando Stable Diffusion e o prompt correspondente. Pesquisável por palavra-chave.
- Stable Diffusion Artist Style Studies — Uma lista não exaustiva de artistas que a Stable Diffusion pode reconhecer, bem como descrições gerais de seu estilo artístico. Existe um sistema de classificação para descrever quão bem o Stable Diffusion responde ao nome do artista como parte de um prompt.
- Estudos de modificadores de difusão estável — uma lista de modificadores que podem ser usados com difusão estável, assim como a página do artista.
- A lista de modificadores de arte AI — Uma galeria de fotos mostrando alguns dos modificadores mais fortes que você pode usar em seus prompts e o que eles fazem. Eles são classificados por tipo de modificador.
- Os 500 principais artistas representados na difusão estável — Sabemos exatamente quais imagens foram incluídas no conjunto de treinamento da difusão estável, portanto é possível saber quais artistas contribuíram mais para o treinamento da IA. De modo geral, quanto mais fortemente representado um artista estiver nos dados de treinamento, melhor a Difusão Estável responderá ao seu nome como palavra-chave.
- O subreddit de difusão estável — O subreddit de difusão estável tem um fluxo constante de novas dicas e descobertas divertidas. Se você está procurando inspiração ou insight, não há como errar.
Ajustar outras configurações importantes
Um bom prompt é a parte mais difícil de usar o Stable Diffusion, mas existem algumas outras configurações que mudarão drasticamente os resultados.
- CFG: determina o quão fortemente a Difusão Estável segue seu prompt. Números mais altos resultam em maior adesão ao prompt, enquanto números mais baixos dão mais liberdade à IA. Tente ajustar isso primeiro.
- Método de amostragem: como a imagem é refinada a partir do ruído em formas reconhecíveis. Experimente alguns deles. Euler_a, k_LMS e PLMS parecem ser escolhas populares.
- Etapas de amostragem: o número de vezes que uma imagem será amostrada antes de você obter o resultado final. Às vezes você consegue bons resultados em 30 passos, às vezes você precisa ir para 50 ou 80. Normalmente você não consegue melhores resultados acima de 150 passos. Comece com menos passos e vá subindo.
Algumas de nossas instruções estilizadas favoritas
Esses são alguns de nossos prompts favoritos, pois tendem a funcionar de maneira confiável. Basta inserir um assunto de sua escolha e alguns modificadores. Todas as outras configurações de Difusão Estável foram mantidas iguais às instruções acima.
Como regra, a Difusão Estável cria o pôr do sol e as folhas caem excepcionalmente bem.
(Assunto), 35 mm, nítido
Escolha um assunto e este prompt retornará de forma confiável resultados fotorrealistas de pessoas, animais e paisagens.
Este exemplo de prompt também incluiu “Golden Hour” para obter as cores do pôr do sol.
(Assunto), renderização 3D low poly, cores pastel vibrantes, tilt shift, granulação do filme
Insira um assunto e você o obterá na estética “Art of Rally”.
(Assunto), (Descrição Ambiental), cinematográfico, dramático, composição, céu ensolarado, brutalista, hiper-realista, escala épica, senso de admiração, hipermaximalista, nível de detalhes insano, HQ de estação de arte
Basta inserir um assunto e uma descrição ambiental, e esse prompt fornecerá ótimas imagens de arte conceitual de cidades com um efeito ambiental de sua escolha. Aqui está um exemplo usando a cidade de Nova York como tema e tempestade de poeira como descrição ambiental:
Caco Qualquer coisa
A difusão estável produz ótimos resultados com Kermit. Experimente em qualquer lugar.
Por que é assim que a Stable Diffusion interpreta “Kermit in Mordor”, e quem é a coisa vermelha e maligna do Kermit que está por trás de nosso robusto herói? Nenhuma idéia.
Lembre-se, não tenha medo de remover o que você acha que pode ser um termo-chave do seu prompt. Certas palavras, como “linda”, influenciarão fortemente a aparência de uma imagem, mesmo que não tenha um significado preciso. À medida que você passa mais tempo com o Stable Diffusion, você desenvolverá uma noção de como ele responde a certas palavras e descobrirá rapidamente que escrever um bom prompt é uma arte em si.