qw

Prompt de difusão estável: um guia definitivo - Arte de difusão estável

Prompt de difusão estável: um guia definitivo

AtualizadoCategorizado como Tutorial Marcado como , 64 comentáriossobre o prompt de difusão estável: um guia definitivo
Estável

Desenvolver um processo para criar bons prompts é o primeiro passo que todo usuário do Stable Diffusion dá. Este artigo resume o processo e as técnicas desenvolvidas por meio de experimentações e contribuições de outros usuários. O objetivo é anotar tudo o que sei sobre prompts para que você possa conhecê-los em um só lugar.

Anatomia de um bom prompt

Um bom prompt precisa ser detalhado e específico. Um bom processo é analisar uma lista de categorias de palavras-chave e decidir se você deseja usar alguma delas.

As categorias de palavras-chave são

  1. Assunto
  2. Médio
  3. Estilo
  4. Site de compartilhamento de arte
  5. Resolução
  6. Detalhes adicionais
  7. Cor
  8. Iluminação

Uma lista extensa de palavras-chave de cada categoria está disponível no gerador de prompts . Você também pode encontrar uma lista resumida aqui .

Não é necessário incluir palavras-chave de todas as categorias. Trate-as como uma lista de verificação para lembrar o que pode ser usado.

Vamos revisar cada categoria e gerar algumas imagens adicionando palavras-chave. Usarei o modelo Dreamshaper , um modelo excelente para iniciantes.

Para ver o efeito apenas do prompt, não usarei prompts negativos por enquanto. Não se preocupe. Estudaremos os prompts negativos na parte final deste artigo.

Todas as imagens são geradas com 25 etapas do amostrador DPM++ 2M Karas e um tamanho de imagem de 512×768.

Assunto

O assunto é o que você quer ver na imagem. Um erro comum é não escrever o suficiente sobre os assuntos.

Digamos que queremos gerar uma feiticeira lançando magia. Um novato pode escrever

Uma feiticeira

Você obtém algumas imagens decentes, mas este prompt deixa muito espaço para a imaginação. (É comum ver o rosto distorcido na Difusão Estável. Há maneiras de corrigir isso.)

Como você quer que a feiticeira fique? Você tem alguma palavra-chave para descrevê-la mais especificamente? O que ela veste? Que tipo de magia ela está conjurando? Ela está parada, correndo ou flutuando no ar? Qual é o cenário de fundo?

A Difusão Estável não consegue ler nossas mentes. Temos que dizer exatamente o que queremos.

Como demonstração, digamos que ela é poderosa e misteriosa e usa magia de raios. Ela usa uma roupa de couro com pedras preciosas. Ela se senta em uma rocha. Ela usa um chapéu. O fundo é um castelo.

uma bela e poderosa feiticeira misteriosa, sorriso, sentada em uma rocha, magia de relâmpago, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo

Agora, geramos imagens mais específicas . A roupa, a pose e o fundo são consistentes em todas as imagens.

Médio

O meio é o material usado para criar uma obra de arte. Alguns exemplos são ilustração, pintura a óleo, renderização 3D e fotografia. O meio tem um efeito poderoso, pois uma única palavra-chave pode mudar radicalmente o estilo.

Vamos adicionar a palavra-chave arte digital .

uma bela e poderosa feiticeira misteriosa, sorriso, sentada em uma rocha, magia de relâmpago, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital

As imagens passaram de um estilo de pintura realista para algo mais parecido com computação gráfica. Acho que podemos parar por aqui. Brincadeira.

Estilo

O estilo refere-se ao estilo artístico da imagem. Exemplos incluem impressionista, surrealista, pop art, etc.

Adicione arte hiper-realista, fantástica e sombria ao prompt.

uma bela e poderosa feiticeira misteriosa, sorriso, sentada em uma rocha, magia de relâmpago, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital, hiper-realista, fantasia, arte sombria

Agora, a cena ficou mais escura e sombria.

Site de compartilhamento de arte

Sites gráficos de nicho, como Artstation e Deviant Art, reúnem diversas imagens de gêneros distintos. Usá-los em um prompt é uma maneira segura de direcionar a imagem para esses estilos.

Vamos adicionar artstation ao prompt.

uma feiticeira misteriosa linda e poderosa, sorriso, sentada em uma rocha, magia de relâmpago, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital, hiper-realista, fantasia, arte sombria, artstation

Não é uma mudança enorme, mas as imagens parecem com o que você encontraria no Artstation.

Resolução

Resolução representa o quão nítida e detalhada é a imagem. Vamos adicionar as palavras-chave " altamente detalhado e foco nítido" .

uma feiticeira misteriosa linda e poderosa, sorriso, sentada em uma rocha, magia de relâmpago, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital, hiper-realista, fantasia, arte sombria, estação de arte, altamente detalhado, foco nítido

Bem, não é um efeito enorme, talvez porque as imagens anteriores já sejam bem nítidas e detalhadas. Mas não custa nada acrescentar.

Detalhes adicionais

Detalhes adicionais são adoçantes adicionados para modificar uma imagem. Adicionaremos elementos de ficção científica e distópicos para dar um toque especial à imagem.

uma feiticeira misteriosa linda e poderosa, sorriso, sentada em uma rocha, magia de relâmpagos, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital, hiper-realista, fantasia, arte sombria, artstation, altamente detalhado, foco nítido, ficção científica, distópico

Cor

Você pode controlar a cor geral da imagem adicionando palavras-chave de cores . As cores especificadas podem aparecer como um tom ou em objetos.

Vamos adicionar um pouco de cor dourada à imagem com a palavra-chave iridescent gold .

uma bela e poderosa feiticeira misteriosa, sorriso, sentada em uma rocha, magia de relâmpagos, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital, hiper-realista, fantasia, arte sombria, estação de arte, altamente detalhado, foco nítido, ficção científica, distópico, ouro iridescente

O dourado fica ótimo em alguns lugares!

Iluminação

Qualquer fotógrafo diria que a iluminação é fundamental para criar imagens de sucesso. Palavras-chave como iluminação podem ter um efeito enorme na aparência da imagem. Vamos adicionar iluminação de estúdio para deixá-la com cara de foto de estúdio.

uma feiticeira misteriosa linda e poderosa, sorriso, sentada em uma rocha, magia de relâmpagos, chapéu, roupas de couro detalhadas com pedras preciosas, vestido, fundo de castelo, arte digital, hiper-realista, fantasia, arte sombria, estação de arte, altamente detalhado, foco nítido, ficção científica, distópico, ouro iridescente, iluminação de estúdio

Isso conclui nosso prompt de exemplo.

Observações

Você deve ter notado que as imagens já estão muito boas com apenas algumas palavras-chave adicionadas. Mais nem sempre é melhor ao criar um prompt. Muitas vezes, não são necessárias muitas palavras-chave para obter boas imagens.

Prompt negativo

Usar prompts negativos é outra ótima maneira de direcionar a imagem, mas em vez de inserir o que você quer, você insere o que não quer. Não precisam ser objetos. Também podem ser estilos e atributos indesejados (por exemplo, feio, deformado).

Usar prompts negativos é essencial para modelos v2 . Sem eles, as imagens ficariam muito inferiores às da v1. Eles são opcionais para modelos v1 e SDXL, mas eu costumo usar um prompt negativo padrão porque eles ajudam ou não atrapalham.

Usarei uma sugestão negativa universal simples que não modifica o estilo. Você pode ler mais sobre ela para entender como funciona.

desfigurado, deformado, feio

Processo de construção de um bom prompt

Construção de prompt iterativo

Você deve abordar a criação de prompts como um processo iterativo. Como mostrado na seção anterior, as imagens podem ficar muito boas com apenas algumas palavras-chave adicionadas ao assunto.

Eu sempre começo com um prompt simples, apenas com assunto, meio e estilo. Gere pelo menos 4 imagens por vez para ver o que acontece. A maioria dos prompts não funciona 100% das vezes. Você precisa ter uma ideia do que eles podem fazer estatisticamente.

Adicione no máximo duas palavras-chave por vez. Da mesma forma, gere pelo menos quatro imagens para avaliar seu efeito.

Usando prompt negativo

Você pode usar um prompt negativo universal se estiver começando.

Adicionar palavras-chave ao prompt negativo pode fazer parte do processo iterativo. As palavras-chave podem ser objetos ou partes do corpo que você deseja evitar (como os modelos v1 não são muito bons em renderizar mãos, não é uma má ideia usar "mão" no prompt negativo para ocultá-las).

Técnicas de incentivo

Você pode modificar a importância de uma palavra-chave trocando por outra em uma determinada etapa de amostragem.

As seguintes sintaxes se aplicam à interface gráfica do usuário AUTOMATIC1111. Você pode executar esta interface gráfica com um clique usando o notebook Colab no Guia de Início Rápido . Você também pode instalá-la em Windows e Mac .

Peso da palavra-chave

( Esta sintaxe se aplica à GUI AUTOMATIC1111. )

Você pode ajustar o peso de uma palavra-chave pela sintaxe (keyword: factor). factoré um valor tal que menor que 1 significa menos importante e maior que 1 significa mais importante.

Por exemplo, podemos ajustar o peso da palavra-chave dogno prompt a seguir

cachorro , outono em paris, ornamentado, bonito, atmosfera, vibração, névoa, fumaça, fogo, chaminé, chuva, molhado, imaculado, poças, derretendo, pingando, neve, riacho, exuberante, gelo, ponte, floresta, rosas, flores, por stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.

Aumentar o peso dogtende a gerar mais cães. Diminuí-lo tende a gerar menos. Isso nem sempre se aplica a todas as imagens. Mas é verdade em termos estatísticos.

Essa técnica pode ser aplicada a palavras-chave de assunto e todas as categorias, como estilo e iluminação.

Sintaxe () e []

( Esta sintaxe se aplica à GUI AUTOMATIC1111. )

Uma maneira equivalente de ajustar a força da palavra-chave é usar ()e []. (keyword)aumenta a força da palavra-chave por um fator de 1,1 e é o mesmo que (keyword:1.1). [keyword]diminui a força por um fator de 0,9 e é o mesmo que (keyword:0.9).

Você pode usar vários deles, assim como na Álgebra… O efeito é multiplicativo.

  • (palavra-chave) é equivalente a (palavra-chave: 1.1)
  • ((palavra-chave)) é equivalente a (palavra-chave: 1.21)
  • (((palavra-chave))) é equivalente a (palavra-chave: 1,33)

Da mesma forma, os efeitos do uso múltiplo []são:

  • [palavra-chave] é equivalente a (palavra-chave: 0,9)
  • [[palavra-chave]] é equivalente a (palavra-chave: 0,81)
  • [[[palavra-chave]]] é equivalente a (palavra-chave: 0,73)

DICA AUTOMATIC1111: Você pode usar Ctrl + Seta para cima/baixo (Windows) ou Cmd + Seta para cima/baixo para aumentar/diminuir o peso de uma palavra-chave.

Combinação de palavras-chave

( Esta sintaxe se aplica à GUI AUTOMATIC1111. )

Você pode misturar duas palavras-chave. O termo apropriado é agendamento rápido . A sintaxe é

[palavra-chave1: palavra-chave2: fator]

factorcontrola em qual etapa a palavra-chave1 é alterada para a palavra-chave2. É um número entre 0 e 1.

Por exemplo, se eu usar o prompt

Retrato em pintura a óleo de [Joe Biden: Donald Trump: 0,5]

para 30 etapas de amostragem.

Isso significa que o prompt nas etapas 1 a 15 é

Retrato em óleo de Joe Biden

E o prompt nas etapas 16 a 30 se torna

Retrato em óleo de Donald Trump

O fator determina quando a palavra-chave é alterada. É após 30 passos x 0,5 = 15 passos.

O efeito da mudança do fator é misturar os dois presidentes em graus diferentes.

Você deve ter notado que Trump está de terno branco, que lembra mais o traje de Joe. Este é um exemplo perfeito de uma regra muito importante para a combinação de palavras-chave: a primeira palavra-chave determina a composição global. As etapas iniciais de difusão definem a composição geral. As etapas posteriores refinam os detalhes.

Quiz: O que você ganharia se trocasse Donald Trump e Joe Biden?

Misturando rostos

Um caso de uso comum é criar um novo rosto com um visual específico, inspirado em atores e atrizes. Por exemplo, [Emma Watson: Amber ouviu: 0,85], 40 passos é um visual intermediário entre os dois:

Ao escolher cuidadosamente os dois nomes e ajustar o fator, podemos obter precisamente a aparência que queremos.

Como alternativa, você pode usar vários nomes de celebridades com pesos de palavras-chave para ajustar as características faciais. Por exemplo:

(Emma Watson: 0,5), (Tara Reid: 0,9), (Ana de Armas: 1,2)

Combinando 3 faces: (Emma Watson:0,5), (Tara Reid:0,9), (Ana de Armas:1,2)

Veja este tutorial se quiser gerar um rosto consistente em várias imagens.

Prompt-a-prompt do pobre

Usando a combinação de palavras-chave, você pode obter efeitos semelhantes aos de prompt para prompt , gerando pares de imagens altamente semelhantes com edições. As duas imagens a seguir são geradas com o mesmo prompt, exceto por um agendamento de prompts para substituição applepor fire. A semente e o número de etapas foram mantidos.

O fator precisa ser ajustado cuidadosamente. Como funciona? A teoria por trás disso é que a composição geral da imagem foi definida pelo processo inicial de difusão . Uma vez que a difusão esteja concentrada em um pequeno espaço, a troca de palavras-chave não terá um grande efeito na imagem geral. Alteraria apenas uma pequena parte.

Rosto consistente

Usar vários nomes de celebridades é uma maneira fácil de mesclar dois ou mais rostos. A mesclagem será consistente em todas as imagens. Você nem precisa usar o agendamento de prompts. Quando você usa vários nomes, o Stable Diffusion entende isso como gerar uma pessoa, mas com aquelas características faciais.

A frase a seguir usa vários nomes para misturar três faces com pesos diferentes.

(Emma Watson: 0,5), (Tara Reid: 0,9), (Ana de Armas: 1,2)

Colocando essa técnica em ação, o prompt é:

(Emma Watson:0,5), (Tara Reid:0,9), (Ana de Armas:1,2), foto de mulher jovem, cabelo com mechas, sentada do lado de fora de um restaurante, usando vestido, iluminação de borda, iluminação de estúdio, olhando para a câmera, DSLR, qualidade ultra, foco nítido, nitidez, profundidade de campo, granulação do filme, Fujifilm XT3, cristalina, 8K UHD, olhos brilhantes altamente detalhados, pele altamente detalhada, poros da pele

Aqui estão imagens com o mesmo prompt:

Veja esse rosto se repetindo nas imagens!

Use vários nomes de celebridades e pesos de palavras-chave para ajustar cuidadosamente a característica facial desejada. Você também pode usar nomes de celebridades no prompt negativo para evitar características faciais que você NÃO deseja.

Veja mais técnicas para gerar rostos consistentes .

Qual pode ser o tamanho de um prompt?

Dependendo do serviço Stable Diffusion que você estiver usando, pode haver um número máximo de palavras-chave que você pode usar no prompt. No modelo básico do Stable Diffusion v1, esse limite é de 75 tokens .

Observe que tokens não são a mesma coisa que palavras. O modelo CLIP de Difusão Estável converte automaticamente o prompt em tokens, uma representação numérica das palavras que ele conhece. Se você inserir uma palavra que ele nunca viu antes, ela será dividida em duas ou mais subpalavras até que ele saiba qual é. As palavras que ele conhece são chamadas de tokens, que são representadas por números.

Por exemplo, "dream" é um token e "beach" é outro token. Mas "dreambeach" tem dois tokens porque o modelo não conhece essa palavra, então o modelo a divide em " dreamand" beachque ele conhece.

Limite de prompt em AUTOMATIC1111

O AUTOMATIC1111 não tem limites de tokens . Se um prompt contiver mais de 75 tokens, o limite do tokenizador CLIP, ele iniciará um novo bloco com mais 75 tokens, então o novo "limite" passa a ser 150. O processo pode continuar para sempre ou até que o seu computador fique sem memória…

Cada bloco de 75 tokens é processado de forma independente, e as representações resultantes são concatenadas antes de serem alimentadas na U-Net da Stable Diffusion .

No AUTOMATIC1111, você pode verificar o número de tokens observando a pequena caixa no canto superior direito da caixa de entrada do prompt.

Contador de tokens em AUTOMATIC1111

Iniciando um novo pedaço de prompt

E se você quiser iniciar um novo bloco de prompt antes de atingir 75 tokens? Às vezes, você quer fazer isso porque o token no início de um bloco pode ser mais eficaz, e você pode querer agrupar palavras-chave relacionadas em um bloco.

Você pode usar a palavra-chave BREAK para iniciar um bloco. O prompt a seguir usa dois blocos para especificar que o chapéu é branco e o vestido é azul.

foto de uma mulher com chapéu branco
e
vestido azul

Sem o BREAK, a Stable Diffusion tem mais probabilidade de misturar a cor do chapéu e do vestido.

Verificando palavras-chave

O fato de você ver pessoas usando uma palavra-chave não significa que ela seja eficaz. Assim como na lição de casa, todos nós copiamos as dicas uns dos outros, às vezes sem pensar muito.

Você pode verificar a eficácia de uma palavra-chave usando-a apenas como um prompt. Por exemplo, o modelo v1.5 conhece o pintor de retratos americano John Singer Sargent ? Vamos verificar com o prompt.

John Singer Sargent

Positivo!

Que tal a sensação do Artstation wlop ?

wlop

Bem, não parece. É por isso que você não deve usar "by wlop". Isso só acrescenta ruído.

Você pode usar essa técnica para examinar o efeito da mistura de dois ou mais artistas.

John Singer Sargent, Picasso

Limitando a variação

Para ser bom em criar prompts, você precisa pensar como a Difusão Estável. Em essência, ela é um amostrador de imagens , gerando valores de pixel que nós, humanos, provavelmente consideramos legítimos e bons. Você pode até usá-la sem prompts, e ela geraria muitas imagens não relacionadas. Em termos técnicos, isso é chamado de difusão não condicionada ou não guiada.

O prompt é uma forma de guiar o processo de difusão para o espaço amostral onde ele corresponde. Eu disse anteriormente que um prompt precisa ser detalhado e específico. Isso ocorre porque um prompt detalhado restringe o espaço amostral. Vejamos um exemplo.

castelo

castelo, fundo de céu azul

vista de ângulo amplo do castelo, fundo de céu azul

Ao adicionar mais palavras-chave descritivas no prompt, restringimos a amostragem de castelos. No primeiro exemplo, solicitamos qualquer imagem de castelo . Em seguida, solicitamos apenas aquelas com fundo de céu azul. Por fim, solicitamos que fosse tirada como uma foto grande angular .

Quanto mais você especificar no prompt, menor será a variação nas imagens.

Efeito de associação

Associação de atributos

Alguns atributos são fortemente correlacionados. Ao especificar um, você obtém o outro. A Difusão Estável gera as imagens com maior probabilidade de ter um efeito de associação indesejado.

Digamos que queremos gerar fotos de mulheres com olhos azuis .

uma jovem mulher de olhos azuis , mechas no cabelo, sentada do lado de fora do restaurante, vestindo uma roupa branca, luz lateral

E se mudarmos para olhos castanhos?

uma jovem mulher de olhos castanhos , mechas no cabelo, sentada do lado de fora do restaurante, vestindo uma roupa branca, luz lateral

Em nenhum dos prompts especifiquei etnia. Mas como as pessoas com olhos azuis são predominantemente europeias, foram gerados caucasianos. Olhos castanhos são mais comuns em diferentes etnias, então você verá uma amostra mais diversificada de raças.

Estereótipos e preconceitos são temas importantes em modelos de IA. Neste artigo, vou me ater ao aspecto técnico.

Associação de nomes de celebridades

Toda palavra-chave tem algumas associações não intencionais. Isso é especialmente verdadeiro para nomes de celebridades. Alguns atores e atrizes gostam de estar em certas poses ou usar certas roupas ao tirar fotos, e, portanto, nos dados de treinamento. Se você pensar bem, o treinamento de modelos nada mais é do que aprendizado por associação. Se Taylor Swift (nos dados de treinamento) sempre cruza as pernas, o modelo pensaria que cruzar as pernas também é Taylor Swift.

Ao usar Taylor Swift no prompt, você pode querer usar o rosto dela. Mas também há um efeito da pose e da roupa da pessoa. O efeito pode ser estudado usando apenas o nome dela como prompt.

Poses e trajes são composições globais. Se você quiser o rosto dela, mas não as poses, pode usar a combinação de palavras-chave para trocá-la em uma etapa de amostragem posterior.

Associação de nomes de artistas

Talvez o exemplo mais proeminente de associação seja visto no uso de nomes de artistas.

O pintor tcheco do século XIX Alphonse Mucha é uma figura popular em retratos porque o nome ajuda a gerar embelezamentos interessantes, e seu estilo combina muito bem com ilustrações digitais. Mas também costuma deixar um padrão circular ou em forma de cúpula característico no fundo. Em ambientes externos, eles podem parecer artificiais.

Embeddings são palavras-chave

Embeddings , o resultado da inversão textual, nada mais são do que combinações de palavras-chave. Você pode esperar que eles façam um pouco mais do que prometem.

Vamos ver as seguintes imagens base do Ironman preparando uma refeição sem usar embeddings.

Sugestão: Homem de Ferro cozinhando na cozinha.

O Style-Empire é um embedding que gosto de usar porque adiciona um tom escuro a imagens de retrato e cria um efeito de iluminação interessante. Como foi treinado em uma imagem com uma cena de rua à noite, você pode esperar que ele adicione alguns tons de preto, E talvez prédios e ruas. Veja as imagens abaixo com o embedding adicionado.

Sugestão: Homem de Ferro cozinhando no estilo Empire .

Observe alguns efeitos interessantes

  • O fundo da primeira imagem mudou para edifícios da cidade à noite.
  • O Homem de Ferro tende a mostrar o rosto. Talvez a imagem de treinamento seja um retrato?

Portanto, mesmo que uma incorporação tenha a intenção de modificar o estilo, ela é apenas um conjunto de palavras-chave e pode ter efeitos indesejados.

Efeito de modelos personalizados

Usar um modelo personalizado é a maneira mais fácil de alcançar um estilo, com certeza. Esse também é um charme único do Stable Diffusion. Graças à grande comunidade de código aberto, milhares de modelos personalizados estão disponíveis gratuitamente.

Ao usar um modelo, precisamos estar cientes de que o significado de uma palavra-chave pode mudar. Isso é especialmente verdadeiro para estilos.

Vamos usar John Singer Sargent como prompt com o modelo Stable Diffusion v1.5.

Usando o DreamShaper com o mesmo prompt, um modelo ajustado para ilustrações de retratos realistas, obtemos as seguintes imagens.

O estilo se torna mais realista. O modelo DreamShaper tem uma base sólida para gerar rostos femininos nítidos e bonitos.

Verifique antes de usar um estilo em um modelo personalizado. Van Gogh pode não ser mais Van Gogh!

Avisos específicos da região

Você sabia que é possível especificar prompts diferentes para diferentes regiões da imagem?

Por exemplo, você pode colocar a lua no canto superior esquerdo:

Ou no canto superior direito:

Você pode fazer isso usando a extensão Regional Prompter . É uma ótima maneira de controlar a composição da imagem!

Texto original
Avalie a tradução
O feedback vai ser usado para ajudar a melhorar o Google Tradutor

Comentários