O Stable Diffusion agora é 2.0. A nova versão da inteligência artificial (IA) que gera imagens a partir de textos traz novos recursos, como aumento de resolução. Mas nem todo mundo está feliz. A capacidade da ferramenta de gerar imagens de nudez e imitar o estilo de determinados artistas foi reduzida.
Reclamações começaram a surgir apenas algumas horas depois do anúncio do Stable Diffusion 2.0. No Reddit, houve até quem afirmasse que a ferramenta foi “nerfada”. Esse é um jeito de dizer que a atualização ficou mais fraca em relação à versão anterior, a despeito de trazer novos recursos.
O que há de ruim (segundo as queixas)?
Talvez a maior novidade da nova versão da ferramenta seja o OpenCLIP, um novo codificador para “converter” texto em imagem. Desenvolvido pela Laion com apoio da Stability AI (empresa por trás do Stable Diffussion), o recurso gera imagens com muito mais qualidade em relação à versão anterior da ferramenta.
Mas é aqui que as reclamações começam. Os modelos de texto atrelados ao OpenCLIP contêm filtros que removem imagens de nudez ou com teor pornográfico.
Essa limitação, por si só, é tida como negativa por muita gente. Mas as restrições vão além. Alguns usuários perceberam que a nova versão também filtra instruções para imitar os estilos de determinados artistas.
Um exemplo vem do trabalho do renomado ilustrador Greg Rutkowski, que cria imagens belíssimas com estilo de pintura. Não é mais possível reproduzir o estilo dele no Stable Diffusion, não com resultados fiéis.
Os usuários que notaram a restrição acreditam que essa é uma forma de evitar que a Stability AI enfrente problemas legais. Questionado sobre isso pelo Verge, Emad Mostaque, fundador da empresa, não respondeu.
No entanto, o empresário explicou que, ao contrário do que os usuários especulam, a nova versão da IA não removeu imagens de artistas de sua base de dados de treinamento. De acordo com ele, houve apenas mudanças na forma como o Stable Diffusion codifica e recupera dados.
Artistas em guerra com a IA
A menção a Greg Rutkowski não é mero acaso. O artista já fez ilustrações para jogos como Horizon Forbidden West e Anno. É um trabalho tão marcante que o seu estilo se tornou popular entre usuários de ferramentas como o Stable Diffusion.
Rutkowski é um entre os vários artistas que se incomodam com esse novo cenário. No começo, ele achou que as ferramentas de inteligência artificial poderiam ajudá-lo a alcançar novos públicos. Mas ele mudou de opinião ao encontrar um trabalho que levava o seu nome e tinha o seu estilo, mas havia sido gerado por computador.
“Isso faz apenas um mês. Mas e em um ano? Provavelmente, não conseguirei encontrar meu trabalho por aí porque [a internet] será inundada com arte de IA”, desabafou Rutkowski em setembro.
O assunto tem rendido muita discussão. De modo geral, existe a preocupação de que imagens geradas por IA desvalorizem o trabalho de uma comunidade que, com exceção para artistas consagrados, já enfrentava dificuldades para ser reconhecida.
Até artistas de animes e mangás já se preocupam com isso.
O que melhorou no Stable Diffusion 2.0?
Discussões à parte, o Stable Diffusion 2.0 também vem conquistando elogios. Isso porque a novidade ficou muito mais “esperta”. Mérito de seus novos recursos.
Por padrão, a ferramenta gera imagens em resolução de até 768×768 pixels. Mas a nova versão traz um mecanismo de upscaling que expande essa capacidade para 2048×2048 pixels ou, em algumas circunstâncias, resoluções ainda mais altas. O efeito direto são imagens com muito mais detalhes.
Outro avanço está no recurso depth2img. Por meio dele, o Stable Diffussion 2.0 usa os dados de profundidade de uma imagem para gerar outras com os mesmos parâmetros, mas acrescentando as instruções que o usuário deu por texto.
Observe o exemplo abaixo. Nele, a imagem original é a do senhor sem óculos. As imagens que aparecem na sequência mostram pessoas diferentes, mas com o mesmo perfil daquele senhor. A IA já tinha essa capacidade, mas gerava apenas uma imagem como resultado. Agora, são várias.
Um novo modelo de inpainting que permite trocar partes de uma imagem facilmente e otimização para o Stable Diffussion 2.0 rodar com uma única GPU fazem parte das demais novidades.
Este último ponto é relevante porque o Stable Diffussion tem código-fonte aberto. Assim, a ferramenta pode ser implementada por qualquer pessoa ou organização.