DALL-E 2 AI da OpenAI é apenas uma má notícia para alguns artistas

O DALL-E 2 da OpenAI foi um choque para aqueles que pensavam que a inteligência artificial nunca (ou pelo menos não rapidamente) começaria a se infiltrar no reino da criatividade. Mas o DALL-E 2 está aqui para tirar empregos de artistas?

Como funciona o DALL-E 2?

Uma representação da rede neural DALL-E 2

O DALL-E 2 é tão impressionante que quase parece mágico, mas os grandes detalhes de como ele cria imagens tão impressionantes e realistas não são tão difíceis de entender.

Existem dois componentes principais no DALL-E 2. O primeiro é o GPT-3 , que é indiscutivelmente o algoritmo de aprendizado de máquina de linguagem natural mais avançado existente atualmente. DALL-E 2 também usa outro modelo OpenAI conhecido como CLIP (Contrastive Language-Image Pre-training).

GPT-3 e CLIP permitem que um computador entenda e gere linguagem natural sofisticada. Ao treinar a rede neural DALL-E com bilhões de imagens e suas descrições em linguagem natural provenientes (principalmente) da Internet, ela aprende as relações entre os conceitos.

De certa forma, o DALL-E é o inverso de uma prática comum de aprendizado de máquina, onde você fornece uma imagem e a IA tenta descrever o que vê.

Um exemplo de geração de imagem de difusão do DALL-E 2 fazendo um urso polar tocando baixo.

Pense naquele infame aplicativo “ Not a Hotdog ” do programa de TV Silicon Valley . A diferença aqui é que, em vez de perguntar à IA se a imagem é um cachorro-quente ou não, você está descrevendo o cachorro-quente e gerando uma imagem de cachorro-quente totalmente original com base em tudo o que aprendeu sobre ele.

A segunda parte principal do DALL-E é como ele gera imagens. Ele usa um método conhecido como “difusão”. Especificamente, a compreensão da descrição de uma imagem em linguagem humana que foi criada é transformada em uma imagem usando um modelo OpenAI denominado GLIDE . O GLIDE captura uma imagem que consiste em ruído gerado aleatoriamente e, em seguida, elimina gradualmente esse ruído até que corresponda à imagem descrita em linguagem natural. É uma reminiscência de um escultor começando com um bloco de mármore e desbastando até restar apenas uma estátua.

Recomendado:  Como desativar hiperlinks automáticos no Microsoft Word

Para uma descrição muito mais técnica e detalhada dos bastidores do DALL-E 2, recomendamos vivamente o explicador do DALL-E 2 no blog de aprendizado profundo da AssemblyAI.

Por que o DALL-E 2 é tão perturbador

Um robô deixando um humano sem trabalho.

O DALL-E 2 está longe de ser o primeiro software de aprendizado de máquina capaz de gerar imagens. Houve muitos sistemas anteriores e o DALL-E 2 baseia-se nas lições aprendidas por esses outros projetos. Então, por que este momento parece um ponto de viragem perturbador?

Uma razão significativa é que as imagens que DALL-E e DALL-E 2 produzem são esteticamente agradáveis. Outros sistemas de geração de imagens de IA geralmente criam imagens que as pessoas descrevem como perturbadoras ou como algo saído de um sonho. É um pouco como o Uncanny Valley, mas para as artes visuais. DALL-E 2 cria imagens que claramente possuem um olhar artístico ou algum senso estético por trás delas.

Assim, as imagens que o DALL-E 2 cria são comparáveis ​​às feitas por artistas ou fotógrafos talentosos que passaram a vida inteira desenvolvendo o seu sentido estético. Não é difícil imaginar alguém assim olhando as imagens que DALL-E 2 pode cuspir em segundos e sentir que estão prestes a se tornar irrelevantes.

Variações de uma pintura existente gerada pelo DALL-E 2.

O sistema não apenas pode criar lindas imagens de alta resolução em segundos a partir de instruções em linguagem natural, mas também pode ajustar e editar essas imagens ou fornecer múltiplas variações de uma imagem existente – mesmo uma fornecida pelo usuário. Então, isso significa que os artistas deveriam arrumar seus cavaletes e mesas de desenho e, em vez disso, “ aprender a codificar ”?

DALL-E 2 significa que os artistas mudarão, não desaparecerão

Um artista criando uma pintura abstrata.

A OpenAI tem sido muito cuidadosa ao simplesmente lançar sua tecnologia para o mundo. Isto é sensato, uma vez que há claramente muito espaço para abusos. No entanto, agora que demonstraram que isso pode ser feito, não demorará muito para que investigadores comerciais ou independentes de IA repliquem o que o DALL-E faz e o disponibilizem a todos. Grandes participantes no espaço de aprendizado de máquina também têm seus próprios artistas de IA de alto desempenho esperando nos bastidores – como o  Imagen do Google .

Recomendado:  Como funcionam os pacotes de ícones no iPhone?

Como a caixa de Pandora não pode ser fechada, teremos de aceitar que o mundo das artes visuais vai mudar irrevogavelmente, mas isso não significa que os artistas sejam coisa do passado.

Uma maneira de ver isso é que tecnologias como essa colocam o poder de gerar arte nas mãos de qualquer pessoa. A ênfase agora passa da capacidade técnica de criar imagens para a capacidade de descrever e iterar com precisão a sua visão, até que o que você vê na tela corresponda ao que você tinha em mente. Em outras palavras, mais pessoas terão agora a capacidade de se expressar visualmente, assim como mais pessoas poderão agora fazer cálculos precisos graças à existência de calculadoras.

Certos tipos de artistas podem já não ter modelos de negócios viáveis. Se você ganha a vida cobrando uma taxa , é difícil competir com um programa que pode produzir centenas de imagens por hora com base na descrição de um cliente e pode fazer alterações nessas imagens quase instantaneamente. Em vez disso, você pode querer usar essas ferramentas para concretizar sua própria visão e, em seguida, vender essas imagens exclusivas com base em suas sensibilidades.

O cliente está sempre certo

Também é importante lembrar que, em última análise, estas imagens são criadas para consumo humano. Nós, humanos, temos nosso próprio conjunto de valores que vai além da conveniência e da superioridade técnica. Num mundo onde a arte gerada é abundante e, portanto, relativamente barata e descartável, haverá sempre um público disposto a apreciar (e comprar) arte feita pelo homem, simplesmente porque pode ser uma raridade relativa.

Por outras palavras, software como o DALL-E 2 pode significar o fim dos artistas que ganham a vida produzindo obras de arte em linha de montagem, mas é pouco provável que diminua as perspectivas para os artistas que têm algo a dizer e uma identidade visual única através da qual falar.

Recomendado:  Corrigir um erro “Não é possível verificar a identidade do servidor” no iPhone ou iPad