sA nova tecnologia de aprimoramento de fotos de IA do Google é de cair o queixo

https://petapixel.com/

 30 DE AGOSTO DE 2021

 MICHAEL ZHANG

Fotos aprimoradas em filmes e programas de TV são muitas vezes ridicularizadas por serem inacreditáveis , mas, a pesquisa em “verdadeiro reforço de foto” está realmente se aproximando mais e mais do reino da ficção científica. 

Basta dar uma olhada na mais recente tecnologia de aprimoramento de fotos de IA do Google.

Em um post intitulado “ Geração de imagens de alta fidelidade usando modelos de difusão ” publicado no Google AI Blog (e identificado pelo DPR ), pesquisadores do Google, no Brain Team da empresa, compartilharam sobre os novos avanços que fizeram em super-resolução de imagem.

Na super-resolução de imagem, um modelo de aprendizado de máquina é treinado para transformar uma foto de baixa resolução em uma foto de alta resolução detalhada, e as aplicações potenciais dessa faixa, desde a restauração de fotos antigas de família até o aprimoramento de imagens médicas.

O Google tem explorado um conceito chamado “modelos de difusão”, que foi proposto pela primeira vez em 2015, mas que, até recentemente, ficou em segundo plano para uma família de métodos de aprendizagem profunda chamados de “modelos geradores profundos”. A empresa descobriu que seus resultados com esta nova abordagem superam as tecnologias existentes, quando os humanos são solicitados a julgar.

A primeira abordagem é chamada SR3 , ou Super-Resolução via Refinamento Repetido, aqui está a explicação técnica:

“SR3 é um modelo de difusão de super-resolução que leva como entrada uma imagem de baixa resolução e constrói uma imagem de alta resolução correspondente a partir de puro ruído”, escreve o Google: “O modelo é treinado em um processo de corrupção de imagem no qual o ruído é adicionado progressivamente a uma imagem de alta resolução até que apenas o ruído puro permaneça”.

“Em seguida, ele aprende a reverter esse processo, começando com o ruído puro e removendo progressivamente o ruído para alcançar uma distribuição de destino por meio da orientação da imagem de baixa resolução de entrada.”

Descobriu-se que o SR3 funciona bem em retratos e imagens naturais. Quando usado para aumentar a escala de 8x em faces, tem uma “taxa de confusão” de quase 50%, enquanto os métodos existentes vão até 34%, sugerindo que os resultados são realmente fotorrealistas.

Antes (esquerda) e depois (direita) do aumento de escala com SR3.

Antes (esquerda) e depois (direita) do aumento de escala com SR3.

Depois que o Google viu como o SR3 era eficaz em aumentar a escala de fotos, a empresa deu um passo adiante com uma segunda abordagem chamada CDM , um modelo de difusão condicional de classe.

“O CDM é um modelo de difusão condicional de classe treinado em dados ImageNet para gerar imagens naturais de alta resolução”, escreve o Google. “Como o ImageNet é um conjunto de dados difícil e de alta entropia, construímos o CDM como uma cascata de vários modelos de difusão. Essa abordagem em cascata envolve o encadeamento de vários modelos geradores em várias resoluções espaciais: um modelo de difusão que gera dados em baixa resolução, seguido por uma sequência de modelos de difusão de super-resolução SR3 que aumentam gradualmente a resolução da imagem gerada para a resolução mais alta.”

O Google publicou um conjunto de exemplos mostrando fotos de baixa resolução ampliadas em cascata. Uma foto de 32 × 32 pode ser aprimorada para 64 × 64 e 256 × 256. Uma foto de 64 × 64 pode ser aumentada para 256 × 256 e depois para 1024 × 1024.

Como você pode ver, os resultados são impressionantes e as fotos finais, apesar de apresentarem alguns erros (como falhas nas armações dos óculos), provavelmente passariam por fotos originais reais para a maioria dos visualizadores à primeira vista.

“Com SR3 e CDM, elevamos o desempenho dos modelos de difusão ao estado da arte em benchmarks de super-resolução e geração ImageNet condicional de classe”, escrevem os pesquisadores do Google. “Estamos entusiasmados para testar ainda mais os limites dos modelos de difusão para uma ampla variedade de problemas de modelagem generativa.”

Artigo original: https://petapixel.com/2021/08/30/googles-new-ai-photo-upscaling-tech-is-jaw-dropping/

 

 

 

 

Compartilhe em suas Redes Sociais