Graças à IA, acabamos de obter ferramentas incrivelmente poderosas para decodificar a vida.

Shelly Fan – 20 de julho de 2021

News and Insights from Singularity University

Em dois “papers” na semana passada, pesquisadores da DeepMind e da Universidade de Washington descreveram métodos baseados em aprendizagem profunda (DL) para resolver a questão da proteína dobrar a última etapa da execução da programação em nosso DNA (vide abaixo o que isso significa), e um “ um avanço de geração. ”

As proteínas são essenciais à vida, suportando praticamente todas as suas funções, elas são moléculas grandes e complexas, feitas de cadeias de aminoácidos, e o que uma proteína faz depende muito de sua estrutura 3D única. Descobrir em que forma as proteínas se dobram é conhecido como o “problema de dobramento de proteínas” e tem sido um grande desafio na biologia nos últimos 50 anos. 

Em um grande avanço científico, a versão mais recente de nosso sistema de IA AlphaFold foi reconhecida como uma solução para este grande desafio pelos organizadores da Avaliação Crítica bienal de Predição de Estrutura de Proteínas (CASP).

Esta descoberta demonstra o impacto que a IA pode ter nas descobertas científicas e seu potencial para acelerar drasticamente o progresso em alguns dos campos mais fundamentais que explicam e moldam nosso mundo.

A forma de uma proteína está intimamente ligada à sua função, e a capacidade de prever essa estrutura permite uma maior compreensão do que ela faz e como funciona, muitos dos maiores desafios do mundo, como desenvolver tratamentos para doenças ou encontrar enzimas que degradam os resíduos industriais, estão fundamentalmente ligados às proteínas e ao papel que desempenham.

PROFESSOR JOHN MOULT – CO-FUNDADOR E PRESIDENTE DO CASP, UNIVERSIDADE DE MARYLAND

As proteínas são os asseclas da vida, elas formam nossos corpos, alimentam nosso metabolismo e são o alvo da maior parte da medicina atual. Elas começam como uma fita simples, traduzida do DNA e, posteriormente, se dobram em arquiteturas tridimensionais intrincadas. Semelhante aos Transformers, muitas unidades de proteína ainda se agrupam em complexos massivos e móveis que mudam sua estrutura dependendo de suas necessidades funcionais no momento.

Proteínas mal dobradas podem ser devastadoras, causando problemas de saúde, desde anemia falciforme a câncer e doença de Alzheimer. Um dos maiores desafios da biologia nos últimos 50 anos foi decifrar como uma estrutura simples em forma de fita unidimensional se transforma em formas 3D, equipada com cânions, cristas, vales e cavernas. É como se um alienígena estivesse lendo as coordenadas de centenas de locais em um mapa do Grand Canyon em um caderno e reconstruindo-o em um holograma 3D da coisa real – sem nunca colocar os olhos nele ou saber como deveria ser.

Sim. É difícil. “Muita gente quebrou a cabeça com isso”, disse o Dr. John Moult, da Universidade de Maryland.

Não é apenas um exercício acadêmico, resolver o genoma humano pavimentou o caminho para a terapia genética, as descobertas do câncer CAR-T e a infame ferramenta de edição de genes CRISPR . Decifrar o enovelamento de proteínas vai iluminar toda uma nova paisagem da biologia que não fomos capazes de estudar ou manipular. O desenvolvimento rápido e furioso das vacinas Covid-19 contou com a análise de vários alvos proteicos do vírus, incluindo as proteínas de pico que as vacinas visam. Muitas proteínas que levam ao câncer até agora estão fora do alcance das drogas porque sua estrutura é difícil de definir.

Com essas novas ferramentas de IA, os cientistas podem resolver mistérios médicos assustadores enquanto se preparam para enfrentar aqueles ainda desconhecidos. Ela (IA) prepara o terreno para compreender melhor nossa biologia, informando novos medicamentos e até mesmo inspirando a biologia sintética no futuro.

“O que a equipe DeepMind conseguiu alcançar é fantástico e mudará o futuro da biologia estrutural e da pesquisa de proteínas”, disse a Dra. Janet Thornton, diretora emérita do Instituto Europeu de Bioinformática.

“Nunca pensei que veria isso em minha vida”, acrescentou Moult.

Nascimento de uma proteína

Imagine a vida como um videogame, se o DNA é o código básico de fundo, então as proteínas são sua execução – o jogo real que você joga. Quaisquer bugs no DNA podem causar uma falha no programa, mas também podem ser benignos e permitir que o jogo seja executado normalmente. 

Em outras palavras, a maioria da medicina moderna, como os jogadores, se preocupa apenas com a jogabilidade final – as proteínas – em vez do código-fonte que leva a ela, a menos que algo dê errado. De medicamentos para diabetes a antidepressivos e senolíticos potencialmente prolongadores de vida, todos esses medicamentos agem agarrando-se a proteínas em vez de DNA.

É por isso que decifrar a estrutura da proteína é tão importante: como uma chave para uma fechadura, uma droga só pode se encaixar em uma proteína em pontos específicos. 

Da mesma forma, as proteínas costumam se unir em um complexo para executar as funções do seu corpo – digamos, formando uma memória ou desencadeando um ataque imunológico contra um vírus.

As proteínas são feitas de blocos de construção chamados aminoácidos, que por sua vez são programados pelo DNA. Semelhante à pedra de Roseta, nossas células podem traduzir facilmente o código do DNA em blocos de construção de proteínas dentro de uma estrutura semelhante a uma concha, que emite uma cadeia de aminoácidos unidimensionais. Essas fitas são então embaralhadas por toda uma infraestrutura celular que permite que a proteína se enrole em sua estrutura final.

Na década de 1970, o vencedor do Prêmio Nobel, Dr. Christian Anfinsen, afirmou que a própria sequência unidimensional pode prever computacionalmente a estrutura 3D de uma proteína. O problema é tempo e poder: como tentar hackear uma senha com centenas de caracteres suspensos no espaço 3D, as soluções potenciais são astronômicas.

Mas agora temos uma ferramenta que vence os humanos na descoberta de padrões: o aprendizado de máquina.

Entrar na IA

Em 2020, DeepMind chocou todo o campo com sua entrada em uma competição bienal de legado. Apelidado de CASP (Avaliação crítica da previsão da estrutura da proteína), o teste de décadas usa métodos tradicionais de laboratório para determinar a estrutura da proteína como sua linha de base para julgar algoritmos de previsão.

A linha de base é difícil de obter, ele se baseia em técnicas experimentais laboriosas que podem levar meses ou até anos. Esses métodos geralmente “congelam” uma proteína e mapeiam sua estrutura interna até o nível atômico usando raios-X. Muitas proteínas não podem ser tratadas desta forma sem perder sua estrutura natural, mas o método é o melhor que temos atualmente. As previsões são então comparadas a este padrão ouro para julgar o algoritmo subjacente.

No ano passado, a DeepMind surpreendeu a todos com sua IA tirando outros concorrentes da água, na época, eles eram uma provocação, revelando poucos detalhes sobre seu método “ incrivelmente empolgante ” que correspondia aos resultados experimentais em precisão. Mas a apresentação de 30 minutos inspirou a Dra. Minkyung Baek, da Universidade de Washington, a desenvolver sua própria abordagem.

Baek usou uma estratégia de aprendizado profundo semelhante, descrita em um artigo na Science esta semana. A ferramenta, RoseTTAFold, considera simultaneamente três níveis de padrões. O primeiro examina os blocos de construção de aminoácidos de uma proteína e os compara com todas as outras sequências em um banco de dados de proteínas.

A ferramenta a seguir examina como os aminoácidos de uma proteína interagem com outra dentro da mesma proteína, por exemplo, examinando a distância entre dois blocos de construção distantes. É como olhar para as mãos e os pés totalmente esticados em oposição a uma flexão para trás e medir a distância entre essas extremidades ao se “dobrar” em uma pose de ioga.

Finalmente, a terceira faixa examina as coordenadas 3D de cada átomo que compõe um bloco de construção de proteína – tipo como mapear os pinos em um bloco de Lego – para compilar a estrutura 3D final. A rede então salta para frente e para trás entre essas trilhas, de modo que uma saída pode atualizar outra trilha.

Os resultados finais foram próximos aos da ferramenta da DeepMind, AlphaFold2, que combinou com o padrão ouro de estruturas obtidas a partir de experimentos. Embora RoseTTAFold não fosse tão preciso quanto AlphaFold2, aparentemente exigia muito menos tempo e energia. Para uma proteína simples, o algoritmo foi capaz de resolver a estrutura usando um computador para jogos em cerca de 10 minutos.

RoseTTAFold também foi capaz de resolver o problema da “montagem de proteínas”, na medida em que poderia prever a estrutura das proteínas, composta por unidades múltiplas, simplesmente olhando apenas para a sequência de aminoácidos. Por exemplo, eles foram capazes de prever como a estrutura de uma molécula imune se fixa em seu alvo. Muitas funções biológicas dependem desses apertos de mão entre as proteínas. Ser capaz de predizê-los usando um algoritmo abre a porta para a manipulação de processos biológicos – sistema imunológico, derrame, câncer, função cerebral – que antes não podíamos acessar.

Hacking the Body

Desde o lançamento público do RoseTTAFold em julho, ele foi baixado centenas de vezes, permitindo que outros pesquisadores respondessem às suas perguntas desconcertantes sobre a sequência de proteínas, economizando anos de trabalho e melhorando coletivamente o algoritmo.

“Quando há um avanço como este, dois anos depois, todo mundo está fazendo tão bem, senão melhor do que antes”, disse Moult.

Enquanto isso, a DeepMind também está lançando seu código AlphaFold2 – aquele que inspirou Baek.

Em um novo artigo na Nature, a equipe da DeepMind descreveu sua abordagem ao mistério de 50 anos. O ponto crucial era integrar múltiplas fontes de informação – a evolução de uma proteína e suas restrições físicas e geométricas – para construir um sistema de duas etapas que mapeia uma determinada proteína com uma precisão incrivelmente alta.

Apresentado pela primeira vez na reunião CASP, o Dr. Demis Hassabis, fundador e CEO da DeepMind, está pronto para compartilhar o código com o mundo. “Prometemos compartilhar nossos métodos e fornecer acesso amplo e gratuito à comunidade científica. Hoje damos o primeiro passo para cumprir esse compromisso, compartilhando o código-fonte aberto do AlphaFold e publicando a metodologia completa do sistema ”, escreveu ele, acrescentando que“ estamos entusiasmados para ver quais outros novos caminhos de pesquisa isso permitirá para a comunidade. ”

Com os dois estudos, estamos entrando em um novo mundo de previsão – e, subsequentemente, engenharia ou mudança – os blocos de construção da vida. O Dr. Andrei Lupas, biólogo evolucionário do Instituto Max Planck de Biologia do Desenvolvimento e juiz do CASP, concorda: “Isso mudará a medicina. Isso vai mudar a pesquisa ”, disse ele. “Isso vai mudar a bioengenharia. Isso vai mudar tudo. ”

Crédito da imagem: Ian Haydon, Instituto de Design de Proteínas da Universidade de Washington

https://singularityhub.com/2021/07/20/new-protein-folding-ai-just-made-a-once-in-a-generation-advance-in-biology/

 

 

Compartilhe em suas Redes Sociais