Não ignore os dados genéticos de populações minoritárias

Chefe Ben-Eghan, Rosie Sun, Jose Sergio Hleap, Alex Diaz-Papkovich, Hans Markus Munter, Audrey V. Grant, Charles Dupras e Simon Gravel

Os esforços para construir estudos representativos são frustrados quando os cientistas descartam dados de certos grupos. Em vez disso, os pesquisadores devem trabalhar para equilibrar as necessidades estatísticas com equidade.

Os geneticistas sabem há mais de uma década que seu foco em pessoas com ascendência europeia exacerba as disparidades de saúde 1. Uma análise de 2018 de estudos em busca de variantes genéticas associadas à doença descobriu que a sub-representação persiste: 78% dos participantes do estudo eram de ascendência europeia, em comparação com 10% de ascendência asiática e 2% de ascendência africana. Outras linhagens representaram, cada uma, menos de 1% do total 2.

Vários projetos, como o H3Africa 3, começam a aumentar a participação de grupos sub-representados, tanto entre os participantes como entre os investigadores.

Grandes biobancos reunidos na Europa e América do Norte, combinando amostras biológicas com dados relacionados à saúde, também definem metas de amostragem para aumentar a diversidade 4 -6.

Mas mesmo quando dados de grupos minoritários estão disponíveis, muitos pesquisadores os descartam 7. Embora possa haver razões válidas para restringir as análises a uma determinada população, descartar esses dados por padrão é eticamente problemático: piora a sub-representação e nega os esforços dos participantes em contribuir para a pesquisa.

As agências de financiamento tomaram medidas para melhorar a diversidade de participantes que são recrutados para estudos – notavelmente, isso levou a uma melhor representação de mulheres em ensaios clínicos desde a década de 1990. Mas as agências têm menos controle sobre as decisões dos pesquisadores sobre o que analisar. Os cientistas são atraídos para a conveniência estatística e incentivos de publicação, que podem entrar em conflito com o objetivo coletivo de maior equidade.

Aqui, sugerimos que uma abordagem usada na área de saúde pode ajudar os pesquisadores a tomar decisões de análise que são ética e cientificamente corretas.

Descartado

Para estimar a frequência com que dados minoritários são excluídos, examinamos publicações que usaram dados do UK Biobank (UKB; que contém material de 502.655 indivíduos) ou do US Health and Retirement Study (HRS; 12.454 indivíduos).

Ambos os biobancos suportam estudos de associação do genoma (GWAS), esses dados de varredura de milhares de participantes para encontrar variantes genéticas associadas a doenças.

Para comparar os critérios que os pesquisadores usaram para incluir ou excluir tipos de dados entre os estudos, distinguimos entre os participantes de grupos majoritários (MAJ) e minoritários (MIN) nos Estados Unidos e no Reino Unido.

Usamos o MAJ independentemente de um estudo ter como foco a etnia autodeclarada, como ‘branco’, ou a localização dos ancestrais de um indivíduo, como ‘ancestralidade europeia’.

Usamos MIN para nos referir a todos os outros indivíduos, incluindo aqueles de ascendência ou etnia mista.

Esta rotulação grosseira ajuda a descrever como os dados foram usados ​​em análises estatísticas e não implica que nenhum dos grupos seja uniforme. Contamos os dados de MIN como ‘incluídos’ se qualquer análise relatou traços de ligação ou doenças a genótipos nas amostras relevantes.

Em primeiro lugar, revisamos 21 artigos do catálogo GWAS (www.ebi.ac.uk/gwas) que continham as palavras-chave ‘UK Biobank’ (consulte as informações suplementares).

Vinte restringiram sua análise a apenas indivíduos MAJ no banco de dados do UKB (dois deles também analisaram dados de uma gama mais ampla de ancestrais em outros bancos de dados).

Também consultamos repositórios online e amostramos aleatoriamente outros 20 GWAS que usaram dados do UKB. Apenas um usou dados MIN.

Por fim, revisamos 17 GWAS listados na lista de publicações online do HRS, aqui, apenas seis estudos limitaram a análise às populações MAJ, talvez porque a proporção de participantes do MIN no biobanco dos EUA (24%) foi maior do que no Reino Unido (5%).

No geral, 45 dos 58 estudos em nossa amostra excluíram dados de MIN.

Se ponderarmos a representação pelo número de vezes que os dados de um indivíduo foram realmente analisados, a representação MIN no UKB cai para 0,06% (consulte ‘Deixado de fora’; os detalhes estão em Informações suplementares).

Esta situação problemática surpreenderá poucos pesquisadores em genética 6, 7.

Tanto o UKB quanto o HRS fizeram esforços para representar suas populações nacionais, no entanto, incluir indivíduos de grupos minoritários em coortes de dados, mas não em análises, pode ser visto como um tokenismo de fato. Dados não utilizados não ajudam grupos sub-representados.

Por que excluir?

Dos 45 estudos que excluíram dados, 31 não deram nenhum motivo, os 14 estudos restantes forneceram 15 explicações para a exclusão.

A explicação mais comum foi o medo de confundir (11/15), se uma variante genética for mais comum em um grupo de ancestrais, e esse grupo tiver uma taxa mais alta de uma característica específica, haverá uma correlação entre possuir a variante e possuir a característica. Um exemplo é a asma infantil, que é influenciada por fatores genéticos e ambientais. Os pesquisadores podem confundir a correlação como evidência de que essa variante causa asma infantil. Embora existam métodos estatísticos para evitar confusão, eles não são infalíveis, e a confusão é uma preocupação legítima 7.

Não é necessário excluir dados para reduzir o risco de confusão. Os dados de diferentes grupos podem simplesmente ser analisados ​​separadamente. No entanto, como as amostras de populações minoritárias são muito menores, elas têm menos poder estatístico e, portanto, são menos propensas a revelar novas associações genéticas.

Essa falta de poder foi o segundo motivo de exclusão mais citado (3/15). Um estudo insuficiente pode ser visto como uma perda de tempo, pois pode não produzir resultados estatisticamente significativos. Como encontrar uma associação genética pode ser suficiente para angariar uma publicação, adicionar análises de outras populações tem um custo, leva tempo, torna o manuscrito mais complicado, dá aos revisores mais uma coisa para criticar e, portanto, pode atrasar a publicação.

Apenas um estudo mencionou explicitamente os seguintes métodos de publicações anteriores como motivo de exclusão (1/15), mas suspeitamos que isso seja comum. Há boas razões para seguir o precedente: o uso de pipelines analíticos padrão reduz o custo de desenvolvimento e a necessidade de validação e explicação extensas.

Juntos, esses três motivos levam os pesquisadores a descartar dados das populações MIN.

Oportunidade perdida

Ao omitir dados, os cientistas perdem a oportunidade de construir conhecimento útil sobre as populações minoritárias, se os pesquisadores realizam GWAS em populações de ancestrais europeus, eles podem frequentemente usar resultados publicados anteriormente na forma de estatísticas resumidas para fortalecer suas descobertas.

Como as estatísticas resumidas apresentam pouco risco de privacidade para os participantes, elas geralmente podem ser baixadas gratuitamente em apenas alguns minutos.

Fazer a mesma comparação com os dados da população MIN que não foram relatados anteriormente requer o acesso às informações de nível individual. Isso envolve obter a aprovação da ética institucional, solicitar acesso aos dados da coorte, além da limpeza e processamento dos dados – tudo antes de finalmente realizar o GWAS, isso pode levar meses, se os dados MIN não forem analisados ​​junto com os dados MAJ, eles podem nunca ser usados.

Quando feitas como parte do estudo primário, em contraste, as análises de MIN adicionam poucos custos e podem ser informativas (consulte ‘Motivos para inclusão’).

MOTIVOS PARA INCLUSÃO

Como parte de um estudo sobre asma, realizamos um estudo de associação do genoma para contagens de células de eosinófilos. (Os eosinófilos são um subconjunto dos glóbulos brancos e costumam estar elevados em indivíduos com asma.) Fizemos três análises separadas, uma era da população majoritária (MAJ); duas eram das populações minoritárias (MIN) definidas usando as categorias de etnias autorreferidas do UK Biobank (participantes que se identificaram como negros ou negros britânicos e aqueles que se identificaram como asiáticos, asiáticos britânicos ou chineses).

As análises MAJ identificaram 432 loci genéticos (1.510 variantes genéticas independentes). As duas análises MIN identificaram independentemente 3 loci (com significância de todo o genoma, P ≤ 5 × 10 8), todos os quais foram identificados na análise MAJ. A análise MIN permitiu a validação de mais de um quarto das variantes identificadas na população MAJ com significância nominal (P = 0,05). Ele também mostrou resultados globais consistentes entre etnias, exceto para uma variante que mostrou significância nominal, mas efeitos opostos em populações asiáticas, asiáticas britânicas e chinesas, em relação à análise MAJ. Sem mais evidências, esta variante provavelmente não deve ser usada para prever o risco genético fora da Europa. (Consulte as informações suplementares para obter detalhes.)

Essas análises levaram 10 horas de computação, bem como alguma previsão. Isso é insignificante em comparação com o custo de acesso aos dados. A evidência de associação para os milhões de variantes que testamos agora pode ser comparada entre as populações e pode ser disponibilizada para meta-análises. Esses dados são particularmente importantes para estudar populações minoritárias, quando as amostras em coortes individuais podem carecer de poder estatístico.

Quatro critérios

Analisar os dados MIN é importante para a equidade e descoberta. Mas como devemos pesar isso contra o fardo individual imediato da análise estatística e publicação atrasada? As regras gerais que se aplicam a todos os estudos são difíceis de definir, mas há uma abordagem que deve ajudar.

Nas últimas duas décadas, governos e especialistas em ética apoiaram-se em uma estrutura chamada Accountability for razoável (A4R) para ajudar a alocar recursos escassos na área de saúde, como tratamentos novos ou caros. O A4R reconhece que os indivíduos em uma sociedade pluralista e democrática atribuem pesos diferentes a diferentes considerações e, portanto, podem nunca concordar com princípios amplos. Em vez disso, a A4R concentra-se no próprio processo de tomada de decisão e estabelece critérios que incentivam a justiça e a legitimidade 8 . Em suma, as razões para as decisões devem ser transparentes e relevantes.

A adesão a esses critérios deve ser aplicada e medida de forma a se adaptar às novas informações.

Os critérios da A4R sugerem pequenas mudanças nas convenções de análise e publicação que melhorariam a justiça e a responsabilidade.

Transparência. Em suas publicações, os pesquisadores devem justificar a exclusão dos dados dos participantes. De maneira mais geral, eles devem explicar as opções de projeto e análise que têm o potencial de piorar as desigualdades.

Relevância. As razões declaradas para a exclusão devem explicar como a decisão buscou melhor servir à sociedade, dadas as restrições de pesquisa do mundo real. Razões como medo de confundir, poder limitado e precedente podem não atender a esse requisito se puderem ser contornadas por um método de análise específico (usando estratificação ou metanálise, por exemplo). Exceto por razões mais convincentes, recomendamos que os pesquisadores calculem estatísticas de associação para populações MIN e as relatem como parte do estudo primário.

Execução. Propomos que o mandato das revistas que submetem manuscritos justifique qualquer exclusão de dados de participantes nas análises. Os formulários devem perguntar aos revisores se as razões relevantes foram fornecidas.

O objetivo não é transformar revisores em árbitros morais, em vez disso, eles devem simplesmente avaliar se as razões fornecidas são relevantes para as análises sob revisão. Este modesto requisito encorajaria as análises a serem mais inclusivas, fomentaria uma discussão mais ampla sobre os motivos legítimos para exclusão e esclareceria as expectativas dos autores.

É importante ressaltar que os revisores não devem exigir que os resultados das análises das populações MIN e MAJ sejam consistentes, discrepâncias devem ser discutidas, mas forçar os pesquisadores a explicar todas as observações impediria que resultados úteis fossem compartilhados.

Revisões. A maneira como os pesquisadores avaliam a transparência e a relevância deve mudar com a sociedade e a metodologia, nossas recomendações de que os dados das populações MIN sejam analisados ​​por padrão podem se tornar discutíveis se houver dados suficientes disponíveis em coortes que se concentram em grupos sub-representados 9.

O campo também pode passar para um modelo no qual equipes especializadas analisam dados MIN em vários fenótipos (consulte, por exemplo, https://pan.ukbb.broadinstitute.org), isso mudaria tanto os custos quanto os benefícios de realizar análises subsequentes dos dados MIN. Isso poderia reduzir o ímpeto de análise por estudos individuais, ao mesmo tempo em que fornece ferramentas que reduzem a carga de análise e o risco de confusão para os pesquisadores subsequentes.

As análises estatísticas que são mais inclusivas não podem superar as desigualdades fundamentais na representação entre os participantes do estudo, muito menos resolver as questões mais amplas de equidade e soberania dos dados 10, mas eles são um passo na direção certa.

Ao reconhecer a tensão entre as considerações éticas e práticas, os pesquisadores em genética e outros campos podem se responsabilizar por tornar os avanços científicos mais eficientes e justos.

Nature 585, 184-186 (2020)

 

Doi: 10.1038 / d41586-020-02547-3

Referências

1

Bustamante, CD, De La Vega, FM e Burchard, EG Nature 475, 163-165 (2011).

 

PubMedArtigoGoogle Scholar

2

Sirugo, G., Williams, SM & Tishkoff, SA Cell 177, 26–31 (2019).

 

PubMedArtigoGoogle Scholar

3 –

Mulder, N. et al. Pharmacogenomics Pers. Med. 11, 59–66 (2018).

 

ArtigoGoogle Scholar

4 –

Ollier, W., Sprosen, T. & Peakman, T. Pharmacogenomics 6 , 639-646 (2005).

 

PubMedArtigoGoogle Scholar

5

Sonnega, A. et al. Int. J. Epidemiol. 43 , 576–585 (2014).

 

PubMedArtigoGoogle Scholar

6

Tutton, R. Raça / Etnia: Multidiscip. Glob. Contexts 3, 75–95 (2009).

 

Google Scholar

7

Peterson, RE et al. Cell 179, 589–603 (2019).

 

PubMedArtigoGoogle Scholar

8

Daniels, N. & Sabin, JE Br. Med. J. 337, a1850 (2008).

 

ArtigoGoogle Scholar

9

Wojcik, GL et al. Nature 570, 514–518 (2019).

 

PubMedArtigoGoogle Scholar

10

Fox, K. N. Engl. J. Med. 383, 411–413 (2020).

 

PubMedArtigoGoogle Scholar

11

Fry, A. et al. Sou. J. Epidemiol. 186 , 1026–1034 (2017).

 

PubMedArtigoGoogle Scholar

 

https://nature.us17.list-manage.com/track/click?u=2c6057c528fdc6f73fa196d9d&id=e10200677d&e=6a834577b3

 

Assunto relacionado:

https://www.nature.com/articles/d41586-019-01166-x

Vocês já conhecem nossos cursos?

Não?

Então, clique aqui: https://inlagsacademy.com.br/minha-conta/

 

Compartilhe em suas Redes Sociais