Genómica: conocimiento

Ascendencia vs. raza: implicaciones para la sociedad

Métodos y aplicaciones de inferencia de ascendencia

Simon Lee
November 23, 2020


¿Cuál es la diferencia entre raza y ascendencia? ¿Cómo funciona la inferencia de la ascendencia? ¿Qué implicaciones tiene para la sociedad? Los kits de pruebas genéticas caseras como 23andMe y Ancestry han aumentado en gran medida su popularidad en los años recientes. Los clientes pueden aprender sobre su ascendencia única, junto con los porcentajes estimados de sus genomas que se pueden atribuir a diferentes regiones geográficas. El interés público en aprender sobre la herencia genética ha ayudado a que el mercado de la genética de consumo crezca hasta alcanzar una industria de $117 millones en 2017[1].

Además del entretenimiento personal, la inferencia de la ascendencia es una herramienta crucial en el estudio de la evolución humana y la historia de la población. Comprender cómo los eventos de migración y mestizaje conducen al intercambio de genes y la variación genética que se observa en la actualidad depende de la identificación de los orígenes de las secuencias genéticas[2]. La inferencia de la ascendencia también es importante para la genética de enfermedades y el desarrollo de fármacos[3]. Puede ayudar a explicar por qué algunas poblaciones están más predispuestas a ciertas enfermedades que otras y a las discrepancias en las respuestas a los medicamentos.

Raza y ascendencia

Hay una diferencia clave entre raza y ascendencia. La raza por sí misma no es biológica. Según un estudio de Stanford de 2002, tendía a haber más similitudes entre las poblaciones que dentro de ellas[4]. Los científicos encontraron que solo el 7.4 % de más de 4,000 alelos (diferentes variaciones de un gen) eran específicos de una región geográfica, mientras que el 92 % de todos los alelos se encontraron en más de dos regiones. Otra serie de estudios en los que se secuenciaron los primeros genomas humanos mostró que dos científicos de ascendencia europea eran más similares genéticamente a un científico de ascendencia asiática que entre sí[5]. Un artículo de 2010 en Genomics encontró que la heterocigosidad del haplotipo (proporción de personas en una población en la que una colección de alelos heredados como un bloque de uno de los padres difiere de los transmitidos por el otro padre, y una medida de diversidad genética) disminuyó con la distancia de África, lo que sugiere que un africano puede ser más similar a un europeo que a otro africano[6]. Este hallazgo era de esperar, ya que los humanos modernos se originaron en África y emigraron a otras partes del mundo y las poblaciones más jóvenes tuvieron menos tiempo para desarrollar variaciones. En esencia, debido a que hay tanta similitud entre las razas y tanta variación interna, la raza solo puede definirse como un constructo social[7].

A diferencia de la raza, la ascendencia no se trata de categorizar, sino más bien de desentrañar la historia biogeográfica de la variación genética en una población. Debido a que las poblaciones vivían en relativo aislamiento antes de que los viajes transcontinentales se volvieran ubicuos, cada región geográfica tiene su propia huella genética. A través de eventos de mezcla, en los que se cruzaron poblaciones distantes, los humanos que existen actualmente tienen genes de muchas regiones diferentes. Los investigadores se refieren al genoma humano actual como un "mosaico" de segmentos que se originan en todo el mundo[8]. Los estudios de ascendencia tienen como objetivo encontrar de dónde provienen estos segmentos.

A diferencia de la raza, la ascendencia no se trata de categorizar, sino más bien de desentrañar la historia biogeográfica de la variación genética en una población.

Marcadores informativos de ascendencia

En un nivel puramente genómico, es casi imposible saber dónde se originó una persona, en especial si proviene de una mezcla. La respuesta está en partes específicas de su ADN llamadas marcadores informativos de ascendencia (ancestry-informative markers, AIM)[9]. Los AIM son un subconjunto de polimorfismos de un solo nucleótido (single nucleotide polymorphisms, SNP), que son mutaciones genéticas que ocurren en más del 1 % de una población. Como resultado de las diferencias en los entornos y los tiempos de evolución, algunos SNP se producen en frecuencias más altas en determinadas poblaciones. Estos SNP se conocen como AIM.

Es importante trazar una línea entre los AIM y la raza. Si bien es cierto que existen marcadores genéticos en su genoma que pueden insinuar su origen, no existe un gen único que sea categóricamente indicativo de su raza. Los AIM ocurren con mayor frecuencia en una determinada población, pero esto no significa que el 100 % de la población tenga el SNP. Con los AIM, los científicos pueden predecir por separado dónde se pueden haber originado partes individuales de su ADN. La combinación de inferencias discretas retrata una estimación de la ascendencia biogeográfica única de su genoma como un todo. El proceso de encontrar las proporciones de su ADN que provienen de poblaciones de origen se conoce como inferencia de ascendencia global. La inferencia de ascendencia local (local ancestry inference, LAI) se refiere al estudio del origen de segmentos cromosómicos individuales.

Para encontrar los AIM, los investigadores deben tener una gran base de datos de referencia de secuencias de ADN de una variedad de poblaciones. Todas las secuencias deben tener una etiqueta de ascendencia de verdad fundamental verificada, lo que permite a los científicos iterar para identificar los SNP que se correlacionan con ciertas poblaciones. Es fundamental seleccionar una gama diversa de AIM relevantes que producirán las estimaciones correctas. Por ejemplo, el SNPforID 34-plex es un panel de 34 SNP que pueden distinguir con precisión entre ascendencia africana, europea y asiática oriental[10].

También es posible inferir más específicamente a subpoblaciones dentro de estas categorías generales. Por ejemplo, el producto comercial 23andMe estima la ascendencia de 45 poblaciones regionales. Para hacer estas predicciones específicas, los científicos consultan un conjunto más amplio de marcadores. Los métodos de inferencia de ascendencias anteriores, como STRUCTURE en 2003, usaban AIM, pero a medida que avanzaban las tecnologías de secuenciación e informáticas, quedó claro que analizar datos de SNP de alta densidad como información contextual además de AIM producía mejores resultados[11]. 23andMe calcula hasta 50,000 marcadores por cromosoma, lo que permite inferir la ascendencia a nivel subcontinental.

23andMe calcula hasta 50,000 marcadores por cromosoma, lo que permite inferir la ascendencia a nivel subcontinental

Enfoques actuales de la inferencia de ascendencia local y global

Según los investigadores de 23andMe, el algoritmo de Ancestry Composition es un proceso de tres pasos para realizar inferencias de ascendencia local[12]. Combinando todas las LAI juntas, 23andMe produce una inferencia de ascendencia global. Requiere secuencias en fase, que son haplotipos, o colecciones de genes que provienen de uno de los padres.

El primer módulo de Ancestry Composition es una máquina de vectores de soporte, que es un clasificador que se refina iterativamente para encontrar la forma óptima de separar los puntos de datos de entrada en categorías predeterminadas. El módulo inicialmente divide el haplotipo de entrada en segmentos con marcadores genéticos iguales, que en el experimento de 23andMe eran 100 marcadores. Luego, la máquina de vectores de soporte (support vector machine, SVM) clasifica cada segmento de 25 poblaciones en todo el mundo.

El segundo módulo es un modelo estadístico de Markov que transforma las clasificaciones de segmentos en probabilidades de confianza. También se corrigen errores probables, como errores de clasificación. Por ejemplo, si una cadena de segmentos que se clasifica continuamente como pertenecientes a una población es interrumpida por una clasificación para otra población, el módulo cambia el segmento mal clasificado a la etiqueta de mayoría. El tercer módulo "calibra" estas probabilidades comparándolas con datos empíricos de ascendencia.

Ancestry Composition logró precisiones respetables en tareas de clasificación tanto continentales como subcontinentales. La evaluación se realizó de dos maneras: una con un umbral de confianza del 0 %, lo que significa que todas las muestras tenían una suposición, y otra en la que el modelo solo ofrecía predicciones para niveles de confianza superiores al 80 %. Ancestry Composition alcanzó una precisión (porcentaje de positivos verdaderos de todas las predicciones positivas) de más del 98 % y una puntuación de recuerdo (porcentaje de positivos verdaderos de todos los positivos verdaderos de base) de más del 94 % en la tarea continental en ambos entornos de prueba. En la tarea subcontinental, alcanzó una precisión superior al 84 % con un umbral de confianza del 0 %, mientras que con un umbral del 80 %, la precisión aumentó por encima del 90 %. Esto significó que algunos segmentos permanecieron sin clasificar.

Si bien Ancestry Composition se usa en la industria, un método común para la LAI en el ámbito académico es la ascendencia local en poblaciones mezcladas (Local Ancestry in adMixed Populations, LAMP). Ancestry Composition tiene una limitación porque las clasificaciones se basan en ventanas elegidas arbitrariamente del haplotipo de entrada, sin tener en cuenta que los segmentos heredados pueden superponerse entre ventanas. La LAMP utiliza un algoritmo de agrupamiento en todas las ventanas de longitud fija que se superponen con un SNP objetivo y asigna la clasificación mayoritaria al SNP[13]. En muestras mezcladas yoruba y europeas, la LAMP logró una precisión de inferencia del 94 %. Sin embargo, a medida que aumentaba la similitud entre las poblaciones, la precisión de la LAMP disminuyó, con una puntuación del 48 % para las muestras mixtas chinas y japonesas. Los métodos de LAI posteriores se han basado en el punto de referencia de la LAMP; WINPOP ofrece mejoras significativas en el rendimiento de LAMP en poblaciones estrechamente relacionadas.

De cara al futuro, el campo de la inferencia de la ascendencia tiene varios desafíos que abordar. La precisión depende de la calidad de los datos de referencia. Es difícil encontrar marcadores representativos de una población ancestral cuando se mezclan las muchas personas que existen en la actualidad. Además, muchos programas de LAI populares, a menudo, se contradicen entre sí en las mismas tareas. Por ejemplo, en un estudio de asociación de enfermedades, LAMPLD y MULTIMIX divergieron en el 18 % de las inferencias[14]. Los científicos trabajan constantemente para mejorar la precisión de sus métodos, y los avances en computación y genómica facilitarán nuevos desarrollos en los estudios de ascendencia.

Los miembros de la misma raza preconcebida no necesariamente comparten la misma ascendencia

Conclusión

La raza, al basarse en la apariencia física, no tiene relación biológica. No existe un solo alelo que sea completamente exclusivo de una raza y aparezca en todas las personas que la conforman. La ascendencia es un descriptor más válido de las afiliaciones de población de una persona, ya que la variación genética tiene una distribución basada en la geografía, en vez de en el color de la piel. Los miembros de la misma raza preconcebida no necesariamente comparten la misma ascendencia, lo cual es una distinción importante que se debe hacer cuando, por ejemplo, se descubre cómo los genes de susceptibilidad a enfermedades de una región fluyeron a lo largo de la historia. La era de la medicina genómica presenta interesantes oportunidades y desafíos. A medida que más poblaciones ganen representación en los estudios de asociación relacionados con la ascendencia, será importante educar al público sobre sus beneficios e implicaciones, tanto en la medicina como en los puntos de vista de la sociedad sobre la raza.

Referencias


[1] Global Direct-to-Consumer Genetic Testing Market is growing with Double Digit CAGR. (2018, February). Retrieved from www.credenceresearch.com/report/direct-to-consumer-genetic-testing-market

[2] Royal, C. D., Novembre, J., Fullerton, S. M., Goldstein, D. B., Long, J. C., Bamshad, M. J., & Clark, A. G. (2010). Inferring Genetic Ancestry: Opportunities, Challenges, and Implications. The American Journal of Human Genetics, 86(5), 661-673. doi:10.1016/j.ajhg.2010.03.011

[3] Rotimi, C. N., & Jorde, L. B. (2010). Ancestry and Disease in the Age of Genomic Medicine. New England Journal of Medicine, 363(16), 1551-1558. doi:10.1056/nejmra0911564

[4] Rosenberg, N. A. (2002). Genetic Structure of Human Populations. Science, 298(5602), 2381-2385. doi:10.1126/science.1078311

[5] Ahn, S., Kim, T., Lee, S., Kim, D., Ghang, H., Kim, D., . . . Kim, S. (2009). The first Korean genome sequence and analysis: Full genome sequencing for a socio-ethnic group. Genome Research, 19(9), 1622-1629. doi:10.1101/gr.092197.109

[6] Xing, J., Watkins, W. S., Shlien, A., Walker, E., Huff, C. D., Witherspoon, D. J., . . . Jorde, L. B. (2010). Toward a more uniform sampling of human genetic diversity: A survey of worldwide populations by high-density genotyping. Genomics, 96(4), 199-210. doi:10.1016/j.ygeno.2010.07.004

[7] Yudell, M., Roberts, D., Desalle, R., & Tishkoff, S. (2016). Taking race out of human genetics. Science, 351(6273), 564-565. doi:10.1126/science.aac4951

[8] Thornton, T. A., & Bermejo, J. L. (2014). Local and Global Ancestry Inference and Applications to Genetic Association Analysis for Admixed Populations. Genetic Epidemiology, 38(S1). doi:10.1002/gepi.21819

[9] Pfaffelhuber, P., Grundner-Culemann, F., Lipphardt, V., & Baumdicker, F. (2020). How to choose sets of ancestry informative markers: A supervised feature selection approach. Forensic Science International: Genetics, 46, 102259. doi:10.1016/j.fsigen.2020.102259

[10] Phillips, C., Salas, A., Sánchez, J., Fondevila, M., Gómez-Tato, A., Álvarez-Dios, J., . . . Carracedo, Á. (2007). Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs. Forensic Science International: Genetics, 1(3-4), 273-280. doi:10.1016/j.fsigen.2007.06.008

[11] Geza, E., Mugo, J., Mulder, N. J., Wonkam, A., Chimusa, E. R., & Mazandu, G. K. (2018). A comprehensive survey of models for dissecting local ancestry deconvolution in human genome. Briefings in Bioinformatics, 20(5), 1709-1724. doi:10.1093/bib/bby044

[12] Durand, E. Y., Do, C. B., Mountain, J. L., & Macpherson, J. M. (2014). Ancestry Composition: A Novel, Efficient Pipeline for Ancestry Deconvolution. doi:10.1101/010512

[13] Sankararaman, S., Sridhar, S., Kimmel, G., & Halperin, E. (2008). Estimating Local Ancestry in Admixed Populations. The American Journal of Human Genetics, 82(2), 290-303. doi:10.1016/j.ajhg.2007.09.022

[14] Chen, M., Yang, C., Li, C., Hou, L., Chen, X., & Zhao, H. (2014). Admixture mapping analysis in the context of GWAS with GAW18 data. BMC Proceedings, 8(Suppl 1). doi:10.1186/1753-6561-8-s1-s3

Acerca del autor

Simon Lee

Simon Lee es un estudiante de secundaria en Whittle School and Studios. Sus intereses se enfocan en aprendizaje automatizado y biología informática, y cómo se pueden utilizar para el bien social.