La IA tras los secretos de las proteínas

Uno de los secretos mejor guardados por gran parte de las proteínas conocidas es su estructura tridimensional. ¿Puede la IA ayudarnos a revelarlo? ¿Para qué serviría?

Allá por el año 2001 se anunciaba la secuenciación del genoma humano, la llave para finalmente comprender cómo funciona el ser humano y alcanzar así algunos de los hitos más esquivos, como la cura del cáncer. O al menos así lo anunciaban algunos. Los grandes avances en las ciencias suelen abrir horizontes inexplorados y nuevas posibilidades, pero que, aún así, requieren de un largo y arduo trabajo. Así como el genoma era una invaluable llave, la puerta que abrió nos condujo a un camino lleno de recompensas pero no exento de desafíos.

Cuando se habla del genoma se habla de toda la información genética de un organismo, y la analogía que suele hacerse es la de un gran libro de varios tomos, cromosomas, escrito en un “idioma” que todavía no sabemos descifrar del todo. Pero algo hay que sí comprendemos bien, las instrucciones que contiene el genoma para la producción de proteínas, que ahora sabemos que en humanos son aproximadamente 20.000 diferentes.

Escuchamos a diario la palabra proteínas, por ejemplo, cuando hablamos de la composición de los alimentos, ¿pero qué son las proteínas? Simplificando, son “cadenas” (polímeros), invisibles al microscopio común, en las que cada eslabón es un compuesto llamado aminoácido, de los que hay veinte posibles. Estos aminoácidos se unen uno tras otro en una secuencia de largo variable (decenas a miles de eslabones) e innumerables combinaciones. Pero el proceso no acaba allí, una vez producidas las proteínas, se pliegan/“retuercen”, formando una estructura tridimensional que, al fin y al cabo, es lo que determina su función (Figura 1).

La IA tras los secretos de las proteínas
Figura 1. Las proteínas adquieren su estructura tridimensional cuando la cadena de aminoácidos se pliega, como se representa esquemáticamente (adaptado de https://commons.wikimedia.org/wiki/File:Main_protein_structure_levels_gl.svg)

Figura 1. Las proteínas adquieren su estructura tridimensional cuando la cadena de aminoácidos se pliega, como se representa esquemáticamente (adaptado de https://commons.wikimedia.org/wiki/File:Main_protein_structure_levels_gl.svg)

Por esto, conocer la secuencia de aminoácidos de una proteína, es decir, el número y combinación de estos “eslabones”, no alcanza para comprender cómo actúa. Hay una variedad de métodos (bio)informáticos que permiten predecir sus funciones por comparación con proteínas ya estudiadas. Más allá de esto, conocer la estructura es fundamental para comprender importantes características. Por ejemplo, durante la pandemia de Covid, conocer la estructura de la proteína superficial del virus ayudó a reconocer qué mutaciones (cambios de aminoácidos) presentes en variantes nuevas, eran más relevantes para guiar el diseño de vacunas más efectivas (Figura 3).

La IA tras los secretos de las proteínas
Figura 3. El virus SARS-CoV-2, causante del COVID-19, posee una proteína en su superficie, la proteína S o espina, en la que están basadas muchas de las vacunas usadas. En la imagen, arriba a la izquierda representado el virus esquemáticamente, a la derecha un corte mostrando sus principales componentes, y abajo la estructura de la proteína espina, destacando una mutación presente en una variante del virus que reduce la efectividad de la vacuna que se daba previamente. (adaptado de Kumar y col., 2023, https://doi.org/10.3390/v15040856).

Figura 3. El virus SARS-CoV-2, causante del COVID-19, posee una proteína en su superficie, la proteína S o espina, en la que están basadas muchas de las vacunas usadas. En la imagen, arriba a la izquierda representado el virus esquemáticamente, a la derecha un corte mostrando sus principales componentes, y abajo la estructura de la proteína espina, destacando una mutación presente en una variante del virus que reduce la efectividad de la vacuna que se daba previamente. (adaptado de Kumar y col., 2023, https://doi.org/10.3390/v15040856).

Décadas de experimentos permitieron determinar la estructura 3D de miles de proteínas de todos los reinos de la vida. Aún así, este esfuerzo, que dio invaluables resultados, sólo permitió abarcar una minúscula parte del total de proteínas cuya secuencia se conoce. A la par de estos avances, se fueron desarrollando métodos computacionales para predecir informáticamente estas estructuras. Y estos métodos, que también dieron grandes resultados y fueron mejorando sostenidamente, siempre requirieron de un especialista del área para su uso y de un trabajo minucioso para llegar a una estructura confiable. Pero un día… llegó la IA.

Escuchamos a diario la palabra proteínas, por ejemplo, cuando hablamos de la composición de los alimentos, ¿pero qué son las proteínas? Simplificando, son “cadenas” (polímeros), invisibles al microscopio común, en las que cada eslabón es un compuesto llamado aminoácido, de los que hay veinte posibles.

Cuando hablo de IA (inteligencia artificial), hablo de las tecnologías nuevas, del estilo de IA que usa ChatGPT, ya que tipos de inteligencias artificiales similares, y no tan similares, existen hace décadas. Y en el estudio de las estructuras de proteínas, el equivalente de ChatGPT se llama Alphafold (Figura 2). Tal fue el impacto de esta IA que en 2024 sus desarrolladores, junto a otro sobresaliente investigador de la disciplina, recibieron el Premio Nobel de Química. Pero, ¿qué hace a Alphafold tan especial? Varios aspectos. Además de lo esperable, que da muy buenos resultados, Alphafold permite predecir estructuras para las cuales no había ninguna proteína similar con estructura determinada experimentalmente, en otras palabras, da buenos resultados aún sin un molde para guiarla, algo que antes generalmente fallaba. Por otra parte, no se requieren conocimientos tan específicos para poder utilizarla, lo que permite hacer predicciones valiosas a investigadores no tan especializados en el área. Inclusive, facilita la evaluación de interacciones entre proteínas, lo que previamente era más complejo de realizar.

La IA tras los secretos de las proteínas
Figura 2. Esquema de cómo funciona Alphafold. Comienza con la secuencia de la proteína (cuadrados de colores a la izquierda), y luego de unas búsquedas en bases de datos, lo procesa una red neuronal que produce la estructura tridimensional de la proteína (imagen tomada de https://www.ebi.ac.uk/training/online/courses/alphafold/an-introductory-guide-to-its-strengths-and-limitations/what-is-alphafold/).

Figura 2. Esquema de cómo funciona Alphafold. Comienza con la secuencia de la proteína (cuadrados de colores a la izquierda), y luego de unas búsquedas en bases de datos, lo procesa una red neuronal que produce la estructura tridimensional de la proteína (imagen tomada de https://www.ebi.ac.uk/training/online/courses/alphafold/an-introductory-guide-to-its-strengths-and-limitations/what-is-alphafold/).

La ciencia funciona como un esfuerzo colectivo internacional, en el que los resultados de toda investigación se difunden y publican para que otros investigadores los aprovechen. Alphafold no escapa a esta lógica y es un programa libre que está siendo utilizado gratuitamente por investigadores de todo el mundo. Y así debe ser, ya que a pesar de ser un programa desarrollado por una empresa privada propiedad de Google, es una IA que aprendió de las miles de estructuras tridimensionales que, como mencioné, costó décadas determinar mediante experimentos y que pusieron a disposición de la comunidad sin costo, aunque mucho costó a los sistemas de ciencia generar esta valiosa información. Sin estas estructuras experimentales, nada habría podido hacer Alphafold, no hubiera tenido con información confiable para entrenarse.

En lo personal, como investigador en el IAL (Conicet) y docente en la Facultad de Bioquímica y Ciencias Biológicas (UNL), utilizo Alphafold para el estudio de las proteínas vegetales. Esto nos ayuda a comprender cómo estas proteínas interactúan y desarrollan su función, lo que en el futuro podría ser aplicable al mejoramiento de diversos cultivos. Llevarlo adelante requiere del apoyo de organismos públicos de financiamiento de la ciencia, ya que los plazos necesarios y el riesgo involucrado, en términos de inversión, no podría ser financiado por el sector privado, especialmente en estas etapas iniciales en que se genera, primariamente, conocimiento científico.

Volviendo a las proteínas, ¿es entonces Alphafold la clave definitiva para su estudio? No, como con la secuenciación del genoma, es una herramienta que permite dar un enorme salto y acelerar los descubrimientos, pero a la vez es sólo un valioso engranaje más en la complejidad de las investigaciones biológicas y médicas. Pero hay algo más que Alphafold pone en evidencia: cómo las nuevas IAs han alcanzado diversos aspectos de la actividad humana y cómo estas tecnologías se nutren de la información disponible para ayudarnos con las tareas que queremos resolver. En otras palabras, nos ayudan a develar los secretos que buscamos conocer, a partir de los secretos que les hayamos compartido. Dicho así, parece más un derecho que un premio que estén a nuestra disposición, ¿verdad?

*El autor es investigador adjunto de Conicet. Además trabaja en el Instituto de Agrobiotecnología del Litoral (Conicet-UNL, CCT Santa Fe). Docente de la Facultad de Bioquímica y Ciencias Biológicas (Universidad Nacional del Litoral, Santa Fe).

Producción y edición: Miguel Títiro - [email protected]

LAS MAS LEIDAS