Unha tese desenvolve software para mellorar procesos de análise de datos de secuenciación masiva de ADN e ARN

Os ‘pipelines’ Nextpresso, Bicycle e Metatax están dispoñibles na rede para a súa descarga
Publicado por o día 27/01/2021 na sección de Universidade de Vigo

Unha tese desenvolve software para mellorar procesos de análise de datos de secuenciación masiva de ADN e ARN

A expansión das tecnoloxías de secuenciación masiva ou de nova xeración (Next Generation Sequencing ou NGS) de ADN e ARN leva consigo un grande esforzo bioinformático para deseñar, desenvolver e/ou adaptar algoritmos que analicen os datos xerados coa maior precisión e eficiencia posibles. Co obxectivo de contribuír ao avance neste eido, o bioinformático Osvaldo Graña Castro abordou na súa tese de doutoramento o deseño e desenvolvemento de tres pipelines (software que executa programas requiridos dentro dunha secuencia ordenada lóxica) de aplicación na análise de datos procedentes de secuenciación masiva, concretamente na análise da expresión e metilación de xenes e na identificación e cuantificación de poboacións bacterianas en mostras biolóxicas.

A tese, titulada Deseño e desenvolvemento de workflows software para a análise de datos procedentes de secuenciación masiva, estivo dirixida por Daniel González Peña, membro do grupo de investigación SING (Next Generation Computer Systems Group) e profesor da Escola Superior de Enxeñaría Informática do campus de Ourense, e Alfonso Valencia Herrera, director do Instituto Nacional de Bioinformática e profesor de investigación ICREA no Barcelona Supercomputing Center. Foi realizada no marco do Programa de Doutoramento en Sistemas de Software Intelixentes e Adaptables da UVigo e presentada este curso académico de xeito telemático. O traballo presentado nesta tese, indica Osvaldo Graña Castro, naceu no ano 2014 en base a necesidades da Unidade de Bioinformática do Centro Nacional de Investigaciones Oncológicas, onde traballa, e coa colaboración co grupo de investigación SING.

Segundo explica o seu autor, a tese xorde nun contexto no que a secuenciación masiva ten interrompido con moita forza no campo da bioloxía molecular e da xenómica, “cunha implicación clara na práctica clínica, abrindo un novo escenario no contexto de certas enfermidades con base xenética, como por exemplo o cancro, onde está servindo como un elemento adicional para establecer un diagnóstico, estimar o prognóstico, suxerir un tratamento ou ben predicir a resposta ao mesmo”. Hoxe en día, apunta Osvaldo Graña Castro, existen distintas firmas comerciais que implementan esta técnica en base a aproximacións tecnolóxicas diferentes pero que teñen “o común denominador de que todas elas son capaces de producir desde miles a millóns de lecturas de maior ou menor tamaño, segundo a tecnoloxía, que corresponden a rexións concretas de moléculas de ADN o ARN”. Todas as lecturas xeradas, detalla, precisan de algoritmos e programas informáticos capaces de analizalas con precisión e rapidez e tamén de pipelines bioinformáticos que, “de maneira coordinada, executen os programas necesarios, xerando, combinando e presentando os resultados de forma amigable, á vez que aproveitan ao máximo a capacidade computacional dispoñible”.

Novas ferramentas

Na tese, comenta o seu autor, en primeiro lugar deseñouse e desenvolveuse un pipeline, denominado Nextpresso, para analizar lecturas cortas de RNA-seq obtidas de mostras biolóxicas para detectar cambios na expresión dos xenes. A continuación deseñouse e desenvolveuse un segundo software, chamado Bicycle, para analizar lecturas cortas de BS-seq, procedentes de mostras de ADN tratadas previamente con bisulfito sódico, para detectar cambios na metilación dos xenes. Finalmente, deseñouse e desenvolveuse un terceiro pipeline, Metatax, para poder identificar e cuantificar poboacións bacterianas en mostras de interese biolóxico (como mostras de feces, bucais ou de pel) mediante a secuenciación do marcador xenético ARN ribosomal 16S.

A usabilidade e achega científica destas ferramentas informáticas, comenta o xa doutor pola Universidade de Vigo, “queda patente pola ampla cantidade de estudos científicos que os referencian ou que teñen feito uso dos mesmos, maioritariamente de Nextpresso, que ten sido empregado para avanzar no coñecemento en diversas áreas”, como os RNAs teloméricos ou os mecanismos de metástase en melanoma. Os pipelines deseñados, que se aplicaron á análise de datos procedentes de tres modalidades distintas de NGS, están dispoñibles para o público mediante distintas vías, como son DockerHub, GitHub ou CompiHub, incluíndo segundo o caso o código fonte.

A nivel máis xeral, engade Osvaldo Graña Castro, a realización desta tese ten permitido identificar cuestións comúns a todos os pipelines que se poden abordar desde frameworks xenéricos de desenvolvemento dos mesmos. O traballo realizado e a experiencia adquirida durante o deseño e implementación destas tres ferramentas, detalla, ten conducido ao equipo desta tese “á creación dun novo framework para un desenvolvemento áxil e flexible de pipelines, denominado Compi, que simplifica e acelera a creación dos mesmos”. Compi, apunta o investigador, aborda múltiples aspectos do desenvolvemento deste tipo de software, como a facilidade de implementación, a escalabilidade na execución, a portabilidade e a reproducibilidade dos resultados.

Comentar noticia

Your email address will not be published.