Analisis de Anvio Genómico

REFORMATEAR

  Simplifica los nombres de contigs en él archivo y elimina algunos de los contigs cortos.

Si abrimos el archivo contigs.fa se puede ver que hay espacios y algunos otros caracteres especiales en los encabezados (las líneas que comienzan con ">"). Esto puede ser problemático para algunas herramientas, y es mejor tener encabezados simplificados si se puede. Hay muchas maneras de hacer modificaciones como esa, y algunos scripts ya existen. Anvi'o tiene uno, que realiza la simplificación de los nombres de contigs en él archivo y elimina algunos de los contigs cortos. También se va a filtrar los contigs que sean más cortos que 2500 bps. Si desea hacer esto normalmente o no, depende del investigador.

Comandos:

    anvi-script-reformat-fasta contigs.fasta -o reformat/contigs.fa --min-len 2500 --simplify-names --report name_conversions.txt 

  

MAPEANDO LAS LECTURAS DEL ENSAMBLAJE

El mapear las lecturas para el co-ensamblaje de nuestro ensamblaje nos da información de "cobertura" para cada contig en cada muestra, que como se discutió anteriormente nos ayudará con nuestros esfuerzos para recuperar los MAGs.

Aquí se utilizará  bowtie2 para hacer el mapeo, y primero se necesita crear un índice del co-ensamblaje:

Comandos:

 

bowtie2-build reformat_contigs_fasta/contigs.fa  mapping/contigs 

 

CREANDO LA BASE DE DATOS EN ANVIO  

La base de datos de Anvio es esencial para almacenar información de contigs que no varían de muestra a muestra, por ejemplo, frecuencias de K-mer, anotación funcional de ORFs (Open Reading frames) o contenido de GC. 

Para garantizar que los contigs largos tengan más valor estadístico durante el binning automático, Anvio dividen los contigs grandes que se mantienen vinculados en todo el flujo de trabajo y se recontruyen en el orden correcto esto lo realiza de manera predeterminada. El usuario puede variar los parámetros predeterminados en el momento que va crear la base de datos Anvio. 

Comandos:

 

anvi-gen-contigs-database -f contigs.fa -o contigs.db -n 'database'  

 

FILOGENOMICA 

El análisis filogenómico lo que busca es comparar los genomas entre si, concatenando secuencias alineadas de genes centrales de copia única para cada genoma de interés y asi generar un árbol filogenómico. El flujo de trabajo de Anvio para esta sección es conveniente ya que identifica automáticamente un conjunto de genes marcadores en los genomas de interés, ofreciendo más eficiencia y economizando tiempo.

En la filogenómica de Anvio se puede ejecutar un conjunto de archivos fasta, genomas ensamblados y almacenados en colecciones de bases de datos Anvio o una combinación de los anteriores. Además, se puede combinar la pangenómica y filogenómica para investigar las relaciones entre genomas y grupos de proteínas más allá de los genes de copia única. Finalmente se puede visualizar interactivamente los arboles filogenómicos.

Inicialmente se debe generar la base de datos por cada genoma que vayamos a utilizar en el análisis filogenómico.

Comandos:

 

anvi-script-FASTA-to-contigs-db GENOME.fa anvi-get-sequences-for-hmm-hits -c GENOME.db --hmm-source Ribosomal_RNAs

 

Ahora se utiliza el siguiente programa para obtener las secuencias de esta colección de base de datos contigs, con este programa se identifica los perfiles HMM y opcionalmente se pueden seleccionar genes de perfiles que deseamos. Se utilizará la colección Cambell et al. Sin embargo se puede usar otra colección. 

 

anvi-get-sequences-for-hmm-hits --external-genomes external-genomes.txt -o concatenated-proteins.fa --hmm-source Campbell_et_al  --return-best-hit --get-aa-sequences –concatenate

 

A screenshot of a cell phone

Description automatically generated

Ahora que se tiene el archivo fasta se podra utilizar el programa que permite obtener el árbol de los genomas.

 

anvi-gen-phylogenomic-tree -f concatenated-proteins.fa -o phylogenomic-tree.txt

 

A screenshot of a cell phone

Description automatically generated

A screenshot of a cell phone

Description automatically generatedA close up of a clock

Description automatically generated

PANGENOMA

Anvio tiene un flujo de trabajo pangenómico que consta de 3 pasos principales :

El directorio contiene bases de datos anvi'o contigs, un archivo de genomas externo y un archivo de datos delimitado por TAB que contiene información adicional para cada genoma (que es opcional, pero verá más adelante por qué es muy útil). Puede generar un almacenamiento de genomas como se describe en esta sección de la siguiente manera:

  1. Generar una base de datos genómica Anvio está almacena secuencias de ADN y aminoácidos así como la anotación funcional de cada gen a partir de archivos fasta.

  2. Calcular el pangenóma a partir de una base de datos que identifica los grupos de genes, está base de datos se realiza delimitando por medio de parámetros las similitudes de cada secuencia de aminoácidos en cada genoma contra cualquier otra secuencia de aminoácidos usando blastp. También, elimina los hits con menos puntajes entre las lecturas e identifica grupos de genes, calcula la aparición de grupos de genes entre genomas y el número total de genes que contienen, realiza análisis de agrupación jerárquica para grupos de genes según la distribución entre los genomas. 

  3. Muestra el pangenoma y visualiza la distribución de los grupos de genes a través de los genomas y de forma interactiva integra estos los grupos de genes en colecciones lógicas, también inspecciona la alineación de los genes en un grupo. 

  4. finalmente, puede realizar un resumen de los datos encontrados en formato html.

Comandos:

 

anvi-gen-genomes-storage -e external-genomes.txt -o GENOMES.db

 

 

Una vez que tenga listo el almacenamiento de sus genomas, puede usar el programa anvi-pan-genome para ejecutar el análisis pangenómico real. Cada parámetro después del --project-name es opcional (pero se alinea con la forma en que ejecutamos el pangenoma para nuestra publicación).

Comandos:

anvi-pan-genome -g GENOMES.db --project-name "Bacillus_Pan" --output-dir Bacillus --num-threads 6 --minbit 0.5 --mcl-inflation 10 --use-ncbi-blast
anvi-pan-genome -g GENOMES.db --project-name "Streptomyces_Pan" --output-dir Streptomyces --num-threads 6 --minbit 0.5 --mcl-inflation 10 --use-ncbi-blast

El directorio que ha descargado también contiene un archivo llamado "layer-optional-data.txt", que resume el clado al que pertenece cada genoma. Una vez que se calcula el pangenoma, podemos agregarlo a la base de datos de pan:

BACILLUS

anvi-display-pan -g GENOMES.db -p Bacillus/Bacillus_Pan-PAN.db 

                                                                                         

A picture containing text

Description automatically generated

Streptomyces

anvi-display-pan -g GENOMES.db -p Streptomyces/Streptomyces_Pan-PAN.db                                                                                 

A picture containing vector graphics, compact disk

Description automatically generated

HOMOGENEIDAD

Un grupo de genes puede contener secuencias de aminoácidos de diferentes genomas que son casi idénticos lo que sería un grupo de genes homogéneos. Existen dos atributos principales de las alineaciones de secuencias en la homogeneidad: 

Homogeneidad funcional: Es como se conservan los residuos de aminoácidos alineados a través  de los genes, este índice ignora los vacíos de las secuencias e intenta cuantificar las diferencias entre los residuos en un sitio considerando las propiedades bioquímicas de los diferentes residuos. Luego, el algoritmo pasa por todo el grupo de genes y asigna un puntaje de similitud entre 0 y 3 para cada par de aminoácidos en la misma posición en todos los genes en función de cuán cercanas están las propiedades bioquímicas de los residuos de aminoácidos entre sí. La suma de todas las puntuaciones de similitud asignadas es indicativa del índice de homogeneidad funcional del grupo de genes y alcanzará su valor máximo de 1.0 si todos los residuos son idénticos.

Homogeneidad geométrica: Es como funciona la distribución de un grupo de genes sea espacios vacíos o similitudes entre la secuencia, independientemente la identidad de los aminoácidos. Cuando los patrones de distribución entre espacios y similitudes son en su mayoría uniformes en todo el grupo de genes, entonces este grupo de genes tendrán una alta homogeneidad geométrica y el valor máximo de 1.0 indica que no hay espacios vacíos en la alineación. 

Anvio calcula el índice de homogeneidad geométrica combinando el análisis del contenido del grupo de genes en dos niveles: 

Anvio permite omitir los cálculos de homogeneidad geométrica a nivel genético con una variable lógica de condición como por ejemplo (--quick-homogeneity), si bien esto no es muy preciso o completo como el enfoque predeterminado, con este tipo de condición se logra ahorrar tiempo, dependiendo de la cantidad de genomas con los que esté trabajando. La comprensión de la homogeneidad dentro del grupo de genes podría generar información ecológica o evolutiva detallada con respecto a la fuerza que da forma al contexto genómico a través de taxones relacionados o ya bien ayudar al análisis de los grupos de genes. 

Ambos índices están en una escala de 0 a 1, donde 1 es homogéneo y 0 es heterogéneo. Si el algoritmo se ve interrumpido por un error de tiempo de ejecución (debido a problemas inesperados, como que no todos los genes tienen la misma longitud), los valores de error serán -1 por defecto.

En anvio se puede realizar la homogeneidad de manera interactiva o a través de comandos. En la manera interactiva se logra de forma rápida obtener el resultado de la homogeneidad, inicialmente en el menú del panel principal “layers” buscamos ordenar los genes en la opción ordenar los genes agrupados (“gene_cluster frecuencies”). 

Si abre el panel al lado derecho la etiqueta “mouse” y mueve el mouse de su computador sobre la imagen obtendrá las estimaciones de homogeneidad tanto funcional como geométrica.

A screenshot of a computer

Description automatically generated

Se puede inspeccionar el grupo de genes para revisar dichas estimaciones, esto se logra deslizando el mouse del computador en la imagen que nos interesa y con clic derecho seleccionamos inspeccionar grupo de genes (“Inspect gene cluster”). Se muestra los diferentes grupos de genes involucrados en la sección que elegimos.

Anvio ofrece una forma bastante buena para filtrar grupos de genes a través sistema interactivo para poder realizar análisis más profundos de nuestros genes.

En el menú principal al lado derecho está la etiqueta buscar (“Search”) en la opción “Search gene cluster using filters” se encontrará con análisis exploratorios, encontrara valores predeterminados pero que se podrán editar a conveniencia de la búsqueda que estamos realizando. Por ejemplo supongamos que desea encontrar un grupo de genes que represente un gen central de copia única con una discrepancia muy alta entre su homogeneidad geométrica y su homogeneidad funcional y que sea altamente conservados en todos los genomas. Para este conjunto muy específico de restricciones, primero se puede ordenar todos los grupos de genes en función de la disminución del índice de homogeneidad geométrica, luego ingresar los siguientes valores para configurar un filtro antes de aplicarlo y resaltar los grupos de genes coincidentes:

A screenshot of a cell phone

Description automatically generated

Se puede con clic derecho realizar una inspección del conjunto de genes que deseamos analizar y se despliega el detalle de los genes presentes en los genomas.

A screenshot of a cell phone

Description automatically generated