Multiple genome alignments

Multiple alignments are calculated between groups of genomes.

Alignments available

Name	Genomes	Method used
8 rice	Oryza barthii, Oryza glaberrima, Oryza glumipatula, Oryza meridionalis, Oryza nivara, Oryza rufipogon, Oryza sativa Indica Group, Oryza sativa Japonica Group	EPO
11 rice	Oryza barthii, Oryza brachyantha, Oryza glaberrima, Oryza glumipatula, Oryza longistaminata, Oryza meridionalis, Oryza nivara, Oryza punctata, Oryza rufipogon, Oryza sativa Indica Group, Oryza sativa Japonica Group	EPO-Extended
26 rice_cultivars	Leersia perrieri, Oryza barthii, Oryza brachyantha, Oryza glaberrima, Oryza glumipatula, Oryza longistaminata, Oryza meridionalis, Oryza nivara, Oryza punctata, Oryza rufipogon, Oryza sativa (Geng/Japonica-sbtrp var. Chao Meo), Oryza sativa (Geng/Japonica-trop1 var. Azucena), Oryza sativa (Geng/Japonica-trop2 var. Ketan Nangka), Oryza sativa (Xian/Indica-1A var. Zhenshan 97), Oryza sativa (Xian/Indica-1B1 var. IR64), Oryza sativa (Xian/Indica-1B2 var. PR106), Oryza sativa (Xian/Indica-2A var. Gobol Sail), Oryza sativa (Xian/Indica-2B var. Larha Mugad), Oryza sativa (Xian/Indica-3A var. Lima), Oryza sativa (Xian/Indica-3B1 var. Khao Yai Guang), Oryza sativa (Xian/Indica-3B2 var. Liu Xu), Oryza sativa (Xian/Indica-adm var. Minghui 63), Oryza sativa (circum-Aus1 var. N22), Oryza sativa (circum-Aus2 var. Natel Boro), Oryza sativa (circum-Basmati var. ARC 10497), Oryza sativa Japonica Group	Cactus
16 wheat_subgenome_A	Aegilops tauschii, Brachypodium distachyon, Hordeum vulgare, Secale cereale, Triticum aestivum, Triticum aestivum (component A), Triticum aestivum Arinalrfor, Triticum aestivum Arinalrfor (component A), Triticum aestivum Jagger, Triticum aestivum Jagger (component A), Triticum aestivum Julius, Triticum aestivum Julius (component A), Triticum aestivum Lancer, Triticum aestivum Lancer (component A), Triticum aestivum Landmark, Triticum aestivum Landmark (component A), Triticum aestivum Mace, Triticum aestivum Mace (component A), Triticum aestivum Norin61, Triticum aestivum Norin61 (component A), Triticum aestivum Stanley, Triticum aestivum Stanley (component A), Triticum aestivum Sy Mattis, Triticum aestivum Sy Mattis (component A), Triticum dicoccoides, Triticum dicoccoides (component A), Triticum urartu	Cactus
16 wheat_subgenome_B	Aegilops tauschii, Brachypodium distachyon, Hordeum vulgare, Secale cereale, Triticum aestivum, Triticum aestivum (component B), Triticum aestivum Arinalrfor, Triticum aestivum Arinalrfor (component B), Triticum aestivum Jagger, Triticum aestivum Jagger (component B), Triticum aestivum Julius, Triticum aestivum Julius (component B), Triticum aestivum Lancer, Triticum aestivum Lancer (component B), Triticum aestivum Landmark, Triticum aestivum Landmark (component B), Triticum aestivum Mace, Triticum aestivum Mace (component B), Triticum aestivum Norin61, Triticum aestivum Norin61 (component B), Triticum aestivum Stanley, Triticum aestivum Stanley (component B), Triticum aestivum Sy Mattis, Triticum aestivum Sy Mattis (component B), Triticum dicoccoides, Triticum dicoccoides (component B), Triticum urartu	Cactus
15 wheat_subgenome_D	Aegilops tauschii, Brachypodium distachyon, Hordeum vulgare, Secale cereale, Triticum aestivum, Triticum aestivum (component D), Triticum aestivum Arinalrfor, Triticum aestivum Arinalrfor (component D), Triticum aestivum Jagger, Triticum aestivum Jagger (component D), Triticum aestivum Julius, Triticum aestivum Julius (component D), Triticum aestivum Lancer, Triticum aestivum Lancer (component D), Triticum aestivum Landmark, Triticum aestivum Landmark (component D), Triticum aestivum Mace, Triticum aestivum Mace (component D), Triticum aestivum Norin61, Triticum aestivum Norin61 (component D), Triticum aestivum Stanley, Triticum aestivum Stanley (component D), Triticum aestivum Sy Mattis, Triticum aestivum Sy Mattis (component D), Triticum urartu	Cactus

Alignment methods

PECAN Multiple Alignment

Pecan [1] is used to provide global multiple genomic alignments. First, Mercator is used to build a synteny map between the genomes and then Pecan builds alignments in these syntenic regions.

Pecan is a global multiple sequence alignment program that makes practical the probabilistic consistency methodology for significant numbers of sequences of practically arbitrary length. As input it takes a set of sequences and a phylogenetic tree. The parameters and heuristics it employs are highly user configurable, it is written entirely in Java and also requires the installation of exonerate [2].

EPO Multiple Alignment

The EPO (Enredo, Pecan, Ortheus) [1] pipeline is a three step pipeline for whole-genome multiple alignments.

Enredo produces colinear segments from extant genomes handling both rearrangements, deletions and duplications.
Pecan, as described above, is used to align these segments.
Finally, Ortheus is used to create genome-wide ancestral sequence reconstructions.

The pipeline requires alignments of so-called anchor sequences, which are explained here.

EPO-Extended Multiple Alignment

Due to difficulties with running Ortheus on the fragmented assemblies, we have two flavours of the pipeline.

The plain EPO pipeline is available on the chromosome-level genomes, listed as EPO in the table above
The scaffold-level genomes are then projected onto the EPO alignments using LastZ-net alignments, listed as EPO-Extended.

By construction, each pair of EPO and EPO-Extended alignments represent the exact same alignment of chromosome-level genomes.

Progressive Cactus

Progressive-Cactus [3] is a next-generation aligner that stores whole-genome alignments in a graph structure. Genomes can be added incrementally, which makes it scalable to hundreds of genomes.

The Ensembl Compara Perl API provides access to Cactus alignment data in one of two ways: via HAL file (CACTUS_HAL) or database (CACTUS_DB).

Cactus alignment via HAL file

Alignments of type CACTUS_HAL are accessed via a HAL file [4]. For performance reasons, alignments are filtered to remove blocks whose length is below a threshold set to approximately one thousandth the size of the genomic region being accessed. Within each alignment block, aligned sequences are deduplicated per genome, keeping only the aligned sequence with the greatest number of nucleotides for the given genome.

Cactus alignment via database

Alignments of type CACTUS_DB are preloaded from a HAL file into a MySQL database following an approach similar to that used by cactus-hal2maf [3] (version 2.9.7).

Dump a MAF alignment file for a given reference genome (e.g. Triticum aestivum) and sequence region (typically 500 kilobases in length) using hal2maf [4] (version 2.2) with command-line options: --noAncestors --unique
Filter out aligned sequences with fewer than 5 nucleotides, and filter out alignment blocks with fewer than 20 alignment columns.
Normalise the alignment to merge smaller alignment blocks using taffy (commit 5221c50) with command-line options: --filterGapCausingDupes --maximumBlockLengthToMerge 8000 --maximumGapLength 1200
Deduplicate alignments per genome within each MAF block using the mafDuplicateFilter command of mafTools [5] (commit 259e5b4 of ComparativeGenomicsToolkit version) with command-line option: --keep-first
Load MAF alignment blocks into the output MySQL database.

CACTUS_DB alignments are also filtered by the Compara Perl API at access time, with the minimum block length set to one hundredth the size of the accessed region.

References

Paten B, Herrero J, Beal K, Fitzgerald S, Birney E. "Enredo and Pecan: Genome-wide mammalian consistency-based multiple alignment with paralogs." Genome Res. 2008 Nov;18(11):1814-28.
Slater GS, Birney E. "Automated generation of heuristics for biological sequence comparison." BMC Bioinformatics. 2005 Feb;6:31.
Armstrong J, Hickey G, Diekhans M, et al. "Progressive Cactus is a multiple-genome aligner for the thousand-genome era." Nature. 2020 Nov;587(7833):246-251.
Hickey G, Paten B, Earl D, Zerbino D, Haussler D. "HAL: a hierarchical format for storing and analyzing multiple genome alignments." Bioinformatics. 2013 May;29(10):1341-1342.
Earl D, Nguyen N, Hickey G, et al. "Alignathon: a competitive assessment of whole-genome alignment methods." Genome Research. 2014 Dec;24(12):2077-2089.