增强版两基因组比对

简介

这是Michael Hiller大佬对UCSC的全基因组比对流程的改进。

安装GenomeAlignmentTools

编译chainCleaner, chainNet和scoreChain

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
cd ~/software/
git clone https://github.com/hillerlab/GenomeAlignmentTools.git
cd GenomeAlignmentTools/kent/src/
make
echo "export PATH=$HOME/software/GenomeAlignmentTools/kent/bin:\$PATH" >> ~/.bashrc


export KENTSRC_DIR=$HOME/software/GenomeAlignmentTools/kent/src
export MACHTYPE=x86_64
cd ~/software/GenomeAlignmentTools/src/
make
cp *.py ../bin/
cp *.perl ../bin/
echo "export PATH=$HOME/software/GenomeAlignmentTools/bin:\$PATH" >> ~/.bashrc
source ~/.bashrc

第0步:准备

我们这里依然以斑马鱼(Danio rerio)和鲤鱼(Cyprinus carpio)的基因组为例,我们需要上一篇博文两基因组比对中的第0步到第2步,得到all.chain文件。

第1步:patchChain

1
patchChain.perl all.chain sme.2bit sma.2bit sme.sizes sma.sizes -chainMinScore 5000 -gapMaxSizeT 500000 -gapMaxSizeQ 500000 -gapMinSizeT 30 -gapMinSizeQ 30 -numJobs 12 -jobDir jobs -jobList jobList -outputDir pslOutput -minEntropy 1.8 -windowSize 30 -minIdentity 60 -lastzParameters "--format=axt K=1500 L=2500 M=0 T=0 W=5 Q=HoxD55.q"

第2步:RepeatFiller

1
RepeatFiller.py -c all_output.chain -T2 target_genome.2bit -Q2 query_genome.2bit

第3步:chainCleaner

1
chainCleaner all_output.chain target_genome.2bit query_genome.2bit -tSizes target_genome.sizes -qSizes query_genome.sizes all_output_clean.chain removedSuspects.bed -linearGap=loose

第4步: 后续

上一步得到clean.chain之后,继续执行上一篇博文两基因组比对中的NettingMaffing