0-based和1-based

生物信息文件格式中有很多格式是基于基因组坐标的,比如常见的BED格式或者GTF格式。然而对于对标系的定义,这两者有着截然的区别。BED格式第一个位置的下标是0,区间前开后闭;而GTF格式第一个位置的下标是1,区间都是闭的。不妨我们称前者为0-based,后者为1-based。0-based的优点是长度的计算很简单,直接相减就可以得到序列的长度;而1-based的优点是比较直观。

除了BED格式和GTF格式,下表列举了其他格式的情况。

长度计算

Length(0-based) = End(0-based) - Start(0-based)
Length(1-based) = End(1-based) - Start(1-based) + 1

坐标转换

0-based转1-based
Start(1-based) = Start(0-based) + 1
End(1-based) = End(0-based)

1-based转0-based
Start(0-based) = Start(1-based) - 1
End(0-based) = End(1-based)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
def complement(sequence):
sequence = sequence.upper()
sequence = sequence.replace('A', 't')
sequence = sequence.replace('T', 'a')
sequence = sequence.replace('C', 'g')
sequence = sequence.replace('G', 'c')
return sequence.upper()

def reverse(sequence):
sequence = sequence.upper()
return sequence[::-1]

def complement_reverse(sequence):
return complement(reverse(sequence))

BBR 是 Google开发的TCP拥塞控制算法,可以显著提高Linux服务器TCP传输的吞吐量。我最早是从Youtube上那帮做翻墙视频的人那里知道BBR的。翻墙服务器开启BBR后,观看4K Youtube视频毫无压力。受此启发,我把所有的服务器都开启了BBR,SFTP上传下载的速度提升有10倍以上,服务器上的网站访问也比以前流畅了。

查看Linux内核版本

从Linux 4.9内核开始,BBR已经加入到Linux内核之中。如果所使用的Linux系统内核版本大于4.9,就可以直接开启BBR功能。现在常用的的CentOS 8和Ubuntu 18.04的内核版本都大于4.9。如果你的系统内核低于4.9,需要自己安装BBR,但是不推荐新手这么做。我们可以使用如下命令查看Linux内核版本。

1
uname -r

查看BBR状态

1
sysctl net.ipv4.tcp_available_congestion_control


返回值为net.ipv4.tcp_available_congestion_control = reno cub,说明当前系统没有开启BBR。

开启BBR

1
2
3
sudo bin/su -c "echo 'net.core.default_qdisc=fq' >> /etc/sysctl.conf"
sudo bin/su -c "echo 'net.ipv4.tcp_congestion_control=bbr' >> /etc/sysctl.conf"
sudo sysctl -p


再次,查看BBR状态

1
sysctl net.ipv4.tcp_available_congestion_control


此时,返回值为net.ipv4.tcp_available_congestion_control = reno cub bbr,说明BBR已经成功开启。

使用一键脚本

对BBR最为喜欢的是做翻墙的一群人,他们开发的一键脚本不仅支持官方的BBR算法,还有魔改BBR、BBR plus、锐速BBR。非官方BBR算法更加激进,比起官方BBR,在翻墙速度方面有所提升,但提升的幅度并没有是否开启BBR的差距大。考虑到稳定性,推荐只使用官方BBR。

1
2
3
wget -c https://static.biochen.com/software/tcp.sh
sudo chmod 755 tcp.sh
./tcp.sh

Python语言简洁,学习起来非常快,使用Python的科研工作者越来越多。Python拥有丰富的扩展包,这使得它可以轻松处理各种问题。

Python用于科学计算的包括但不限于如下:

  • Numpy:提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库等。
  • Scipy:提供许多科学计算函数库,包括统计,优化,整合,线性代数模块,傅里叶变换,信号和图像处理,常微分方程求解器等。
  • Pandas:基于Numpy,提供了大量库和一些标准的数据模型,比如二维数组。
  • Matplotlib:绘图包,旨在替代MATLAB。

Anaconda是一个集合,包括conda,Python解释器,一些第三方库。conda用于包管理和环境管理。包管理与pip类似,管理Python第三方库。conda将一切都看成包,包括conda本身和Python解释器。环境管理类似于virtualenv,能够允许用户使用不同版本的Python和不同的第三方库环境,并灵活切换。

用Anaconda来管理环境和第三方库将是非常方便的,而且自己安装这些库对新手来说是一个不小的挑战。

Anaconda包括了科学、数学、工程、数据分析中最受欢迎的300多个Python包,支持Python2/3, Windows/Linux/Mac,而且还是非常有好的安装包(.exe/.sh/.pkg)。一键安装科学计算中常用的包,爽!

安装Anaconda

在Linux上安装Anaconda非常简单。Anaconda带了很多包,体积非常大,为了节省空间也可以先装Miniconda,再装自己需要的包。

1
sh Anaconda3-5.1.0-Linux-x86_64.sh

安装过程中会提示安装的路径PREFIX=/home/chenwen/anaconda3,默认在用户的home目录,可以安装到其他地方。还会提示是否将此路径添加到用户的环境变量(/home/chenwen/.bashrc)。

安装Anaconda之后,输入如下命令验证Anaconda是否安装成功,并查看它的版本。

1
conda --version

修改源镜像

Anaconda安装成功之后,我们首先将软件源修改为清华大学的镜像,官方的帮助说明如下https://mirror.tuna.tsinghua.edu.cn/help/anaconda/

各系统都可以通过修改用户目录下的.condarc文件。Windows 用户无法直接创建名为 .condarc的文件,可先执行conda config --set show_channel_urls yes生成该文件之后再修改。修改.condarc文件为如下内容后,即可添加 Anaconda Python 免费仓库。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

运行conda clean -i清除索引缓存,保证用的是镜像站提供的索引。

管理虚拟环境

有些包依赖特定版本的Python,或者依赖其他特定版本的包,与我们已有的Python环境不同。如果我们因此重装Python,或者重装一些软件包,就把已有的Python环境搞乱了,这时候虚拟环境就派上用场了。如果只是简单的学习Python,直接用基础环境就可以了,没有必要创建虚拟环境。

我们可以通过create命令来创建虚拟环境。

1
conda create --name tensorflow python=3.5

这样我就创建了一个名叫tensorflow的虚拟环境,当然你可以用任何你喜欢的名字代替。我还指定了Python版本是3.5。环境创建完毕后,我们可以使用info命令查看所有环境。

1
conda info --envs

我看到这条命令的输出有tensorflow /home/chenwen/anaconda3/envs/tensorflow,告诉我们tensorflow这个虚拟环境的路径。虚拟环境的实质就是创建了一个文件夹,把相关的包放在这里,并且把一些环境变量指向这里。如果需要切换到该虚拟环境,可以使用activate命令。

1
conda activate tensorflow

如果想取消激活,使用deactivate命令即可。

1
conda deactivate

如果想删除虚拟环境,使用remove命令。

1
conda remove --name tensorflow --all

当我们切换到某个虚拟环境后,就可以进行这个环境的包管理了。

管理包

查看安装的包,可以使用list命令。

1
conda list

如果你发现某个包默认没有装,比如scikit-learn,可以使用conda install 命令安装。

1
conda install scikit-learn

更新包,可以使用conda update命令

1
conda update scikit-learn

后记

Anaconda的功能非常强大,熟悉R的朋友可能知道Bioconductor,与此对应的有Bioconda。Bioconda不仅是装Python包,还能装很多其他生信软件。

此外,我还非常喜欢Anaconda带的IDE工具spyder,比起Python官方自带的IDLE强很多,但是又不复杂。

DNA是双链分子,按照A与T、C与G的原则互补配对。知道其中一条链,就可以反推出另外一条链。因此,在数据库中,染色体DNA参考序列都是单链。那么,染色体DNA参考序列是哪一条链呢?这是一个有趣而又不重要的问题。

Google了一下,国外还真有人讨论这个问题。地址如下
https://biology.stackexchange.com/questions/36595/what-is-the-strand-specificity-of-a-reference-genome
英文不难懂,建议大家去看原版,这里简单翻译一下。

对于具体的物种,最好去看数据库的说明。大概有如下原则:

  1. 细菌基因组和质粒
    原核生物大多为环状DNA,一个复制原点,两侧同时开始复制。数据库中的参考序列从复制原点左边的链5端开始的方向。

  2. 真核染色体
    对于知道染色体核型的情况,数据库中的染色体参考序列从短臂的5端开始。

  3. 单链RNA病毒
    单链RNA病毒的参考序列是正链”+”。

有一次我在知乎上回答了一个论文作者纠纷的问题,最近收到了好几个类似问题的邀请。归纳起来就是,第一作者被导师抢走了,第一作者被师兄抢走了,第一作者被其他人抢走了。问题下面的回答很多都批评导师无良和学界黑暗,而很少就问题本身做出阐释。可能不同学科的情况有所不同,至少在生命科学这个领域,论文作者排名的问题,有必要跟大家说一说。

依赖个人好奇心驱动和科学家个人能力进行探索的科研时代已经过去很久了。现代科研体系中的团队内合作,乃至跨团队合作是常态,这意味着论文的作者不再是单个人。单个作者的论文不是说没有,而是非常罕见。有一次我们去参加一个生物信息学国际会议,我的下一场报告刚好就一个作者。大家私下里聊天,不是赞叹这个老师个人能力有多强,而是很同情他,没有合作者,没有团队,没有学生,一个人孤单地搞研究。相信我,一个人发论文,真的是一件凄惨的事情。

既然多个作者是常态,如何评价贡献大小呢?很朴素的做法就是按照贡献大小,从前往后排,我们隔壁的计算机科学领域就是这样子的。但是,在我们生命科学领域(我是做生物信息的,自认为是生命科学领域的,而不是隔壁那家)最重要的作者通常排在最后。

论文最重要的作者是通讯作者,名字后面有个星号*,脚注中还留了E-mail。通讯作者对这篇论文负责,知识产权也主要属于他。如果这篇论文得奖,首先获奖的是通讯作者;如果有同行对这篇论文感兴趣,也是联系通讯作者。如果觉得自己干活最多,贡献也应该是最大,理应是通讯作者了吧。知乎上类似问题的题主大多也是觉得自己干活多,应该是论文最主要的贡献者。评价作者对论文的贡献不能简单地看绝对工作量,后面还会有论述。

通讯作者在论文中承担什么样的工作呢?一个好的通讯作者,要提出研究思路,大家的研究课题是谁给的呢?不是充话费送的吧。通讯作者,还要提供科研条件和科研经费,并监督整个课题的进展。说了这么多,大家应该明白,通讯作者应该是自己的导师了吧。

那努力做实验的你,应该搁哪呢?你最好的位置是第一作者。注意,我没有说,你做了实验,甚至做了大部分实验,就应该是第一作者。一个好的第一作者,要独立或者领导师弟师妹完成大部分实验,和导师共同分析实验结果并讨论研究思路,撰写论文初稿。要做这点并非容易,现在有些导师招博士要求所谓的独立科研能力,大概也是指做一个好的第一作者的能力。

如果你的导师除了要做通讯作者的工作,还要分担第一作者的工作,请心疼一下他。正因为有撸起袖子自己干的导师,所以有人觉得导师应该手把手指导自己做实验,不然就是”乱搞”。不仅觉得自己的导师”乱搞”,还觉得国内学界大佬大多是不务正业。前面讲了,导师作为通讯作者,更大的责任是供科研条件和科研经费。一个课题组每年几十万乃至上百万的开销,是压在他心头的一块大石头。我老师经常跟我讲,要是还拿不到经费,课题组还能支撑一年半(每次都不同哈)。没有导师手把手指导,作为一个研究生,怎么学习具体的实验技术呢?主要靠自学(相信我,研究生能学到的最好的东西是解决问题的能力)。如果遇到一个肯教你的师兄师姐,你应该感谢他,他没有教你义务。

如果什么事情都很容易分清,这世界也就不会有纠纷。有些同学有大小两导师,大导师是领导/大教授,是名义上的导师;小导师是讲师或者副教授。小导师会手把手教你,还会帮你把实验结果分析和研究思路都做好,可能连论文也是他写的。他既干了部分第一作者活,又干了部分通讯作者的活,但更应该做通讯作者的是大导师。小导师可能会要第一作者的位置,毕竟这种情况下,他比你更适合做第一作者。

一般情况下,大导师不会要第一作者的位置。他有了大家最认可的通讯作者位置,如果还要第一作者的位置,等于抢了下属的功劳,不利于激励团队。另外,如果他这样做,会被同行耻笑,就像大家嘲笑蒋校长自授特级上将一样。考虑到硕士研究生不需要第一作者的论文就能毕业,而博士研究生毕业必须要第一作者的论文,第一作者的位置优先考虑博士研究生,然后是小导师,再次是硕士研究生。很多时候做研究时候,都是有商量的,将来作者如何分配。所以,请不要看到室友做的事情还不如自己,然后靠一篇第一作者论文拿到2万块国家奖学金而愤愤不平。请思考自己是否做到了好的第一作者该做的所有事情,其次是团队中是否有人比自己更需要第一作者。

为了缓解作者排名纠纷,鼓励合作,天才发明共同第一作者/共同通讯作者。论文脚注”These authors contributed equally to this work”。较真的话,哪会有人贡献是一样的呢?给合作者共同第一作者是承认他对论文做出了重要贡献。作为一个研究生,甚至是本科生,有一篇共同第一作者的论文也是不错的。

我们之前讲了,评价作者对论文的贡献不能简单地看绝对工作量。那么一篇论文的发表究竟什么最重要呢?突破性和创新的构思?扎实而可靠的实验?这些都非常重要。还有一个非常重要的东西,经常被刚入行的人忽视,那就是作者在这个领域的credit或者叫reputation。等我发表了自己的第一作者的论文,也审了别人的论文,才明白credit的重要性。作为杂志的编辑和审稿人,不想重复也没有精力和必要去重复你的研究,凭什么相信你的研究是真实可靠的呢?凭的是这篇论文的作者在这个领域做的持续贡献。导师就是作者中提供最重要的credit那个人,他在这个领域多年的笔耕不辍,他拿他的职业生涯为论文的真实性提供背书。

跟着到导师发表了论文,以后你在这个领域发表论文也就有了credit,这叫”借”。如果自己进入一个全新领域,一步一个脚印,从小论文(对credit的要求没有那么高)发起,这叫”攒”。还有人”偷”,这就不可取了。前几天看公众号,某教授被人白送一篇6分多的论文,做为通讯作者,他的E-mail地址是伪造的。

现在很多杂志鼓励在论文的”Authors’ contributions”部分写明各个作者的具体贡献。本文不是要做做个公道伯,去解决论文作者纠纷。而是,希望大家思考论文作者背后的贡献、义务与权利。

一篇第一作者的论文,或许意味着丰厚的奖金,顺利毕业,一份工作,或者事业更上一层楼。但请考虑作为人生重要的一个阶段,你和导师、师兄师姐共同度过3年乃至更久的共同奋斗时光。当你离开了这个实验室,某天在街上偶遇,能开开心心一起坐下来喝个茶、吃个饭,该是一件多么美妙的事情啊。

写在前面

长非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码 RNA。200个核苷酸的限制可以区分当时已知的功能非编码RNA(如miRNA、miRNA前体)和结构非编码RNA(如tRNA、rRNA)。可想而知,lncRNA是个大杂烩,种类繁多,功能复杂。

随着转录组测序的大规模应用,大量的lncRNA被发现。如果你做了一个转录组研究,可能也会有鉴定新lncRNA的需求。转录组构建之后,去掉已知的编码蛋白基因和lncRNA,留下的就是新发现的转录本。从新发现的转录本鉴定lncRNA,简单来讲,就是去掉转录噪音和去掉编码蛋白基因。

转录组测序可以分析出几万到几十万转录本,其中很大一部分是转录噪音。我们通常来讲,会去掉单外显子和低表达转录本。有人认为,RNA聚合酶II可能随机结合在DNA上,瞬时转录出一些RNA,因为不是正常的基因转录,所以会马上关闭。这些转录噪音的特征就是单外显子和低表达。

通常根据lncRNA在基因组上与蛋白质编码基因的相对位置将其分为4类:基因间长链非编码RNA(intergenic lncRNA,由基因组上编码基因之间的间隔序列转录产生,也即long intergenic ncRNA, lincRNA)、内含子长链非编码RNA(intronic lncRNA,完全由蛋白质编码基因内的内含子转录而来)、正义链非编码RNA(sense lncRNA,转录方向与蛋白质编码基因转录方向相同,并且与蛋白质编码基因外显子有部分或者全部重叠)、反义长链非编码RNA(antisense lncRNA,转录方向与蛋白质编码基因转录方向相反)。其中lincRNA争议很小,sense lncRNA和intronic lncRNA可能是基因转录错误或者转录加工得到中间产物。如果是链非特异性的库,转录本的方向是软件推断出来的,antisense lncRNA可能就是sense lncRNA,也可能是转录噪音。有些严格的一点的研究,可能只要intergenic的新转录本。

接下来是去掉编码蛋白基因,因为lncRNA特征不明显,鉴定lncRNA就变成鉴定编码蛋白基因,然后取反。有人自己编写程序去掉编码蛋白基因,比如BLAST比对已知蛋白库(不能比对上或者限制比对上的长度),再加上开放阅读框长度不能大于30(或者某个其他值)。鉴定lncRNA的工具其实很多,大家常用的套路也是综合多个工具的结果。本文推荐CPC2和CPC这两个软件。

使用CPC2鉴定lncRNA

CPC2只使用序列本身的特征,速度非常快。我现在的做法是先跑CPC2,去掉coding gene,剩下的再去跑CPC。CPC2的官方地址:http://cpc2.cbi.pku.edu.cn/download.php

a. CPC2的安装

CPC2依赖Biopython,所以我们先安装它。

1
pip install biopython

然后安装CPC2。

1
2
3
4
5
6
7
tar zxvf CPC2-beta.tar.gz
cd CPC2-beta
export CPC_HOME="$PWD"
cd libs/libsvm
tar zxvf libsvm-3.18.tar.gz
cd libsvm-3.18/
make clean && make

注意CPC2目前只支持Python2,如果你装了Anaconda,可以开一个Python2的虚拟环境。export CPC_HOME="$PWD"这句是将CPC_HOME这个环境变量设置为CPC2的主目录路径,重启终端后,这个设置就无效了。如果要永久设置可以修改~/.bashrc文件,添加export CPC_HOME="/home/chenwen/bin/CPC2-beta",注意你的实际路径可能和我的不同。

b. 运行CPC2

1
2
cd $CPC_HOME
python ./bin/CPC2.py -i input.fa -o output.txt

使用CPC鉴定lncRNA

CPC是鉴定lncRNA经典软件,它先把未知转录本和已知蛋白库BLAST对比,BLAST的结果作为libsvm(一个机器学习分类库,CPC2也用了它)的分类特征。因为有了BLAST,可靠性更高,同时也非常慢。

CPC是个很老的软件了,它调用的是blastall,也就是老版本的BLAST,而不是新版本的BLAST+。CPC和老版本BLAST的下载地址,有些朋友可能找不到,我把它们直接放在我的网站上了。

CPC下载地址:https://static.biochen.com/software/cpc-0.9-r2.tar.gz
老版本的BLAST下载地址:https://static.biochen.com/software/blast-2.2.26-x64-linux.tar.gz

a. CPC的安装

1
2
3
4
5
6
7
8
9
tar -zxvf cpc-0.9-r2.tar.gz
cd cpc-0.9-r2/libs/libsvm
tar -zxvf libsvm-2.81.tar.gz
cd libsvm-2.81
make clean && make
cd ../..
tar -zxvf estate.tar.gz
cd estate
make clean && make

b. 建立BLAST库

需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”, 且放在CPC安装目录下的data目录下面。

1
2
cd cpc-0.9-r2/data
formatdb -i (your_fasta_file) -p T -n prot_db

c. 运行CPC

1
2
cd cpc-0.9-r2/
bin/run_predict.sh (input_seq) (result_in_table) (working_dir) (result_evidence)

括弧里面的内容需要改成你实际的文件名或者路径。run_predict.sh会调用远程blast,建议运行run_predict_local.sh,并把这个文件中blast_opts=”$blast_opts -a 2″; # 2CPUs, boost the performance这句话中的2,改成你实际电脑使用的CPU核数。

有些命令用得多了,也就记住了,比如cd和ls。有些命令用得没那么多,记不住,拿个小本本记下来,于是有了这篇博客。

压缩和解压

.tar.gz压缩

1
tar -zcvf compressed.tar.gz to_compress_file_or_folder

-p保留文件权限

.tar.gz解压

1
tar -zxvf compressed.tar.gz

.zip压缩

1
2
zip -r compressed.zip to_compress_folder
zip compressed.zip to_compress_file

.zip 解压

1
unzip compressed.zip

.gz压缩

1
gzip to_compress_file

.gz解压

1
gunzip compressed.gz

.tar.bz2解压

1
tar -jxvf compressed.tar.bz2

.tar.xz解压

1
tar -xvJf compressed.tar.xz

之所以没有压缩为.tar.bz2.tar.xz的命令,是因为这不是命令大全,只记录我用过的命令吧。Linux文件压缩首选.tar.gz格式,加-p参数可以保留文件权限信息。如果为了考虑Windows也能很方便打开,可以选择压缩为.zip格式。

添加环境变量

1
2
echo 'export PATH=/home/biochen/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

很多Linux软件提供了编译好的二进制文件,可以在软件的目录输入./software_name来使用它。如果要想到处可以用,将软件的路劲添加到环境变量即可。

scp

上传

1
2
scp -P port local_file remote_username@remote_ip:remote_folder
scp -P port -r local_folder remote_username@remote_ip:remote_folder

下载

1
2
scp -P port remote_username@remote_ip:remote_file local_folder
scp -P port -r remote_username@remote_ip:remote_folder local_folder

自己的电脑与远程服务器的上传下载,我一般使用FileZilla,鼠标点几下还是很香的。如果要在两台服务器之间传数据,特别是大一点的数据,下载到自己的电脑,然后上传,就没有那么香了,这时候scp命令就可以派上用场了。

查看进程

1
2
ps -elf |grep user_name
ps -elf |grep software_name

查看进程命令是ps -elf,会输出一堆进程,后面一般通过管道接grep,筛选出特定用户或者特定软件的进程。进程没什么好看的哈,主要是为了找出进程的id(第二列的数字),然后用kill命令杀掉。

1
kill job_id

查看网络端口

1
sudo netstat -tunlp |grep 80

或者

1
sudo lsof -i:80

以上命令,找出哪个进程监听80端口,然后等待这个进程的命运一般也是kill

修改文件所有者和权限

修改文件的所有者

1
2
chown <user> <file|directory> [-R]
chgrp <group> <file|directory> [-R]

尖括弧<>括起来的参数是必须要的,方括弧[]括起来的参数是可选的,竖杠|两边二选一。-R递归文件夹下所有文件和文件夹,不然只是修改文件夹本身的所有者。

修改文件的权限

1
chmod 777 <file|directory> [-R]

Linux的有着比Windows复杂的文件权限,然而因为权限设置不对会产生很多问题,无脑设置为777(全部权限)是我通常的做法。Linux的文件权限机制的初衷是为了安全,如果我知道该给多少权限时,还会改过来。以下是常用的权限码:

1
2
3
4
5
6
7
-rw------- (600)  只有拥有者有读写权限
-rw-r--r-- (644) 只有拥有者有读写权限;而属组用户和其他用户只有读权限
-rwx------ (700) 只有拥有者有读、写、执行权限
-rwxr-xr-x (755) 拥有者有读、写、执行权限;而属组用户和其他用户只有读、执行权限
-rwx--x--x (711) 拥有者有读、写、执行权限;而属组用户和其他用户只有执行权限。
-rw-rw-rw- (666) 所有用户都有文件读、写权限。
-rwxrwxrwx (777) 所有用户都有读、写、执行权限。

查看文件

看文件前10行

1
top -n 10 file_name

查看文件后10行

1
tail -n 10 file_name

查看文件11-20行

1
sed -n '11,20p' file_name

查看文件第21到最后一行

1
sed -n '21,$p' file_name

删掉文件前10行

1
sed -i '1, 10d' file_name

查看文件有多少行

1
wc -l file_name

查看文件有多少列

1
awk -F '\t' 'NR==1 {print NF}' file_name

查看表头

1
less file_name |head -n 1 |tr '\t' '\n' |cat -n

筛选匹配'abc'的行

1
grep 'abc' file_name

使用-v反选,即不匹配'abc'的行;-C 5显示匹配那行以及上下5行;-A 5显示匹配那行以及前5行;-B 5显示匹配那行以及后5行。

筛选第二列的值为'abc'的行

1
awk -F'\t' '{if ($2==abc) print $0}' file_name

-F'\t'指定分隔符为tab;将==换成~,则为筛选第二列的值包含'abc'的行;换成!=!~,则为不等于或不包含。

替换文本

1
2
3
sed -e 's/old/new/' filename
sed -i 's/old/new/' filename
sed -i 's/old/new/g' filename

-e不修改原文件,替换后的文件输出到标准输出,-i修改原文件。/g全部替换,否则只替换第一次出现的地方。

未完待续…

从NCBI下载对应系统的BLAST+程序

根据自己的操作系统,从NCBI的FTP下载合适的BLAST+版本。我的操作系统是Ubuntu 18.04,选择的是ncbi-blast-2.10.0+-x64-linux.tar.gz。

1
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

解压,将程序路径添加到环境变量

1
2
tar –zxvf ncbi-blast-2.10.0+-x64-linux.tar.gz
vi ~/.bashrc

在末尾添加:

1
export PATH=/home/chenwen/bin/ncbi-blast-2.10.0+-x64-linux/bin:$PATH

这里的路径视具体情况而定,我喜欢将软件都放在/home/chenwen/bin目录下
更新,使配置生效:

1
source ~/.bashrc

从NCBI下载数据库

下载地址:

1
ftp://ftp.ncbi.nih.gov/blast/db/

有关每个文件的含义请阅读README文件。下面摘录几种:
human_genomic.gz 人类基因组序列
nr.gz All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF所有非冗余的的GenBank CDS区的翻译序列 + 参考序列的蛋白 + PDB数据库 + SwissProt蛋白数据库 + PRF蛋白数据库
nt.gz 除wgs, gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的
htg.gz 来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列

格式化数据库

BLAST+使用makeblastdb命令格式化数据库。老版本BLAST使用formatdb命令。

1
makeblastdb -in db.fasta -dbtype prot -parse_seqids -out db_name

参数说明:
-in:待格式化的序列文件
-dbtype:数据库类型,prot或nucl
-out:数据库名

运行BLAST+

BLAST+提供多种比对程序:
blastp: 用蛋白质序列搜索蛋白质序列库
balstn: 用核酸序列搜索核酸库
blastx:核酸序列对蛋白库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列
tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索
tblastx:核酸序列对核酸库在蛋白质级别的比对,两者都在搜索之前翻译城蛋白质进行比对
核酸序列比对核酸数据库(blastn):

1
blastn -query seq.fasta -out out.txt -outfmt 6 -db dbname -evalue 1e-5 -num_threads 8

参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-evalue:设置输出结果的e-value值
-num_threads:线程数
-outfmt:输出文件格式,6是tabular格式
-max_target_seqs:设置最大目标序列匹配数
其他程序比对跟blastn相似,更多参数可以用-help查询。

-outfmt 6的输出文件格式详解

1
2
3
4
5
6
7
8
9
10
11
12
[00] Query id
[01] Subject id
[02] % identity
[03] alignment length
[04] mismatches
[05] gap openings
[06] q. start
[07] q. end
[08] s. start
[09] s. end
[10] e-value
[11] bit score

安装MySQL

在Ubuntu中使用apt安装MySQL Server,如果是CentOS,将apt替换为yum。

1
sudo apt install mysql-server

以前安装过程中需要设置MySQL root用户密码,现在Ubuntu 18.04和CentOS 8安装MySQL都不需要设置root的密码了。安装完MySQL后,运行mysql_secure_installation,设置root密码和修改一些安全配置。

1
sudo mysql_secure_installation

启动、重启、查看、登录MySQL

启动MySQL

1
systemctl start mysqld

重启MySQL

1
systemctl restart mysqld

查看MySQL状态

1
systemctl status mysql.service

登录MySQL

1
mysql -u root -p

MySQL基础

MySQL语句约定使用大写,其实它是大小写不敏感的,语句以分号;结尾。
查看MySQL版本

1
SELECT VERSION();
1
2
3
4
5
6
+-----------+
| VERSION() |
+-----------+
| 8.0.17 |
+-----------+
1 row in set (0.01 sec)

查看数据库

1
SHOW DATABASES;
1
2
3
4
5
6
7
8
9
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
| performance_schema |
| sys |
+--------------------+
4 rows in set (0.01 sec)

SQL初步

新建数据库

1
CREATE DATABASE eg_db;

删除数据库

1
DROP DATABASE eg_db;

选定数据库
对表进行操作之前,需要选定数据库

1
USE eg_db;

创建表格
数据以表格形式保存,每一行是一个记录,每一列是一个属性。

1
2
3
4
5
CREATE TABLE person (
id int,
name varchar(50),
age int
);

查看表结构

1
DESCRIBE person;
1
2
3
4
5
6
7
8
+-------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| id | int(11) | YES | | NULL | |
| name | varchar(50) | YES | | NULL | |
| age | int(11) | YES | | NULL | |
+-------+-------------+------+-----+---------+-------+
3 rows in set (0.00 sec)

删除表

1
DROP TABLE person;

重命名表

1
ALTER TABLE person RENAME people;

向表中添加一列

1
ALTER TABLE person ADD address varchar(100);

删除表中一列

1
ALTER TABLE person DROP COLUMN address;

修改一个列的数据类型

1
ALTER TABLE person MODIFY address varchar(50);

重命名一个列

1
ALTER TABLE person CHANGE COLUMN address addr varchar(50);

向表格中插入一条记录
INSERT INTO 表名称 VALUES (值1,值2,…)

1
INSERT INTO person VALUES (1, 'chenwen', 28, 'HNU');

或:INSERT INTO 表名称 (列1,列2,…) VALUES (值1,值2,…)

从表格中查询记录
SELECT 列名称1,列名称2… FROM 表名称;

1
SELECT name FROM person;

或:SELECT * FROM 表名称;

从表格中按条件查询一条记录
SELECT 列名称 FROM 表名 WHERE 列 运算符 值;

1
SELECT * FROM person WHERE name='chenwen';

从表格中删除一条记录
DELETE FROM 表名称 WHERE 列 运算符 值;

1
DELETE FROM person WHERE name='chenwen';

或:DELETE * FROM 表名称;

从表格中更新一条记录
UPDATE 表名称 SET 列名称=新值 WHERE 列=值;

1
UPDATE person SET age=31 WHERE name='chenwen';

返回结果删除重复项
SELECT DISTINCT 列名称 FROM 表名称;

1
SELECT DISTINCT name FROM person;

对查询结果按指定列进行排序
SELECT * FROM 表名称 ORDER BY 列名称;

1
SELECT * FROM person ORDER BY id;

或:SELECT * FROM 表名称 ORDER BY 列名称 DESC;

1
SELECT * FROM person ORDER BY id DESC;

以上命令很多,掌握它们的要领是按照增、删、改、查去运用它们,这也是我们实际上最常用的操作。操作数据库之前,记得使用USE选定这个数据库。

MySQL用户及权限管理

MySQL数据库默认只有一个root用户,MySQL将用户信息保存在mysql数据库user表中。
创建一个新用户
CREATE USER 用户名 IDENTIFIED BY ‘密码’;

1
CREATE USER chenwen IDENTIFIED BY 'password';

新用户不能创建新的数据库,因为没有设置权限。我们使用root账号创建新用户后,也顺便创建这个用户操作的数据库,并授予新用户权限,而不是用新用户去创建它的数据库。

删除用户
DROP USER 用户名;

1
DROP USER chenwen;

重命名用户
RENAME USER 原用户名 TO 新用户名;

1
RENAME USER chenwen TO cw;

修改当前用户密码
SET PASSWORD=PASSWORD(‘新密码’);

1
SET PASSWORD=PASSWORD('new_password');

修改指定用户密码
SET PASSWORD FOR 用户名 = PASSWORD(‘新密码’);

1
SET PASSWORD FOR chenwen = PASSWORD('new_password');

授予权限
授予一个用户权限:GRANT ALL PRIVILEGES ON 层级 TO 用户名@主机 WITH GRANT OPTION;
例如,授予chenwen用户针对eg_db数据库全部权限

1
GRANT ALL PRIVILEGES ON eg_db.* TO chenwen@'%' WITH GRANT OPTION;

如果你用的是老版本的MySQL,比如5.7,授权的命令不一样

1
GRANT ALL PRIVILEGES ON eg_db.* TO chenwen@'%' IDENTIFIED BY 'password';

可以使用以下方式指定权限范围

1
2
3
4
1. 所有主机:'%'
2. 精确的主机名或IP地址:www.biochen.com或者192.168.1.1
3. 使用"*"通配符:*.biochen.com
4. 指定一个网段:192.168.1.0/255.255.255.0

MySQL备份与恢复

备份数据库
mysqldump -u root -p 数据库名称 > 备份文件.sql

1
mysqldump -u root -p eg_db > eg_db.sql

mysqldump备份出来的是纯文本的SQL文件,可以修改后作为其他数据库数据使用。

从备份文件中恢复数据库
mysql -u root -p 数据库名称 < 备份文件.sql

1
mysqldump -u root -p eg_db > eg_db.sql

MySQL的字符编码

MySQL 8.0数据库的默认编码是utf8,老版本默认是latin,再也不用担心字符编码设置不对的乱码了。
以下命令可以查看MySQL当前使用的编码

1
SHOW VARIABLES LIKE 'character_set%';
1
2
3
4
5
6
7
8
9
10
11
12
13
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)
1
SHOW VARIABLES LIKE 'collation%';
1
2
3
4
5
6
7
8
+----------------------+--------------------+
| Variable_name | Value |
+----------------------+--------------------+
| collation_connection | utf8mb4_0900_ai_ci |
| collation_database | utf8mb4_0900_ai_ci |
| collation_server | utf8mb4_0900_ai_ci |
+----------------------+--------------------+
3 rows in set (0.00 sec)

创建数据库时指定编码

1
2
3
CREATE DATABASE eg_db
DEFAULT CHARACTER SET utf8
DEFAULT COLLATE stf8_general_ci;

修改一个数据库的编码

1
ALTER DATABASE eg_db CHARACTER SET utf8 COLLATE utf8_general_ci;

MySQL 数据类型

MySQL中定义数据字段的类型对你数据库的优化是非常重要的。MySQL支持多种类型,大致可以分为三类:数值、日期/时间和字符串(字符)类型。
数值类型
MySQL支持所有标准SQL数值数据类型。这些类型包括严格数值数据类型(INTEGER、SMALLINT、DECIMAL和NUMERIC),以及近似数值数据类型(FLOAT、REAL和DOUBLE PRECISION)。关键字INT是INTEGER的同义词,关键字DEC是DECIMAL的同义词。作为SQL标准的扩展,MySQL也支持整数类型TINYINT、MEDIUMINT和BIGINT。下面的表显示了需要的每个整数类型的存储和范围。

类型 大小 范围(有符号) 范围(无符号) 用途
TINYINT 1 字节 (-128,127) (0,255) 小整数值
SMALLINT 2 字节 (-32 768,32 767) (0,65 535) 大整数值
MEDIUMINT 3 字节 (-8 388 608,8 388 607) (0,16 777 215) 大整数值
INT或INTEGER 4 字节 (-2 147 483 648,2 147 483 647) (0,4 294 967 295) 大整数值
BIGINT 8 字节 (-9 233 372 036 854 775 808,9 223 372 036 854 775 807) (0,18 446 744 073 709 551 615) 极大整数值
FLOAT 4 字节 (-3.402 823 466 E+38,1.175 494 351 E-38),0,(1.175 494 351 E-38,3.402 823 466 351 E+38) 0,(1.175 494 351 E-38,3.402 823 466 E+38) 单精度 浮点数值
DOUBLE 8 字节 (1.797 693 134 862 315 7 E+308,2.225 073 858 507 201 4 E-308),0,(2.225 073 858 507 201 4 E-308,1.797 693 134 862 315 7 E+308) 0,(2.225 073 858 507 201 4 E-308,1.797 693 134 862 315 7 E+308) 双精度 浮点数值
DECIMAL DECIMAL(M,D) ,如果M>D,为M+2,否则为D+2 依赖于M和D的值 依赖于M和D的值 小数值

日期和时间类型
表示时间值的日期和时间类型为DATETIME、DATE、TIMESTAMP、TIME和YEAR。每个时间类型有一个有效值范围和一个”零”值,当指定不合法的MySQL不能表示的值时使用”零”值。TIMESTAMP类型有专有的自动更新特性。

类型 大小 (字节) 范围 格式 用途
DATE 3 1000-01-01/9999-12-31 YYYY-MM-DD 日期值
TIME 3 ‘-838:59:59’/‘838:59:59’ HH:MM:SS 时间值或持续时间
YEAR 1 1901/2155 YYYY 年份值
DATETIME 8 1000-01-01 00:00:00/9999-12-31 23:59:59 YYYY-MM-DD HH:MM:SS 混合日期和时间值
TIMESTAMP 8 1970-01-01 00:00:00/2037 年某时 YYYYMMDD HHMMSS 混合日期和时间值,时间戳

字符串类型
字符串类型指CHAR、VARCHAR、BINARY、VARBINARY、BLOB、TEXT、ENUM和SET。CHAR和VARCHAR类型类似,但它们保存和检索的方式不同。它们的最大长度和是否尾部空格被保留等方面也不同。在存储或检索过程中不进行大小写转换。BINARY和VARBINARY类类似于CHAR和VARCHAR,不同的是它们包含二进制字符串而不要非二进制字符串。也就是说,它们包含字节字符串而不是字符字符串。这说明它们没有字符集,并且排序和比较基于列值字节的数值值。BLOB是一个二进制大对象,可以容纳可变数量的数据。有4种BLOB类型:TINYBLOB、BLOB、MEDIUMBLOB和LONGBLOB。它们只是可容纳值的最大长度不同。有4种TEXT类型:TINYTEXT、TEXT、MEDIUMTEXT和LONGTEXT。这些对应4种BLOB类型,有相同的最大长度和存储需求。

类型 大小 用途
CHAR 0-255字节 定长字符串
VARCHAR 0-65535 字节 变长字符串
TINYBLOB 0-255字节 不超过 255 个字符的二进制字符串
TINYTEXT 0-255字节 短文本字符串
BLOB 0-65 535字节 二进制形式的长文本数据
TEXT 0-65 535字节 长文本数据
MEDIUMBLOB 0-16 777 215字节 二进制形式的中等长度文本数据
MEDIUMTEXT 0-16 777 215字节 中等长度文本数据
LONGBLOB 0-4 294 967 295字节 二进制形式的极大文本数据
LONGTEXT 0-4 294 967 295字节 极大文本数据

结束

我大部分时候,只是创建一个MySQL数据库给其他程序调用,比如WordPress。以上的内容,基本适合这种轻量级应用了。感谢你看到结尾,最后我们以一个命令结束。
退出MySQL

1
EXIT;
0%