腾讯云知识

手把手学习TCGA数据库:SNP突变分析第二期

各位芝士的朋友好,今天我们继续聊我们的SNP话题,前面两讲我们分享了SNP发生的位置,发生的类型以及SNP的命名,并且特意提到了SNP的两个数据库,今天我们来学习一下这两个数据库的使用。 dbSNP dbSNP 全称为The Single Nucleotide Polymorphism Database,

各位芝士的朋友好,今天我们继续聊我们的SNP话题,前面两讲我们分享了SNP发生的位置,发生的类型以及SNP的命名,并且特意提到了SNP的两个数据库,今天我们来学习一下这两个数据库的使用。

dbSNP

dbSNP 全称为The Single Nucleotide Polymorphism Database,即单核苷酸多态性数据库,意思是“DNA序列中的单一碱基对(base pair)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。该数据库是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序列、人群频率等信息。

dbSNP 网址:ession number)和版本号(version number),两者用“.”隔开,除了LRG格式的参考序列之外,其他格式的参考序列均需要版本号。

如:NG_012232 .1

LRG参考序列不包含版本号(例如LRG_199)

3.在参考序列文件标识符和变异位置之间用冒号“:”隔开

如NC_000011.9 : g.12345611G>A。

HGVS建议使用最新的基因组参考序列版本,如NC_000023.10(对于人染色体X,GRCH37 / hg19)。

4. 参考序列类型

DNA

g. = 线性基因组参考DNA序列o. = 环状基因组参考DNA序列m. = 线粒体参考序列c. = 编码DNA参考序列n. = 非编码DNA参考序列

RNA

r. = RNA参考序列

Protein

p. = 蛋白参考序列

5. 变异位置

g代表基因组,m代表线粒体, p代表蛋白质,这三种参考序列在定位时,都是从1开始计数,写法为g.1, m.1, p.1, 除此之外,不需要任何的修饰符号。

c代表编码蛋白的DNA序列,从起始密码子的第一个碱基开始计数,写法为c.1, 只对exon区间进行计数,终点为终止密码子的最后一个碱基。

一个典型的HGVS命名示例如下:

NC_000023.9:g.32317682G>A

NC_000023.9是NCBI中人类的X染色体的编号,在参考序列之后紧跟着一个冒号,用于分隔参考序列和突变信息,g代表基因组序列,g.32317682代表在基因组上的位置, G>A表示由G碱基突变成A碱基。

如果突变位点在NCBI和EBI中没有合适的参考序列,最终的解决方案就是申请一个LRG编号(http://www.lrg-sequence.org/),在该数据库中对于HGNC定义的gene symbol也出给了对应的LRG编号。

OK,今天就先和大家分享到这,下期再见。



上一篇:用了这么久的数据库连接池,你知道原理吗? 下一篇:腾讯云服务器选什么配置?(实例规格,操作系统,软件镜像,带宽