关键词: 单核苷酸多态性;遗传标记;基因研究
摘 要 单核苷酸多态性(SNP)是指在基因组水平上由单个核苷酸的变异所引起的一种DNA序列多态性。SNP现象在人类基因组中广泛存在,并具有很高的信息含量。目前已发现数万个SNP标记,且有多个生物医学网站开辟了专页对其加以介绍。随着对SNP检测和分析技术的进一步发展,尤其是与DNA芯片等技术的结合,它已成为第三代遗传标记,初步满足对疾病相关基因定位研究的需要,尤其是对多基因遗传病高精度基因定位的要求,并将最终取代目前最常用的微卫星标记技术进入基因应用研究的领域。
SNP 单核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。
理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的。这种变异可能是转换(CT,在其互补链上则为GA),也可能是颠换(CA,GT,CG,AT)。转换的发生率总是明显高于其它几种变异,具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。Wang等[1]的研究也证明了这一点。转换的几率之所以高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,位于编码区内的SNP(coding sNP,cSNP)比较少,因为在外显子内,其变异率仅及周围序列的1/5[2,3]。但它在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。
从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。
先形成的SNP在人群中常有更高的频率,后形成的SNP所占的比率较低。各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有85%应是共通的[4]。
SNP检测方法 目前已有多种方法可用于SNP检测,如根据DNA列阵的微测序法、动态等位基因特异的杂交、寡聚核苷酸特异的连接、DNA芯片以及TaqMan系统等。但不管哪一种方法,首先必须进行靶序列的扩增,然后才能进行其它检测。
传统的SNP检测方法是采用一些已有的成熟技术,如DNA测序、限制性酶切片段长度多态性(RFLP)、单链构象多态性(SSCP)、等位基因特异的寡聚核苷酸杂交(ASO)等。这些技术虽在某种程度上能完成对SNP的检测,但由于它们必须通过凝胶电泳进行检测,因此,距快速、高效、自动化的目标还相差甚远。传统的RFLP只能检测到SNP的一部分,测序技术既费时费力,又不易实现自动化,而且DNA链的二级结构还容易造成人工假相,使测序结果出现偏差,不适宜于SNP的检测;SSCP则很难满足自动化的需要,难以大规模开展工作。因此,这些方法均未被广泛采用。
DNA芯片技术是近年来新开发的一种DNA序列变异检测工具。DNA芯片(DNA chip),也称生物芯片(biochip),其大小与计算机上的CPU芯片相似,约1 cm2或更大些,以玻璃、硅、聚丙烯等作为载体基片,芯片上铺了一层肉眼看不见的DNA纤维“地毯”,即具有特定碱基序列的探针。待测基因经提取后,被切成长短不一的片段,经荧光化学物质标记后,注射到嵌有芯片的载片上。由于DNA和探针杂交的程度与荧光强度相关,因此通过激光扫描,即可根据荧光强弱测出被检测序列的变异。
目前已有多家公司开展了对芯片的研究,例如美国的Affymetrix公司、NEN生命科学公司等。前者曾开发出BRCA1(乳癌基因1号)芯片、p53芯片等,后者则在1张玻璃芯片上集成了多达2400个已知基因。此外,Research Genetics公司新近开发了1个集成有1500个SNP的DNA芯片,它涵盖了人类基因组全部24条染色体,所提供的信息量至少等于或优于目前常用的300~400个微卫星标记的图谱,检测时只需0.5μg的DNA样品就可进行1次全基因组的扫描。
SNP 研究进展和信息搜寻 SNP研究是目前人类基因组研究的又一个热点,1998年Wang等[1]首先报道了根据SNP技术建立的人类遗传图谱,其获得的SNP平均距离为2 cM(centimorgan);Cho等[5]则在模式生物拟南芥(Arabidopsis thaliana)上作了全基因组的SNP图谱定位,该图谱中SNP平均距离为3.5 cM。所有这些SNP数据均可为公众免费获取。目前,不仅在人类染色体上,而且在其它生物的基因组上也已建立了SNP图谱。美国、西欧及日本等国的政府、科研机构及部分私人公司斥巨资研究开发的SNP图谱也将向公众免费提供。
近年来,储存在公共数据库里的SNP数量正在以几何级数迅速增长。1999年4月,总共才分析了7000个SNP,其中cSNP占半数;而到了当年12月16日,仅美国的国立生物技术信息中心(NCBI)的SNP数据库就已存放了21172条SNP至1999年10月10日德国的HGBASE网站也已存放了6 503条SNP。
目前已有许多生物医学网站开辟了专门的SNP网页,人们可以很方便地在这些网站上查阅有关的SNP信息。国际上较重要的网站有:(1) dbSNP(http://www.ncbi.nlm.nih.gov/SNP/" TARGET=_blank>http://www.ncbi.nlm.nih.gov/SNP/):该网站是由美国的NCBI主办的。它除了可接受各地发来的SNP申请注册外,也向公众免费提供对SNP的查询。(2) hGBASE(http://hgbase.interactiva.de" TARGET=_blank>http://hgbase.interactiva.de):该网站建在德国,收集基因内SNP,研究者可通过检测出的序列查询SNP。(3) mIT SNP数据库(http://www-genome.wi.mit.edu/SNP/human/index.html" TARGET=_blank>http://www-genome.wi.mit.edu/SNP/human/index.html):该网站是由美国麻省理工学院建立的。它包括数千条已经定位的SNP,可以通过指定染色体的某一区域查询SNP。
其它的SNP站点还有:华盛顿大学,网址是:http://www.ibc.wustl.edu/SNP;CHLC" TARGET=_blank>http://www.ibc.wustl.edu/SNP;CHLC,网址是:http://www.chlc.org/cgap/nature-genetics-snps.html;" TARGET=_blank>http://www.chlc.org/cgap/nature-genetics-snps.html;美国人类基因组研究所,网址是:http://www.nhgri.nih.gov/About-" TARGET=_blank>http://www.nhgri.nih.gov/About- nHGRI/Der/variat.htm。
SNP 的优点及其应用 由于SNP在任一特定位点上只有2个等位基因,因此,与简单序列长度多态性(SSLP)相比,其所涵盖的信息量很有限,似乎很难满足疾病易感基因精确定位的要求。但这个不足可通过加大分布密度来弥补,而且,这个目标并不是难以实现的,因为完整的SNP图谱完成之后,可以提供远高于此要求的密度。有研究认为,1个二核苷酸重复多态性标记的信息量大约是SNP的2.25~2.5倍,也就是说,1个有900~1000个均匀分布的SNP的图谱在进行基因组扫描时,其所能提供的信息量就足以和目前最常用的有400个标记位点的多态性图谱的信息量相当[6]。所用SNP数量虽多,但因检测速度快,故它将能最终取代SSLP,用于复杂性状的多基因遗传病研究。
人类的遗传连锁图谱至今已发展到了第三代。第一代是限制性酶切片段长度多态性(RFLP)图谱,第二代是微卫星标记图谱,第三代图谱就是SNP图谱。
SNP用作遗传标记具有以下优点:(1) SNP在人群中是二等位基因性的,在任何人群中其等位基因频率都可估计出来。(2)它在基因组中的分布较微卫星标记广泛得多。(3)与串联重复的微卫星位点相比,SNP是高度稳定的,尤其是处于编码区的SNP(cSNP),而前者的高突变率容易引起对人群的遗传分析出现困难。(4)部分位于基因内部的SNP可能会直接影响产物蛋白质的结构或基因表达水平,因此,它们本身可能就是疾病遗传机制的候选改变位点。(5)易于进行自动化分析,缩短了研究时间。
由于SNP具有以上优点,所以其应用范围较微卫星标记更加宽广,它对群体遗传学、制药业、法医学、癌症及遗传性疾病甚至进化的研究都将产生不可估量的影响。
预计今后SNP将在下列领域发挥重要作用:(1)进行简单和复杂疾病的遗传连锁分析(linkage analysis)及关联分析(association analysis),用于疾病易感基因定位;而且其定位的精度将比微卫星标记精细得多,可直接用于指导易感基因克隆。(2)在“药物基因组学”(pharmacogenomics)研究中,可通过检测SNP的遗传多态性标记揭示人群中不同个体对不同药物的敏感性差异的根本原因。(3)也可用于法医研究的罪犯身份的鉴别、亲子鉴定等,此外在器官移植中供体和受体间的配对选择及物种进化的研究中都将具有重要意义。
为了有效地利用连锁不平衡的效力,一个覆盖全基因组的数量至少为10万个SNP的图谱将是有效发挥其作用的前提。有人甚至认为,1个具有50万个SNP的图谱是不可缺少的[17]。但是,目前距此目标还相差甚远。
总之,SNP研究将是二十一世纪生命科学的热点。它与人类基因组计划一起,必将对人类的生产和生活产生不可估量的影响。
参考文献 1,Wang DG,Fan JB,Siao CJ,et al.Large-scale identification,mapping,and genotyping of single-nucleotide polymorphisms in the human genome.Science,1998,280:1077-1082
2,Li W,Sadler LA.Low nucleotide diversity in man.Genetics,1991,129:513-523
3,Nickerson DA,Taylor SL,Weiss KM,et al.DNA sequence diversity in a 9.7 kb region of the human lipoprotein lipase gene.Nature Genetics,1998,19:233-240
4,Barbujani G,Magagni A,Minch E,et al.An apportionment of human DNA diversity.Proc Natl Acad Sci USA,1997,94:4516-4519
5,Cho RJ,Mindrinos M,Richards DR,et al.Genome-wide mapping with biallelic markers in Arabidopsis thaliana.Nature Genetics,1999,23:203-207
6,Kruglyak L.Prospects for whole-genome linkage disequilibrium mapping of common disease genes.Nature Genetics,1999,22:139-144
7,Kruglyak L.
The use of a genetic map of biallelic marker in linkage studies.Nature genetics,1997,17:21-24