关键词: 基因定位 荧光原位杂交 放射杂交体
在人类基因组计划(HGP)中有二大部分内容,一是在2005年之前完成对人类基因组DNA约3×109个核苷酸序列的测定,同时完成对基因的染色体定位工作;二是开展基因功能的研究。基因定位与基因序列两者相辅相成,基因染色体的定位既有助于基因序列的测定,又有利于对基因结构和功能的研究,有利于进一步提示生物的遗传信息。基因测序技术,尤其是大规模测序技术的建立,极大地提高了基因测序的速度。到1999年1月25日为止,全世界已测出全部人类基因序列的7.3%,而部分生物,如酵母、大肠杆菌等的序列已全部测定完毕,这样cDNA的染色体定位工作就显得尤为迫切。然而由于目前的基因大规模测序是建立在基因定位的基础之上,而基因组的染色体定位(基因作图)工作跟不上基因测序技术的发展,因而成了限制基因序列测定的主要因素。基因的染色体定位方法多种多样,它可分为基因的遗传作图和物理作图,而物理作图中最主要是荧光原位杂交(FISH)和放射杂交体(RH)二种。本文就目前主要的几种基因作图方法作一介绍。
1 荧光原位杂交(FISH)
原位杂交(ISH)原早被用于染色体组型和核酸分布的分析,后来,随着技术的发展,它被用于基因染色体定位的研究,特别是非同位素标记技术的发展,使得ISH的应用日前广泛。目前它已被用于肿瘤的细胞遗传改变、人类的早期发育、核与基因组的分子结构、不同种属间的基因图谱比较、动物的细胞发生和无数的基因定位研究。用于基因染色体定位的FISH已被称为CO-FISH或COD-FISH(chromosome orientation and direction FISH)[1]。
CO-FISH技术是以生物素或地高辛等半抗原为标记物,采用随机引物法或缺口平移法标记DNA探针,将探针变性后即可用于细胞分裂中期或间期细胞核染色体的原位杂交并产生DNA-DNA杂交体,这种杂交体可以被与半抗原有高度亲和力的荧光标记分子所检测到,而这种杂交信号又可以被与荧光分子偶联的单抗所放大。此外,DNA探针也可以直接标以荧光分子,这些荧光分子有:FITC、德克萨斯红(texas red )及最近开发的花青染料(cyanine dyes)等,如果这样,就不需要进行信号检测和放大就可以直接观察DNA-DNA杂交体[2]。用于FISH的DNA底物已经由原先固定的染色体和间期细胞核发展到伸展的单链DNA分子、细胞核及染色体的自然形态等[3]。由于FISH技术已经可以在伸展的DNA分子上进行,这样它的分辨率就达到1~2kb,并能在此区域内作图。而传统的在细胞中期和间期进行的FISH只能分别分辨1~5Mb和50kb左右的区域,分辨率的提高使得更详细的基因结构和基因内重排研究成为可能;FISH对自然状态下细胞和染色体的研究可以阐明核成分的分布并且不会出现象计算机三维重建分析时的干扰现象;同时,还能对二条同源染色体转录活性的核功能进行研究,并可直接观察基因表达过程中核成分的位置。FISH不仅能对固定的标本进行研究,还能对新鲜的标本进行研究,更有报道认为它能分辨单一碱基的替换[4]。
用于基因定位的FISH技术经历了从用洗涤剂或碱裂解液处理细胞核产生伸展状染色质,从机械拉展染色质到分子梳,再到最近的动态分子梳技术(dynamic moleular combing DMC)[5]。DMC技术是分子梳技术和荧光杂交技术的结合,它分为四个步骤:①制备三氯硅烷包被的玻片;②从低熔点琼脂糖胶中制备DNA溶液;③将玻片浸于溶液里5分钟,使DNA结合到玻片上;④用300μm/s的速度将玻片从溶液中抽出。由于在玻片-溶液界面处,浸在溶液中的部分对已抽出部分有一种持续的回复力,加上它们的疏水性,硅烷的表面很快就干燥,使得被拉长的DNA纤维不可逆地被固定于玻片表面,这种DNA纤维呈平等状、单方向分布,似梳子状。整个表面的伸展是均一的(2kb/μm),它不受DNA片段大小的影响。与其它方法相比,DMC技术有如下优点:①在整个平面的伸展可使杂交信号为单一信号,无需标化。②不同的表面和不同的溶液中DNA的伸展无变化。③高密度的基因组DNA和杂交信号可使统计分析在一张22×22mm的载玻片上即可进行。④一定的DNA断裂可产生持续的可分析数百kb的DNA片段。⑤可从同一种DNA溶液中制备出许多伸展平面。
2 放射杂交体法(RH)
尽管FISH技术可以对基因进行染色定位,但是从分子角度来看,它的定位工作仍显得较粗糙,它只能将基因定位于百万个碱基的范围(2%的染色体长度)。因此发展一种较敏感的技术势在必行。RH就是在这样的情况下产生的,它的基础是Goss和Harris早期的工作,他们用大剂量的X射线照射细胞,使染色体断裂;但是通过细胞融合啮齿动物细胞DNA中并被其修复。在染色体上间隔越远的两个标记,越容易被X射线所打断从而分离,出现在受体细胞的基因组DNA的不同位点。大约通过对100个这种染色体被修复的融合细胞克隆DNA的标记间断裂频率和距离的分析,就可得出这些标记在其自身染色体上的位置[6,7]。
然而,RH法作图是建立在统计基础上,因此,由RH法确定的遗传图谱并不一定真正代表标记物在染色体上的位置,所以建立一种特定顺序相对性的测量方法显得十分必要。Cox等人对作了研究。他们不用二倍体的细胞而采用只含单一染色体的单倍体细胞,得到了较好的效果。由于RH法作图并不依赖于靶染色体上可供选择的标记物的有无,因此在理论上它可以对细胞中单一拷贝的染色体进行分析;此外,RH另一个特点是它的图谱精度可以由X线折照射剂量来控制,一般来说,8000rad的剂量比较适中[8]。
上述这种RH方法又称为照射融合基因转移技术(irradiation and fusion gene transfer,IFGT), 这种方法比较繁锁,每条染色体需要100~200个杂交体细胞,这样人的整个基因组就需要4000个杂交细胞体。Walter等人就此作了改进,他们不用啮齿动物细胞杂交体,而是采用二倍体的成纤维细胞,并将改进后的方法称之为全基因组照射融合基因转移放射杂交体法(whole genome irradiation and fusion gene transfer radiation hybuids,WGRHs)[9]。他们只需44个细胞克隆即可以对对整条染色体进行定们分析,而且这种方法可以对大量的样本进行分析,大大减少了工作量和提高了工作效率。
目前已有商品化的小鼠全基因放射杂交体板可供使用,这种板由Goodfellow博士的实验室构建,他们是将照射后的小鼠129胚细胞与TK-A23仓鼠细胞系融合[10]。
3 脉冲场凝胶电泳(PFGE)
小的DNA分子(<30~40kb)在琼脂糖凝胶电泳中的泳动速度与其大小的对数成反比,而大的DNA分子其泳动速度却与其大小无关,只与电泳材料的孔径有关。由此Schwartz等提出改变电泳或电场的方法可达到分离大分子DNA的目的[11]。它需要提取大分子量的DNA,再用稀有切割酶将DNA切成50kb以上的高分子量DNA。由于稀有切割酶的识别位点多为6个碱基,而其中又往往含有CpG二核苷酸。因为CpG二核苷酸多以甲基化的形式存在于脊椎动物基因组中,易于脱氨和发生C→T转化突变;这种情况多在脊椎动物已知的看家基因5’出现,~40%的基因有组织特异性表达;这样如果在基因组DNA中检测到一个稀有切割酶识别位点,在很大程度上就可以认为是一个CpG岛和一个基因的5’端。此外,基因组DNA的甲基化是组织和发育阶段特异性且经常甲基化不完全,这样用稀有切割酶切割就产生消化不全现象,不同的甲基化类型具有不同的消化产物,在PFGE电泳上就可区分出个体的不同组织、不同个体的同一组织、不同种类的个体和由体细胞杂交制备的DNA等[12]。
PFGE可以产生涵盖50kb到5Mb的基因组图谱,但它比较繁锁和工作量较大。稀有酶的缺乏和稀有切割分布的随机性使得PFGEF方法难以排列数百kb以上的序列。
4 Contig拼接(contig assembly)和染色体步移(chromosome walking)
正如象多态微卫星的出现使基因作图产生革命性变化一样,YACs之类大基因片段(>100kb)的成功分离,使得众多哺乳动物基因组物理标签和长距离图谱的构建成为可能。目前构建YAC文库的载体多为标准的pYAC4载体,它含有着丝粒和端粒以保证染色体在酵母细胞中呈稳定的线性分子。极高分子量的基因组DNA就插入在选择载体的臂之间,连接的人工染色体导入酵母的原生质体中复制并保持稳定。YACs中插入片段的长度在500kb~1Mb之间,它足以被用于物理作图。目前用于YAC文库筛选的方法基于二种基本技术:①是PCR技术[13],②是杂交技术[14]。尽管杂交技术有其特点,但其信号低、重复元件产生的高背景及技术要求高等缺点,使得它已渐渐被PCR方法所淘汰。尤其是IRS-PCR(interspersed repetitive sequence PCR)的出现,更使PCR在其中的优势得到充分体现[15]。一旦YAC的末端被分离,接下来的关键是确定二个末端是否与预期的标签相匹配,由于被分离的YAC末端极少适合于FISH,故只能用Southern杂交;如果这个末端测序后可作为STS(sequence tag site)的话,也可以用PCR的方法进行鉴定。而最简单的方法是通过contig标签与已知YAC比较来确定新YAC的位置;如果这个不行的话,可将末端与体细胞杂交体或放射杂交体板、基因组PFGE图谱等一起分析[16]。
由于YAC克隆存在的一些缺点,如嵌合和重组等,现在又发展了细菌人工染色体(bacterial artificial chromosome,BAC)、噬菌体P1克隆系统和P1衍生的人工染色体(P1-derived artificial chromosome,PACs)等,这些质粒均是在细菌中进行繁殖,易于转导,可对插入末端进行直接测序,有关这些系统的详细情况可从http://bacpac.med.buffalo.edu." TARGET=_blank>http://bacpac.med.buffalo.edu.中获得。目前BACs和PACs已成为基因组计划的“序列准备”模板(sequence-ready template)。利用文库构建整条染色体或基因组的物理图谱主要采用二种方法:一是使用含有STS的图谱,根据有序的、重叠的STS构建,它的首要前提是高密度、具有良好顺序的STS图谱;二是通过建立大的标签进行指纹分析。利用PCR和杂交,再结合限制酶消化,即可进行染色体步移。
5 基因定位克隆(positional cloning)
基因定位克隆即是一种基因克隆的方法,同时又是一种基因定位方法。一些与遗传病相关基因的克隆多采用这种方法,它先根据已知的遗传标记进行连锁分析和系谱分析,先确定候选基因所在的位置,再通过其它方法获得基因的全部序列。基因的遗传连锁分析原理可参阅文献[17]。大规模遗传连锁分析所需的计算机软件可以从下列网址中获得:http://www.genome.wi.mit.edu/genome-software;" TARGET=_blank>http://www.genome.wi.mit.edu/genome-software;突变表型资源库在:http://www.resgen.com" TARGET=_blank>http://www.resgen.com和http://www.genome.wi.mit.edu" TARGET=_blank>http://www.genome.wi.mit.edu。
基因定位克隆中获得基因序列的方法大致有[18]:①对关键部位进行直接测序,目前已经可以对500kb左右的区域进行直接测序;②比较基因组作图和测序,具体原理在下面讲述,有关的信息可从http://www.ncbi.nlm.nih.gov/XREFdb/" TARGET=_blank>http://www.ncbi.nlm.nih.gov/XREFdb/中得到;③位置候选分析(positional candidate analysis),从某种程度上讲,它将成为基因定位克隆的标准步骤,它是在被克隆的基因(往往是ESTs形式)和它们相应的染色体位置日前收录在:http://www-shgc/stanford.edu/cgi-bin/smsg#GOTO;" TARGET=_blank>http://www-shgc/stanford.edu/cgi-bin/smsg#GOTO;④基因结构特征分析,这方面主要有三种方法:HTF岛作图(非甲基化CpG二核苷酸)、进化保守区分析和外显子捕获。HTF作图法根据的是稀有切割酶对基因组DNA的特征性切割,产生可识别的标记,如基因的5’端和CpG二核苷酸等,有人又称这为限制性标记基因组扫描(restriction landmark genome scanning,RLGS)[19];⑤cDNA捕获,它是根据基因组DNA和已知cDNA序列同源,它们就能形成异二聚体。这样将二者接上接头杂交后,再经过PCR扩增等即可得到未知基因。
6 比较基因作图(comparative gene mapping)或比较物理图谱(comparative physical maps)
基因非编码区的进化明显比编码区快得多,通过对不同种已知基因的比较可以发现,不同种属的基因编码区有相当高的同源性,因此可以利用这个特性进行基因作图和基因定位。也就是说,一旦某一性状被定位于动物染色体的一特定区域,这些信息(附近的ESTs和候选基因等)也可以移植到人的相应区域;同时,对一些不能在人体进行的致死性状的研究可以在动物染色体上定位后,再映射到人类染色体的相应位点。在这方面比较新的方法是L-yons等人的比较锚定标签序列(comparative anchor-tagged sequence,CATS)[20]和Marklund等人的异种二聚体分析(xenoduplex analysis)[21]。CATS扩增不同脊椎动物的相同编码序列,比较适合于对单一外显子的扩增,由于进行连锁分析的遗传多态性在较短的编码区内比较难发现,且CATS扩增出来的序列长度一致,限制了体细胞杂交体图谱的构建,要克服这些困难又要花费大量的人力物力。异种二聚体分析是在CATS基础上改进变而成,它是将不同物种的PCR产物混在一起进行变性、复性,这样同源的二条链就可杂交在一起,通过聚丙烯酰胺凝胶电泳分离出异种杂交体进行分析,采用体细胞杂交体(SCH)作图法作图。
7 其它
关于基因的染色体定位尚有不少其它的方法,不过这些方法几乎均与上述介绍的方法相关,或者是与以下的一些方法结合,如:显微分割法(microdissection)、荧光活化细胞分选方法(fluorescenceactivated cell sorting,FACS)、变性寡核苷酸引物PCR(degenerate oligonucleotide primer PCR,DOP-PCR)、体细胞杂交体(interspersed repetitive sequence PCR,IRS-PCR)等[16,22]。
参考文献 [1] Meyne J et al.Methods in Molecular Biology,Vol 33:In Situ Hybridization protocols.Choo KHA ed.Humana Press Inc.Totowa,NJ ,1994.
[2] Ekong R et al.Curr Opion Biotechnol,1998,9:19-24.
[3] Bass HW et al.J Cell Biol ,1997,137:5-18.
[4] Nilsson M et al.Nat Genet,1997,16:252-255.
[5] Michalet X et al.Science,1997,277:1518-1523.
[6] Goss SJ et al.Nature,1975,255:680-684.
[7] Goss SJ et al.J Cell Sci,1997,25:17-37.
[8] Cox DR et al.Science,1990,250:245-250.
[9] Walter MA et al.Nat Genet,1996,7:22-28.
[10] Schitt K et al.Genomics,1996,34:193-197.
[11] Schwartz DC et al.Cell,1984,37:67-75.
[12] Cross SH et al.Curr Opin Genet Dev,19995,5:309-314.
[13] Green ED.PNAS,1990,87:1213-1217.
[14] Larin Z.Genet Res,1990,56:203-208.
[15] Hunter KW et al.Mamm Genome,1994,5:597-607.
[16] Herman GE.Methods,1998,14:135-151.
[17] Boyd Y.Methods,1998,14:135-151.
[18] Boehm T.Methods,1998,14:152-158.
[19] Okazaki Y.Methods,1997,13:359-377.
[20] Lyons LA.et al.Nature Genet,1997,15:47-56.
[21] Marklund L et al.Genome Res,1998,8:399-403.
[22] Genome mapping:A practical approach.Dear PH ed.IRS Press, New youk,1997,p125-198.