关键词: α-类珠蛋白基因 HS-40 基因表达调控
摘 要 人α-类珠蛋白基因簇位于6号染色体的短臂近端粒区,由4个功能基因和3个假基因组成,其中,ξ-珠蛋白基因在胚胎期表达,α2、α1和θ珠蛋白基因在胎儿和成人期表达。α-类珠蛋白基因的主要调控序列位于ξ-珠蛋白基因上游40kb的位置,称为HS-40,另外还存在其它的HS位点。在HS-40和各种珠蛋白基因启动子上有多种红系和通用反式作用因子的结合位点,它们间的协同作用保证了α-类珠蛋白基因表达的组织和时序特异性。对于α-类珠蛋白基因表达调控的研究主要采用转基因动物和细胞转染的方法。
血红素结合蛋白是一类广泛存在的蛋白质,从细菌、真菌、软体动物到植物和脊椎动物细胞内都有分布,功能也各不相同,但是它们都来自共同的始祖基因。血红蛋白在体内承担着运输氧气和CO2的生理功能,每个红细胞约含2.8亿个血红蛋白分子,是红细胞中的主要蛋白质。人从胚胎、胎儿、新生儿到成年整个发育过程中,共有HbGower I (ζ2ε2)、HbGower Ⅱ (α2ε2)、HbPortland(ξ2γ2)、HbF(α2γ2)、HbA2(α2δ2)和HbA(α2β2)六种血红蛋白出现,其α类和β类由两种不同的珠蛋白多肽链和血红素分子构成,其中α-类珠蛋白基因包括ξ、α2、α1和θ,β-类珠蛋白包括β、δ、ε和γ。α-类珠蛋白与β-珠蛋白的同源性为50%,空间结构相似,大约在5亿年前由共同的始祖基因进化而来。
人的α-类珠蛋白肽链共有4种,ξ基因与α基因在大约4亿年前开始分离,θ基因与α基因的分离发生在2.6亿年前。其多肽链均由141个氨基酸残基构成,在胚胎第一天,主要是ξ多肽链(42%)和α2多肽链(24%)的表达,从第五周起ξ珠蛋白基因的表达开始关闭,而代之以α2和α1珠蛋白基因的表达,与β类珠蛋白基因相比,α类珠蛋白基因只有一次开关(switch),其表达调控机制可能较为简单,在研究基因表达的时序上是一个更好的模型。而且,α-地中海贫血的发病率在我国也较高,在广西高达14.9%,广东为4.11%,因此,研究α类珠蛋白的基因表达调控,对于了解α-地中海贫血的发病机理和选择有效的治疗方法,都有重要的意义。
1 α类珠蛋白基因簇的结构特点
人的α类珠蛋白基因簇位于16号染色体短臂靠近端粒的位置,长度约为26kb,与端粒的距离为170kb-340kb,具有多态性[1]。小鼠的α类珠蛋白基因簇位于11号染色体近着丝粒的位置。整个α类珠蛋白基因簇在进化上是非常保守的,共有7个基因组成,包括4个可编码基因和3个假基因:端粒-ξ-ψξ1-ψα2-ψα-α2-α1-θ1-着丝粒。另外,在人的第22号染色体上还发现了一个ψθ珠蛋白基因的拷贝。与β-珠蛋白基因簇相比,α类珠蛋白基因簇的基因密度较高,G C含量较高(54%),Alu序列的密度也很高(占整个序列的26%),另外还含有一些数目可变的串联重复序列(VNTRs)和CpG岛。
由于人α类珠蛋白基因簇位于16号染色体近端粒区,在DNA复制起始的早期即开始复制,所以在各种细胞中染色体结构始终处于开放状态,CpG岛也保持未甲基化,但是其表达却是红系特异的。小鼠α-珠蛋白基因簇位于其11号染色体近着线粒位置,在染色体位置和结构上与人存在较大差异,只在红系细胞中呈现开放状态,没有CpG岛。小鼠α-珠蛋白基因簇附近存在许多与端DNA同源的序列,说明小鼠α-珠蛋白基因簇可能是从小鼠染色体的端粒红色转位到现在所处的位点[2]。
在α-类珠蛋白基因簇和端粒间存在4个看家基因(housekeeping gene)和一个IL-9受体的假基因,在人16号染色体上的位置依次是:端粒-ψIL-9-未命名-Dist1-MPG-Pros1-ξ-,MPG编码一种DNA修复酶:3-甲基腺嘌呤DNA糖苷酶,转录方向与α类珠蛋白基因簇的转录方向一致,而Dist1和Prox1的转录方向与α类珠蛋白基因簇的方向相反,分别位于α珠蛋白基因上游-89/-91kb和-14kb的位置,因此又分别被称为-89/-91基因和-14基因。3种基因的表达都不是红系特异的,人的MPG和Prox1基因的在3’-端有重叠,小鼠没有重叠[3]。α珠蛋白基因特异的增强子序列HS-40就位于Prox1基因的第5内含子中。
2 调控α类珠蛋白基因表达的上游顺式反应元件和反式作用因子
人α类珠蛋白基因簇上游40kb的一个DNase I高敏位点(HS-40)是已知最重要的α类珠蛋白上游表达调控序列,虽然在ξ基因上游也存在其它的DNase I高敏位点,如HS-33、HS-10、HS-8和HS-4[4],类似于β-LCR5个DNase I高敏位点排列方式,但都没有HS-40对α类珠蛋白基因的增强子活性,最新的研究发现,HS-40对α-珠蛋白基因的表达还有负的作用,因此早期α-LCR的定义是不确切的,现在一般叫做α-主动控制元件(positive control element)或α-位点调控元件(locus regulatory element)[5]。
HS-40序列长约300bp,在这希区域内集中了多种组织特异和广泛存在的反式作用因子的结合位点。在10bp、100bp、270bp和290bp处存在4个红系特异的GATA盒,在120bp和150bp处有两个NF-E2/AP1的结合位点(GCTGAG/CT-CA),以及3个CACCC盒和一个AG盒。在第二个GATA盒和第一个NF-E2/AP1结合位点中间有一个YY1结合位点,另外,与第一个CACCC盒重叠的一段GGGCGG序列[6]。HS-40增强子的缺失对MPG基因的表达没有影响,只引起α类珠蛋白表达的降低,造成严重的α-地中海贫血。但是α珠蛋白所呈较低水平的组成性表达,这与人α-珠蛋白所处的染色体位置有关,因为α类珠蛋白基因簇靠近染色体的端粒,始终处于开放状态,允许较低水平转录合体的形成。
小鼠HS-40的同源序列位于ξ-珠蛋白基因上游26kb,核心序列的长度约为270bp,也位于鼠Prox基因的内含子内,有3个GATA盒、两个NF-E2/AP1结合位点和一个YY1的结合位点,但是与人HS-40相比,缺少CACCC盒和3’-端的一个GATA盒。在MEL中,HS-26不能促进人α-珠蛋白基因科长的表达调控机制是不同的[7]。
NF-E2蛋白是一种重要的红系反式作用因子,是由分子量分别为45kD(p45)和18kD(p18)的两类亚基构成的异二聚体,它们都是属于AP-1基因超家族的含碱性亮氨酸拉链的蛋白,p45亚基只在各种造血细胞中有表达,而p18亚基几乎在各种组织中均表达,其中人mafG的表达与珠蛋白的调控有关。缺失NF-E2基因的MEL细胞不能促进α类和β类珠蛋白基因的表达,但是NF-E2敲除的小鼠并未出现红系发育和分化的异常,进一步缺失NF-E2蛋白相关因子(Nrf-2)基因也未能引起红细胞成熟的缺陷,而且NF-E2和Nrf-2间也不存在相互调控的现象,推测新近发现的这一家族的BACH-1和BACH-2基因可能起更重要的作用[8]。GATA-1和EKLF也是重要的红系反式因子,它们在DNA分子上的结合基序分别是(A/T)GATA(A/G)和CACCC[9],在红系细胞的分化和基因表达过程中起着关键的作用,GATA位点的突变会使红系的分化终止。GATA-1和EKLF都可以通过锌指结构与其它蛋白因子相互作用而形成核酸-蛋白复合物,GATA-1位点一般是成对出现。GATA-1发挥作用时需要辅助蛋白FOG(friedn of GATA-1)的存在,FOG的缺失也会造成红系分化的终止[10]。
YY-1和X-BP蛋白在HS-40上也存在结合位点,它们虽然不是红系特异的反式因子,但是对HS-40的增强子活性都有重要的作用。另外,在α-珠蛋白基因簇的3’-下游区域内存在的GATA-1结合位点可能对α-珠蛋白基因的表达也具有重要作用,包含α1基因在内的α2基因下游20kb的缺失也使α2基因不能表达,检测发现,虽然ξ和α2基因是完整的,HS-40也正常,但患者还是表达严重的α-地中海贫血。这可能也与α-珠蛋白基因簇的完整性有关[11]。
3 α-类珠蛋白基因的表达
α-类珠蛋白基因的表达具有红系组织特异性和不同发育阶段的特异性,与β-类珠蛋白相比,只有一个开关,即胚胎期ξ基因向胎儿/成人期α基因的转换。位于基因簇的5’-端的ξ基因在卵黄囊期首先开启表达,同时3’端的α基因表达也开启,但是水平较低。它们与同时表达的胚胎期β类珠蛋白共同构成两种胚胎血红蛋白。人ξ基因的表达水平随胚胎的发育逐步降低,至第五、六周造血功能从卵黄囊转移到胎肝后,ξ-基因的表达基本关闭(小鼠的转换发生在9-11d),而α基因开始活跃表达。这时ξ基因也存在低水平的渗漏表达,在成人期仍可以检测到ξ基因的痕量表达。α基因有两个拷贝,编码的氨基酸序列完全相同,但是在编码区有两个碱基的替代,第二内含子上有7bp的缺失,3’-非翻译区也存在一定的差异。在成人外周血红细胞中,α2和α1mRNA的比例是2.6:1,说明它们的转录效率是有差异的,但是翻译水平的差异无法确证,因为两个基因所编码的多肽链是完全相同的。事实上两个α基因在发育过程中也存在一个转换,在胚胎早期,α2和α1mRNA的比例接近1:1,α2基因的表达逐渐占优势,到第8~10周达到2.6:1的比例[11]。在K562细胞中α2和α1 mRNA的比例发生异常,只有8:29,经氯高铁血红素诱导后比例有所增加,如果将K562细胞的16号染色体导入MEL细胞,则恢复正常比例。说明存在调节α2和α1 mRNA比例的因子,但目前还没有发现[12]。
在人α珠蛋白基因的启动子区TATAA盒的上游有一个α-IRP结合位点、一个α-CP-1和两个SP-1结合位点,但是缺乏珠蛋白基因所特有的GATA序列和CACCC序列,这一点与小鼠及其它动物的α-珠蛋白基因存在显著的不同,鼠α-珠蛋白基因的启动子区有3个IRP/SP1结合位点,一个CP-1结合位点,一个CP-2结合位点,一个NF-5结合位点和一个GATA-1结合位点。所以在MEL细胞中,人α-珠蛋白基因呈现组成性表达,如果在要α珠蛋白基因的启动子区加上GATA和CACCC序列,则α-珠蛋白基因也与β-珠蛋白基因相似,可被氯高铁血红素(hemin)诱导表达[13],提示人α-珠蛋白基因和β-珠蛋白基因在表达调控上的差异与GATA-1和EKLF因子的关系非常密切。
在基因转染实验中,β-珠蛋白基因只能在红系细胞中表达,如果要使β-珠蛋白基因能够在异源细胞中表达,必须在β-珠蛋白基因的前面加上病素的启动子序列,而α-珠蛋白基因不需病毒的启动子序列就可以实现在红系和非红系细胞中的组成性表达。研究发现,这种特性与α-珠蛋白基因起始密码子后259bp范围内的DNA序列有关,这段序列通过与α-珠蛋白基因启动子区相互作用而使α-珠蛋白基因在各种被转染细胞中持续高水平地表达,而对β-珠蛋白基因的启动子及SV40启动子没有作用。这段序列在K562细胞中包含一个红系特异的DNase I高敏位点,其它细胞中则不存在,说明α-珠蛋白基因可能在各种细胞中都处于开放状态,而染色体水平上的负性调控对α-珠蛋白基因的表达起着重要作用[14]。
θ基因位于α-珠蛋白基因簇的3’-末端,在成人红细胞中可以检测到θmRNA的存在,但θ-珠蛋白的功能尚不清楚,因为θ基因敲除的小鼠在各方面的表型都是正常的。θ基因的表达与α基因的表达基本是平行的,θmRNA的出现与αmRNA出现的时相相同,表达量一直稳定在α珠蛋白表达量的1/50左右,表明θ基因是一种胎儿/成人期的α-类珠蛋白[15]。
α-珠蛋白基因簇内的假基因均不能被转录,ψα1基因结构中存在一系列的转录控制突变,ψα2基因则缺乏整个启动子区。ψξ1基因与ξ基因相比,除内含子的一些变化外,只有6个碱基的差异,其中在第六密码子上有一个CAG→TAG的无义突变。该位点的回复突变也不能使ψξ1基因进行转录。而位于第22号染色体上的ψθ2基因却可以被转录、加工,但目前未检测到它的翻译产物。
α-类珠蛋白基因表达的时序性受各自3’、5’-旁侧区、启动子区和部分基因内部结构的控制。ξ基因5’-端300bp的区域内存在一个CP-2结合位点,两个GATA盒,3个CACCC盒,一个ZF-1结合位点和一个ZF-2结合位点,另外还有CCAATA盒和TATA盒。Pondel等的研究表明只包含CCAATA盒和TATA盒的67bp长的近起始密码子区和HS-40的存在,即具有调控ξ-基因及与之相连的报告基因在胚胎期表达的作用[16],NF-E3结合在所有人/鼠胚胎型珠蛋白基因启动子区的TGACCA序列上,与CCAATA盒重叠,所以NF-E3可能对ξ-珠蛋白基因的表达有重要的作用。而Zhang等的研究则证明,HS-40需要通过和ξ-启动子上游的两个GATA位点的相互作用才具有活性,不在Pondel等所指的67bp范围之内[17];Stephen等采用β-LCR作为上游增强子调控ξ-基因的表达发现,启动子区、ξ-基因的编码序列和3’-非翻译区对ξ-基因的定时关闭都有作用并相互叠加[18]。虽然这些研究存在一定的相互矛盾,但是也存在共同的特征,都需要红系特异的上游增强子,并且存在增强子和启动子区的相互作用。HS-40和α-类基因启动子区与各种反式各自形成独立的核酸蛋白复合物,然后通过它们之间的相互作用促进α-类珠蛋白基因的表达。ξ-珠蛋白基因启动子区的CACCC盒的结合蛋白不同于已知的CACCC结合蛋白,如SP-1,EKLF等,目前这种蛋白正在鉴定中[19]。
ξmRNA的稳定性对ξ-基因表达的有效关闭也起着重要作用。在α-类珠蛋白mRNA3’-非翻译区内有一段16个碱基的嘧啶富含区,α和ξmRNA的差异只是一个与C→G的突变,就使ξ-mRNA与PABP及其它mRNA结合蛋白的结合能力降低了一个数量级,因此组装形成mRNP的能力较弱,而且它的poly(A)也较短,所以ξmRNA容易降解。Stephen据此提出了一个ξ-基因关闭的模型,认为转录后加工在ξmRNA的清除和关闭过程中起着关键作用。
4 α-类珠蛋白基因表达调控研究的模型
在细胞水平上研究α-类珠蛋白基因的表达调控一般采用人红白血病细胞K562、HEL细胞和鼠红白血病细胞MEL细胞作为研究对象,K562细胞在红系发育的过程中属于胎儿期的红细胞,表达胎儿期的γ-珠蛋白、部分ξ珠蛋白和α-珠蛋白,而HEL和MEL细胞则是处于成熟期的红细胞,表达成人期的珠蛋白基因。采用HS-40或α-类基因的启动子调控的报告基因,如Lac-Z、CAT或荧光素蛋白均可以在K562、HEL和MEL细胞中表达,人α类珠蛋白基因也可以在MEL细胞中获得表达,但是与β-珠蛋白基因不同的是,α-珠蛋白基因呈现组成性表达,而不需氯高铁血红素(hemin)的诱导。
由于细胞水平的研究不能体现α-珠蛋白基因表达的时序性,要在时间和空间上对α珠蛋白基因及其调控因素进行研究,转基因鼠则是更好的模型。采用HS-40或β-LCR作为上游增强子研究单个α-类珠蛋白基因或报告基因表达的模型由于片段较短,可以使用逆转录病毒形体或真核表达质粒,在转基因鼠体内,ξ-珠蛋白基因或连接在ξ启动子后的报告基因只在鼠胚胎期卵黄囊中表达,第10d左右关闭,β-LCR调控的α2-和α1-珠蛋白基因在胚胎早期表达量相同,在第11d也出现表达量的转换并呈现正常的比例。但是HS-40在转基因鼠体内并不能使下游的α-珠蛋白基因表现拷贝数依赖发育阶段的稳定表达,表明HS-40与β-LCR是不同的。如果制备包含完整α-珠蛋白基因簇的转基因鼠,则必须采用粘粒、PAC或YAC作为载体的人基因组DNA,Wood等通过筛选人粘粒基因组DNA文库,得到两段重叠的包含人α-珠蛋白基因簇的DNA片段,通过连接得到70kb的DNA片段,虽然α-珠蛋白基因表达量可以达到鼠内源性α-珠蛋白基因的66%,但是与短片段相似,仍然是非拷贝数依赖的,并且随着发育的进程,表达量降低1.5~9.0倍。而采用PAC载体克隆的150kb的人α-珠蛋白基因簇在转基因鼠体内表达的组织特异性、时序性等都呈现基本正常的表达调控,表达稳定,表达量有些甚至可以超过内源鼠α-珠蛋白基因表达的水平,但是都不能与鼠内源性α-珠蛋白基因表达水平相当[20],这可能与物种的差异有关。
有α-珠蛋白基因整合的转基因鼠并不是都表达α-珠蛋白,与整合位点有关,不表达的α-珠蛋白基因的小鼠红系细胞染色体上不能形成红系特异的DNase I高敏位点,整合位点靠近着丝粒区或异染色质区,而插入位点染色体的甲基化状态没有变化。
5 结语
α珠蛋白基因表达调控的组织特异性、发育时序性以及与β-类珠蛋白基因簇间表达的平衡,为研究基因表达调控的机理提供了一种良好的模型,现在的研究主要希望从顺式元件、反式因子、染色体结构等方面阐明α-珠蛋白基因表达调控的模式,但是还没有提出一种令人信服的模型,从目前所取得的结果看,α-类珠蛋白基因的表达调控也是一个非常复杂的过程,可能有多种不同的机制在起作用从而对其表达的组织特异性、时序性和平衡进行调控,要精确了解α-类珠蛋白基因的表达调控模式,应该进一步选取基因结构相对简单动物模型进行研究,如河豚鱼、斑马鱼,其α-类珠蛋白基因结构较为简单,而且α-珠蛋白基因簇和α-珠蛋白基因簇尚未分离,存在于同一染色体上,这对于研究两种珠蛋白基因表达的平衡具有重要的意义。
参考文献 1 Higgs DR et al.Blood,1989;73:1081
2 Kielman MF et al.Mamm Genoem,1993;4:314
3 Kielman MF et al.Genomics,1996;32:341
4 Sharpe JA et al.Blood,1993;82:1666
5 Berner A et al.Blood,1995;86:1202
6 Jarman AP et al.Mol Cell Biol,1991;11:4679
7 Bouhassira EE et al.Am J Hematol,1997;54:30
8 Martin F et al.Blood,1998;91:3459
9 Kielman MF et al.Genomics,1994;21:431
10 Rombel I et al.Proc Natl Acda Sci USA,1995;92:6454
11 Indrak K et al.Am J Hematol,1993;43:144
12 Liedhaber SA,Russell JE.Ann N Y Acad Sci,1998;850:54
13 Mamalaki A,Moschonas N.Acta Haematol,1990;84:30
14 Ren S,Li J.Nucleic Acids Res,1996;24:342
15 Brickner HE et al.J Biol Chem,1991;266:15363
16 Peri KG et al.Pediatr Res,1998;43:504
17 Anne F et al.
The Eleventh Conference on Hemoglobin Switching,Rasario,1998,Washington:28
18 Liebhaber SA et al.Mol Cell Biol,1996;16:2637
19 Russell JE et al.Mol Cell Biol,1998;18:2173
20 Higgs DR et al.Seminar In Hematology 1998;35:93