人类染色体简介

reference genome, human

Posted by dulunar on April 9, 2020 | 访问量:

人类染色体简介

染色体

染色体(chromosome,以下简称‘chr’)通常以细丝状存于细胞核内,如果将单一细胞内的染色体拉成直线,长度大约是1.83米(6英尺,1英尺=30.86公分)。

在人类个体的体细胞中,大多数人都有来自亲代的1到22对常染色体,再加上来自母亲的性染色体X,以及来自父亲的性染色体X或者Y,总共是46条(23对)染色体,每一条染色体都是遗传信息的载体。

每条染色体上都有着丝粒的存在,所以根据着丝粒的位置不同,把人类染色体分为三种类型:

  1. 中心着丝粒染色体(metacentric chromosome),着丝粒位于染色体纵轴的1/2~5/8处;

  2. 次中心着丝粒染色体(submetacentric chromosome),着丝粒位于染色体纵轴的5/8~7/8处;

  3. 近端着丝粒染色体(acrocentric chromosome),着丝粒位于染色体纵轴的7/8至末端。

为了更好、更准确地表达人体细胞的染色体组成,1960年,在美国丹佛(Denver)市召开了第一届国际细胞遗传学会议,讨论并确立了世界通用的细胞内染色体组成的描述体系―Denver体制。这个体制按照各对染色体的大小和着丝粒位置的不同将22对染色体由大到小依次编为1至22号,并分为7组:chr1~chr3是A组;chr4~chr5是B组;chrX以及chr6~chr12是C组;chr13~chr15是D组;chr16~chr18是E组;chr19~chr20是F组;chr21、chr22与chrY是G组。

人类染色体

human genome

人类男性染色体G带

human male chromosome G band

染色体核型图

chromosome karyotype

1号染色体

chr1

人类染色体中当之无愧的老大哥,chr1长约249Mbp,占人类基因组的(“hg”)的8%,hg中最长染色体;chr1的着丝粒位于123.4Mbp的位置,中心着丝粒染色体;chr1上有4228个基因,其中包含2057个编码基因;另外chr1上的单核苷酸多态性(single nucleotide polymorphism,SNP)数量大约是74000个。当chr1上的基因发生异常时,可能导致包括帕金森氏症、阿兹海默症、智力障碍和乳癌等350多种疾病。

Chr1的数量或结构的其他变化会导致包括延迟生长和发育,独特的面部特征,出生缺陷和其他健康问题。chr1的变化包括染色体的短(petit,p)或长(q)臂的片段重复(部分三体性1p或1q),染色体p臂或q臂的片段缺失(部分单体1p或1q),或称为环1号染色体的环状结构。当染色体在两个位置断裂并且染色体臂的末端融合在一起形成环状结构时,出现环状染色体。

2号染色体

chr2

chr2长243 Mbp,着丝粒位于93.9Mbp的位置,次中心着丝粒染色体,包含有2787个基因,其中有1303个编码基因,其中人体最大蛋白——由3.3万多个氨基酸组成的激酶就是由chr2上的基因编码的;chr2长臂(2q31~2q32)上的发育调控基因簇(gene cluster)——HoxD,如果HoxD基因簇中的基因发生突变,就会使身体的肢体形态发育变形。另外通过科学研究分析,知道人类和黑猩猩有着共同的祖先,但是人类的基因组包含23对染色体,黑猩猩等灵长类的基因组包含24对染色体,通过染色体共线性分析,发现古代人猿的4号和19号染色体头接头融合成了现代人类的2号染色体,如下图;从核型图上也可以发现2号染色体上存在两个着丝粒和退化的端粒。

chr2 evolution

科学家们在骨髓增生异常综合征中发现了2号染色体三体,影响血液和骨髓,患者体内的红细胞数量较少(贫血),会增加急性髓系白血病的风险。

3号染色体

chromosome 3

chr3长约198 Mbp,着丝粒位于90.9Mbp位置,中心着丝粒染色体,包含2203个基因,其中有1080个蛋白质编码基因。中国科学家承担并完成了人类基因组计划(human genome project, HGP)的1%,就是3号染色体p臂上约3000万个碱基对(base pair)——30Mbp的测序任务,这推动了我国基因组研究的发展。chr3与人的嗅觉、炎症过程密切相关;另外在chr3携有高密度的与癌症相关的基因,如复合人类癌症基因FHIT;chr3异常也会引发肾癌中最高发的肾透明细胞癌(chr3一体或者3p臂的部分缺失)。

4号染色体

chromosome 4

chr4长约190 Mbp,着丝粒位于50.0Mbp,次中心着丝粒染色体,其上包含1702个基因,其中757个蛋白质编码基因,其中有271个膜蛋白编码基因,54个癌症相关蛋白的编码基因。

chr4p16.3上的Huntington(“HTT”)基因上的“CAG”密码子(谷氨酰胺,“Gln”)的异常重复(>=36次)会导致蛋白质产物亨廷顿蛋白有着不同的结构,异常亨廷顿蛋白容易粘连、聚集、导致神经细胞的死亡,目前无法医治,俗称亨廷顿氏病——一种常染色体显性遗传性神经退行性疾病;完全性三体chr4(身体所有细胞都是三体chr4)无法存活,部分性三体chr4(部分细胞是三体chr4)被称为“马赛克三体性”,体征和症状包括心脏缺陷、手指和脚趾异常、或其他出生缺陷;chr4上还包含与多囊肾、肌肉萎缩症、沃夫─贺许宏氏症(4p16.3多基因缺失导致的先天智障)等罕见疾病相关的基因。

5号染色体

chromosome 5

chr5长约181 Mbp,着丝粒位于48.8Mbp的位置,次中心着丝粒染色体,基因数目在900~1300之间,有885个蛋白质编码基因,是前几条大染色体中基因密度最低的一条染色体,chr5上有着大量的基因贫瘠(gene-poor)区域,这些区域在非哺乳脊椎动物中呈现了显著的非编码和同布保守,表明他们在功能上是受限制的;虽然chr5上的基因少,但是chr5主要负责生长和发育的多种形式(如细胞分裂),所以chr5发生改变会导致癌症,例子之一是急性髓细胞性白血病(AML);当5p缺失时会导致新生儿得”猫叫综合症“,婴儿会发出猫叫样的哭啼;当5q缺失时会导致骨髓性增生综合症(MDS,未成熟的血细胞不能正常发育,个体缺乏红细胞和巨核细胞)和部分恶性的血液肿瘤(AML);”家族性腺瘤性息肉病“——极易发展为结直肠癌与chr5密切相关。

6号染色体

chromosome 6

chr6长约171 Mbp,着丝粒位于59.8Mbp,次中心着丝粒染色体,其上包含有2057个基因,其中有1050个蛋白质编码基因;众所周知,人类基因组中编码主要组织相容性抗原的基因群MHC位于6p上,MHC称为人类白细胞抗原(HLA),这些基因不仅在机体对外界细菌和病毒入侵进行防御反应方面有重要作用,在器官移植配型方面也有十分重要的意义,它们还与上百种自身免疫性疾病(像青少年糖尿病、类风湿性关节炎、多发性硬化症等)相关,所以chr6被称为”免疫学中的圣杯“;另外chr6上的基因的异常会导致精神分裂症、癌症和心脏病等多种遗传性疾病。

7号染色体

chromosome 7

chr7长约159 Mbp,着丝粒位于60.1Mbp的位置,次中心着丝粒染色体,上有1400多个基因,其中1000个蛋白质编码基因,HoxA基因簇也位于7号染色体上;第一个完成测序的等臂染色体(isochromosome,是指染色体的两臂在基因的种类、数量和排列方式为对称相同的染色体),另外chr7上有大量重复的序列片段,占总长度的8.2%。

chr7上的基因发挥关键作用控制生长和分裂的细胞,这些基因的异常会导致细胞以不可控制的方式过快的生长和分裂,导致癌症的发生;7q臂端的DNA片段缺失会导致Williams综合症,该区域是Williams-Beuren临界区,患者表现为轻度智力障碍、先天性心脏病与”小精灵样“面容异常,呈现过度攀谈的性格特征;chr7的异常会导致腓骨肌萎缩症、囊性纤维化、遗传性非息肉病性结直肠癌、马凡综合症、耳聋、精神分裂等遗传疾病。

8号染色体

chromosome 8

chr8长约145 Mbp,着丝粒位于45.2Mbp的位置,次中心着丝粒染色体,包含有1887个基因,其中有685个蛋白质编码基因,8%与脑部发育及功能相关,16%与癌症相关。独特的8p臂上的有一个1500万bp的区域与大猩猩基因组相比较,发现人类的突变率更高,表明该区域有助于人类脑部进化,人类最强大脑相关的区域;该高突变率的区域包含许多与先天免疫和神经系统有关的基因。在8q臂上8q24区有一段区域的编码基因较少(被称为”基因沙漠“),但是该区域的异常却与前列腺癌、乳腺癌、卵巢癌、结肠癌和胰腺癌等多种癌症相关。

9号染色体

chromosome 9

chr9长约141 Mbp,着丝粒位于43.0Mbp的位置,次中心着丝粒染色体,包含有1575个基因,781个蛋白质编码基因。1924年德国学者F.伯恩斯证明chr9上的ABO基因决定了人类血型(A、B、O、AB型),这为临床输血和器官移植配型奠定了理论基础;另外chr9上的95个基因与疾病相关,其中的抑癌基因CDKN2A可抑制肿瘤形成,但是其失活会导致家族性黑色素瘤等多种常见肿瘤的发生,其他异常还与半乳糖血症、结节性硬化等疾病密切相关。

10号染色体

chromosome 10

chr10长约135 Mbp,着丝粒位于39.8Mbp的位置,次中心着丝粒染色体,10q比10p长2倍,包含有1246个基因,734个蛋白质编码基因,chr10上的85个基因与疾病相关,这些基因的突变可能引发乳腺癌、前列腺癌和脑癌等。chr10上的CYP17基因的突变会导致人体内性激素水平下降引起性发育障碍,让男性长得像女生——为人熟知的“男生女相”;另外10q上等位基因的杂合性缺失(LOH)会导致神经系统肿瘤、普通外科肿瘤、泌尿系统肿瘤等多种肿瘤。

11号染色体

chromosome 11

chr11长约135 Mbp,着丝粒位于53.4Mbp的位置,次中心着丝粒染色体,包含有2364个基因,1317个蛋白质编码基因,21.5个基因每Mbp,chr11是人类基因组中基因最丰富的一条染色体;856个嗅觉受体基因中的40%位于chr11上,人是否是“狗鼻子”由chr11上的嗅觉受体基因的表达水平决定;另外chr11也是与疾病相关基因最多的染色体:如伯韦综合症(巨大儿疾病)、白化病、镰刀型红血球病、膀胱癌、乳腺癌、多发性骨软骨瘤、自闭症、抑郁症。

12号染色体

chromosome 12

chr12长约133 Mbp,着丝粒位于35.5Mbp的位置,次中心着丝粒染色体,包含有1950个基因,1034个蛋白质编码基因,HoxC基因群集也位于chr12上,另12q臂上有一个目前在人类基因组上发现的最大的连锁不平衡(Linkage Disequilibrium,LD);位于chr12上的ATXN2基因中“CAG”序列重复若超过32次导致“企鹅病”(脊髓小脑性共济失调II型),表现为眼球震颤,走路像企鹅一样无法保持平衡;PAH基因发生突变会引起一种常染色体隐性遗传疾病——苯丙酮尿症(PKU),会致使人体内苯丙氨酸不能转变成为酪氨酸而导致苯丙氨酸及其酮酸堆积造成儿童智力损伤、生长发育迟缓,新生儿疾病筛查下,可及早发现与饮食控制治疗,从而控制病情;chr12上还有在特定癌症、运动失调症以及阿尔兹海默症等疾病中发生突变的基因。

13号染色体

chromosome 13

chr13长约114 Mbp,着丝粒位于17.7Mbp,最大的近端着丝粒染色体,包含有933个基因,321个蛋白质编码基因,是基因密度最低的染色体(6.5个基因/Mbp);chr13三体会引起帕陶氏综合征,导致新生儿出现脑部、心脏等全身多发的严重畸形、智力低下及特殊面容等特征,80%患儿在出生一年内死亡,尚无有效治疗方法(至2020年4月);chr13上也发现了与遗传性乳腺癌(BRCA2基因)、视网膜母细胞瘤(眼癌,13q14上RB1基因)、非综合征性耳聋、肝豆状核变性、瓦登伯格综合征等疾病相关的基因突变。

14号染色体

chromosome 14

chr14长约107 Mbp,着丝粒位于17.2Mbp的位置,近端着丝粒染色体,包含有1655个基因,634个蛋白质编码基因;chr14上大约有60多个与遗传疾病密切相关的基因,包括与阿尔茨海默症相关的基因(PSEN1/S182,衰老前素1基因)、2个对于人体免疫系统具有重要意义基因(α/δT细胞抗原受体基因座TRAJ56 和 免疫球蛋白重链基因座IGH\@,这两个基因座是免疫系统识别外来侵入物质所必须的组成部分);位于染色体两头的端粒起着防止染色体末端的遗传信息发生丢失的作用,但是随着细胞分裂导致端粒的长度在不断缩短(31个字母/年,有些组织更快,80岁时,体内端粒长度是出生时的5/8),chr14上的TEP1基因的蛋白产物——被称为“细胞长生不老药“的“端粒末端转移酶”,可以修复被损坏的端粒,保护染色体末端不被降解;依靠活跃的端粒酶,肿瘤细胞才能快速增殖,年龄增长、细胞衰老、损耗导致端粒减少,癌症发病率增高。癌症细胞增殖需要端粒酶,因此,攻克了里面的端粒酶为攻克癌症提供新的研究方向。

15号染色体

chr15

chr15长约102 Mbp,着丝粒位于19.0Mbp的位置,近端着丝粒染色体,包含有1428个基因,613个蛋白质编码基因;chr15上有7个大片段扩增,这中染色体复制集中在两个相隔甚远的区域——chr15q臂的近端和远端,没有沿染色体分布;15q臂远端的大片段扩增——15q11.2-q13.1区域,该区域进入胎儿体内时,来自双亲的染色体会打上不同的甲基化标记,来自父亲的这段染色体片段发生缺失或者变异导致小胖威利(Prader-Willi)综合征PWS,表现为低肌张力、智力障碍、长期强烈饥饿感及过度摄食,会引起威胁生命的肥胖;如果来自母亲的的这段染色体片段发生缺失或者变异导致天使(Angelman)综合征AS,表现为特殊笑容、智力障碍、癫痫发作及异常脑电波等,着证明了表观调控会影响基因表达。

16号染色体

chr16

chr16长约90 Mbp,着丝粒位于36.8Mbp的位置,中心着丝粒染色体,包含有1535个基因,835个蛋白质编码基因;chr16三体是最常见的导致孕早期流产的原因,约6%的早期流产因为chr16三体而发生;chr16上的ERCC4基因的产物DNA修复核酸内切酶XPF的蛋白,参与DNA修复和DNA重组;另外chr16p臂上的CREBBP基因在人类学习和记忆中发挥着重要作用,其为CREB络合蛋白的合成提供遗传指令编码,不仅在调节细胞生长和分化的过程中起着重要的作用,而且能促进胎儿正常的生长发育;chr16上发现了与乳腺癌、前列腺癌、多囊肾、地中海贫血及自闭症等疾病相关的基因。

17号染色体

chr17

chr17长约81 Mbp,着丝粒位于25.1Mbp的位置,次中心着丝粒染色体,包含有2010个基因,1186个蛋白质编码基因,是人类基因组中基因密度最大的染色体;被科学家称为“基因组守护者”的抑癌基因TP53(与修复DNA损伤有关)位于chr17上,体型庞大的大象因为体内有更多的TP53基因副本,所以寿命长、不易患癌;chr17上的抑癌基因BRCA1突变是主要的导致乳腺癌发生的原因;还有神经纤维瘤相关的基因NF1也位于17号染色体。

18号染色体

chr18

chr18长约78 Mbp,着丝粒位于18.5Mbp的位置,次中心着丝粒染色体,包含有675个基因,268个蛋白质编码基因,chr18是“基因沙漠”区域覆盖度最高的染色体,chr18上有24个“基因沙漠”,长度是chr18总长度的38%;chr18三体会导致发病率仅次于唐氏综合症的三体综合症——爱德华氏综合症,患儿存活率低、寿命短、长大的过程伴随着严重的智力障碍;尽管基因密度低,但是chr18上有45个与遗传疾病相关的基因,如高铁血红蛋白症、红细胞生成性原卟啉症、遗传性出血性毛细胞扩张症等。

19号染色体

chr19

chr19长约59 Mbp,着丝粒位于26.2Mbp的位置,中心着丝粒染色体,包含有1782个基因,1473个蛋白质编码基因;阿尔兹海默症(Alzheimer‘s disease,AD)是遗传因素和环境因素共同作用的一种复杂疾病,但是科学家们在chr19上发现与AD密切相关的APOE4基因的突变会增加3~15倍AD致病风险;chr19上也包含有与遗传性高胆固醇、抗胰岛素糖尿病相关的基因,控制DNA修复的基因XPD。

20号染色体

chr20

chr20长约63Mbp,着丝粒位于28.1Mbp的位置,中心着丝粒染色体,包含有546个蛋白质编码基因,是被破译的第一对具有典型长短臂结构的人类染色体;chr20p臂上的PRNP基因发生突变导致编码的朊蛋白发生结构上的改变会产生朊病毒,朊病毒会导致家族性克雅氏病(“人类疯牛”)病,朊病毒在人脑的潜伏期最长可达15年之久,一旦发作就会在12-18个月内死亡。

21号染色体

chr21

chr21长约48 Mbp,最小的染色体,着丝粒位于12Mbp的位置,近端着丝粒染色体,包含有233个蛋白质编码基因;chr21异常(三体95%、异位、等臂、嵌合)会导致人类最常见的染色体疾病唐氏综合症,高龄孕妇的发病率约为1/600-1/800,风险随着年龄的增长而增加,60%的患儿在胎内早期流产,存活者通常伴有身体发育迟缓、特殊面容和智力障碍,联合国把3月21日定为“唐氏综合症日”;chr21上分布着与先天愚型、早老性痴呆、癫痫等神经系统的疾病相关的基因。

22号染色体

chr22

chr22长约51 Mbp,着丝粒位于15Mbp的位置,近端着丝粒染色体,包含有445个蛋白质编码基因,第一条被破译的染色体,因为从核型图上来看chr22是最小,所以编号是最小的,但是通过人类基因组计划测序发现chr21比chr22短;22q臂近着丝粒端属于染色体重排的热点区域,特定区域的缺失编译会导致新生儿罹患DiGeorge综合征(22q11.2缺失),这是一组与咽囊系统发育缺陷有关的体征和症状;《我不是药神》大家都看过,里面的抗癌药“格列宁”,影射了现实中的一种名药——格列卫(Gleevec),化学名称伊马替尼(imatinib),主要用于治疗费城染色体阳性(Ph+)的慢性粒细胞白血病(CML),CML患者的chr22比正常人短一小段(费城染色体,Ph),chr9长一小段,chr22的q臂易位到chr9的q臂上,使得9q34上的原癌基因ABL和22q11上的BCR基因重新组合成融合基因,BCR-ABL融合基因可以增高酪氨酸激酶活性,BCR-ABL融合基因的过度表达活化一系列下游的信号通路,使细胞在没有生长因子情况下启动增殖,抑制了细胞凋亡的发生,造成细胞生长失控,这是CML的发病原因;chr22上发现了与先天性心脏病、免疫功能低下、精神分裂症、智力低下、出生缺陷、乳腺癌及II型神经纤维瘤病有关的基因.

性染色体X

chr X

chrX长约155 Mbp,着丝粒位于61Mbp的位置,次中心着丝粒染色体,包含约有2000个基因,852个编码基因,决定生物个体性别的性染色体的一种,它出现在XY型和XO型性别决定系统中;chrX上发现了与智力发育、免疫调控和抑癌相关的基因;chrX上的基因突变会导致很多X连锁遗传病,如红绿色盲、血友病、杜氏肌营养不良症(人类最大基因DMD)、脆性X 综合征、抗 VD佝偻病等;女性XX染色体会随机失活(胎盘类)一条抑制其功能表达,保证男女均只有一条性染色体X的功能平衡,对于有袋类,父系X失活;所以X、X-三体/四体/五体等、XXY/XXXY/XXXXY等都存在,且可以存活。

性染色体Y

chr Y

chrY长约59 Mbp,只有chrX的38%,着丝粒位于10.4Mbp的位置,近端着丝粒染色体,包含有66个蛋白质编码基因。

chrY是基因突变的产物,XY两条原始性染色体的一条在一个叫SOX3的基因发生突变,变成了名为SRY的基因,SRY基因决定了雄性性别,再经历过一次染色体倒转事件,使本是同根生的SOX3基因(在X染色体的底部)与SRY基因(在Y染色体的顶部)一上一下。Y染色体上的倒转使得Y染色体无法像X染色体一样在雌性的细胞中得到孪生姐妹的修复帮助,所以这些倒转了的区段还常常会被Y染色体给删除掉,在没有备份可以弥补修复的情况下, Y染色体删除掉了越来越多的基因,从最初携带的2000多个基因,到现在剩下不足100个,所以变得越来越小,只有X染色体的三分之一大小。自从chrY的出现,其上就常常发生各种各样的基因倒转和删除事件,使得Y染色体上的基因越来越与众不同。

在人类中的女性中,两条基因分布均一的X染色体在所有的部位仍然沿着古老的法则,进行着充分的基因重组和互换;而男性中则缺少了这种基因重组互换的机制。Y染色体却自己有一套解决失去基因重组的机制:

首先,Y染色体的两端5%大小的部分,还保留着与X染色体进行重组互换的能力,这样可以帮助X和Y在减数分裂期间正确地排队,不会造成混乱。另外,在这里还保留了大概5个左右的基因,这些基因不决定性别,但是具有维护细胞的基本生命活动的重要功能。

其次,Y染色体剩下的95%的部分(命名为男性特异区MSY),除了偶然的突变外,绝大部分是严格按照祖传父、父传子的方式,代代相传。这部分区域并不能生成有用的蛋白质,大部分都是反复重复相同的代码序列和大量的回文结构(6M个碱基对)。所谓的回文结构,就像古人做的回文诗一样,回文的两句从首端向尾端读和从尾短向首端读都是一样的结构,类似于:“人过大佛寺”和“寺佛大过人”这两句,就构成了一对回文结构,也可以说是互成镜像。这种结构,曾经使得研究和测序Y染色体变的异常困难。但正是这种回文结构,才使得Y染色体虽然没有孪生同伴进行重组交换的情况下,依然会屹立不倒。

原来,在这些回文结构中,Y染色体可以从中间进行对折,让自身对等的回文部位配对并发生重组互换。在这过程中,如果发现其中某个基因突变了,他就可以从它对面的回文备份中获得模版,从而进行修复。

因为Y是男性都有染色体,所以chrY用于人类迁移路线分析、DNA-Y家系的犯罪排查。

染色体病变

染色体出现非整倍体(指一个细胞中染色体数目出现异常,包括染色体缺失,过多)会引起病变,这与染色体密度有关,所有染色体中,X,Y,13,18和21号的基因密度最低,这可能就解释为什么这些染色体上出现数目异常还能长成成人。而其他染色体的非整倍体则直接导致死亡。