人类和黑猩猩的DNA差异只有百分之一。人类加速区(HAR)是基因组的一部分,具有意想不到的这些差异。HAR在哺乳动物中稳定了数千年,但在早期人类中迅速发生了变化。长期以来,科学家们一直想知道为什么这些DNA片段发生了如此大的变化,以及这些变异如何使人类与其他灵长类动物区分开来。
现在,格莱斯顿研究所的研究人员分析了数千种人类和黑猩猩的HARs,发现人类进化过程中积累的许多变化相互对立。
“这有助于回答一个长期存在的问题,即为什么HAR在被冻结数百万年后进化得如此之快,”Gladstone数据科学与生物技术研究所所长Katie Pollard博士说,他是今天发表在Neuron上的这项新研究的主要作者。“HAR的初始变化可能使其活动过多,然后需要将其降低。
她说,这些发现对理解人类进化有影响。此外,由于她和她的团队发现许多HAR在大脑发育中发挥作用,因此研究表明,人类HAR的变化可能使人们易患精神疾病。
“这些结果需要尖端的机器学习工具来整合我们团队生成的数十个新数据集,为研究HAR变体的进化提供了新的视角,”该研究的第一作者,Pollard实验室的高级研究科学家Sean Whalen博士说。
通过机器学习实现
波拉德在2006年比较人类和黑猩猩基因组时发现了HAR。虽然这些DNA片段在所有人类中几乎相同,但它们在人类和其他哺乳动物之间有所不同。波拉德的实验室继续表明,绝大多数HAR不是基因,而是增强子 - 控制基因活性的基因组调节区域。
最近,波拉德的小组想要研究人类HARs与黑猩猩HARs在增强子功能方面的区别。在过去,这需要在小鼠中一次测试一个HAR,使用在HAR活跃时染色组织的系统。
相反,Whalen将数百个已知的人脑增强子和数百个其他非增强子序列输入计算机程序,以便它可以识别预测任何给定DNA片段是否是增强子的模式。然后他使用该模型预测三分之一的HAR控制大脑发育。
“基本上,计算机能够学习大脑增强子的特征,”Whalen说。
知道每个HAR在人类和黑猩猩之间都有多重差异,Pollard和她的团队质疑HAR中的单个变体如何影响其增强子强度。例如,如果黑猩猩和人类HAR之间的八个DNA核苷酸不同,那么所有八个核苷酸是否具有相同的效果,使增强子更强或更弱?
“很长一段时间以来,我们一直想知道HAR中的所有变体是否需要使其在人类中发挥不同的功能,或者某些变化是否只是搭便车与更重要的变化一起骑行,”波拉德说,他也是加州大学旧金山分校(UCSF)流行病学和生物统计学系生物信息学部门的负责人, 以及Chan Zuckerberg Biohub研究员。
为了测试这一点,Whalen应用了第二个机器学习模型,该模型最初旨在确定人与人之间的DNA差异是否会影响增强子活性。计算机预测,43%的HAR包含两个或多个具有大相反效应的变体:给定HAR中的一些变体使其成为更强的增强子,而其他变化使HAR成为较弱的增强子。
这个结果让团队感到惊讶,他们原本预计所有的变化都会将增强器推向同一个方向,或者一些“搭便车”的变化对增强器根本没有影响。
测量 HAR 强度
为了验证这一令人信服的预测,Pollard与加州大学旧金山分校的Nadav Ahituv博士和Alex Pollen博士的实验室合作。研究人员将每个HAR融合到一个小的DNA条形码上。每次HAR活跃,增强基因的表达时,条形码就会被转录成一段RNA。然后,研究人员使用RNA测序技术来分析任何细胞中存在多少条形码 - 表明HAR在该细胞中的活跃程度。
“这种方法更具定量性,因为我们有精确的条形码计数而不是显微镜图像,”Ahituv说。“它的吞吐量也高得多;我们可以在一次实验中查看数百个HAR。
当该小组对人类和黑猩猩脑细胞前体的700多个HAR进行实验室实验时,数据模仿了机器学习算法的预测。
“如果机器学习模型没有产生这些惊人的预测,我们可能根本不会发现具有相反效果的人类HAR变体,”波拉德说。
对理解精神疾病的影响
HAR变体在增强子水平上展开拉锯战的想法与已经提出的关于人类进化的理论非常吻合:我们物种的高级认知也给了我们精神疾病。
“这种模式所表明的是一种叫做补偿进化的东西,”波拉德说。“增强剂发生了很大的变化,但也许它太多了,导致了有害的副作用,所以随着时间的推移,这种变化被调低了——这就是为什么我们看到相反的效果。
波拉德推测,如果HAR的最初变化导致认知增加,也许随后的补偿性变化有助于降低精神疾病的风险。她补充说,她的数据不能直接证明或反驳这一观点。但在未来,更好地了解HARs如何导致精神疾病不仅可以揭示进化,还可以揭示这些疾病的新疗法。
“我们永远无法让时钟倒流,确切地知道进化中发生了什么,”波拉德说。“但我们可以使用所有这些科学技术来模拟可能发生的事情,并确定哪些DNA变化最有可能解释人类大脑的独特方面,包括其精神疾病的倾向。