首页

NAR(IF=13.1)|中科院团队用AlphaFold3筛出7655种蛋白,77%准确锁定核小体新"抓手"ARID4A/B

2025-08-25


核小体复合物的结构研究拓宽了我们对染色质功能的理解。高分辨率晶体学和先进的冷冻电子显微镜(cryo-EM)揭示了DNA与组蛋白之间详细的相互作用,阐明了这些相互作用如何影响核小体组成、核小体修饰和染色质重塑。在核小体盘状表面的所有结合热点中,核小体酸性斑块作为一个主要的对接平台脱颖而出,被包括组蛋白分子伴侣、染色质重塑复合物和组蛋白泛素化连接酶在内的多种蛋白质复合物所识别。对酸性斑块作用的深入了解强调了其在识别和评估潜在核小体结合物方面的价值。

尽管取得了进展,核小体复合物的研究仍面临挑战,包括高成本、耗时长以及核小体结合蛋白组成复杂,这些因素减缓了理解染色质机制和功能的进程。高精度蛋白质结构预测工具(如AlphaFold)的出现带来了前所未有的机遇,通过支持假设驱动的结构预测来革新研究。这种方法允许对核小体变体及其结合物的功能进行系性探索和预测,尽管在预测复杂的多组分组装体方面仍存在挑战。尽管取得了显著进展,但在预测受手性误差、链重叠、构象动力学影响的结构,尤其是具有异质组装的多组分复合物(如组蛋白泛素化连接酶)方面仍存在困难。

在本研究报道了一种基于AlphaFold的策略,用于从超过7600种人类核蛋白的数据集中预测核小体结合蛋白。这个筛选方法有效地识别了新的核小体结合物,并强调了RNF168二聚化在增强核小体结合中的重要作用。将这些发现与生物相互作用网络研究相结合,可以加速新染色质功能的发现,并丰富我们对表观遗传调控的理解。

实验方法:

蛋白质组获取与核蛋白筛选

1.原始数据下载:从 UniProt 数据库 FTP 站点获取人类参考蛋白质组的 FASTA 文件,包含 20654 个蛋白序列(每个基因对应一个序列)。

2.GO 富集分析:通过 QuickGO 网站的注释工具进行细胞组分富集分析,设置参数为 “9606 Homo sapiens”(限定人类物种)和 “GO:0005634”(限定细胞核组分),导出 100220 条注释结果(TSV 格式)。

3.核蛋白集筛选:取 UniProt 蛋白序列与 GO 注释结果的交集,最终获得 7655 个符合 “细胞核定位” 标准的核蛋白,作为后续分析的候选池。

AlphaFold3 预测数据准备

1.折叠对设计:根据 AlphaFold 服务器的输入要求,构建 “核蛋白 - 核小体” 折叠对:每个折叠对包含 1 个核蛋白和 5 个核小体组分(H2A 12-119、H2B 32-125、H3 39-134、H4 21-103、153-mer 601 Widom DNA,均来自人类核小体 PDB:6Y5E)。

2.长序列处理:对于长度 4053-8000 氨基酸的核蛋白,按 “最小化结构域破坏” 原则拆分为两段,分别与核小体组分形成折叠对(避免超出 AlphaFold 的长度限制)。

3.批量文件生成:生成 300 多个 JSON 文件,每个文件包含 20 个折叠对,统一设置模型种子为 985866441 以确保预测一致性。

AlphaFold3预测与核小体结合分数(SF)计算

1.结构预测与筛选:将 JSON 文件提交至 AlphaFold3 服务器,每个折叠对生成 5 个结构模型,共获得 38390 个预测结构(7628 个短蛋白 ×5 模型 + 25 个长蛋白 ×2 段 ×5 模型)。排除存在明显空间位阻(AlphaFold “has_clash” 标记)和组蛋白冲突的模型。

2.相互作用对提取:通过计算筛选出核蛋白与组蛋白链中距离≤5Å 的原子对,作为相互作用分析的基础。

3.SF 分数计算:

(1)pa,k= 31.75 - raw PAE(31.75 为 PAE 最大值,转换后与 pLDDT 趋势一致,值越高表示相对定位越可靠);pl,k = raw pLDDT(直接采用原始值,值越高表示局部结构越可靠)

(2)第 k 个相互作用对的权重为pa,k × pl,k,所有权重之和为 “未标准化 SF”。

(3)以 BARD1 - 核小体复合物(PDB:7E8I)的未标准化 SF 为基准(B),计算标准化 SF:SF = 未标准化SF/ B,实现不同蛋白间的定量比较。

基准数据验证与酸性补丁分析

1.基准数据集构建:在 NCBI 结构数据库检索人类核小体复合物(关键词组合:“histone”+“9:100 蛋白分子数”+“2:2 DNA 分子数”+“Homo sapiens”),截至 2024 年 8 月 7 日获得 322 个结构,经 Python 脚本筛选排除非人类结合蛋白,最终得到 75 个与核小体有明确组蛋白接触的蛋白,其中 30 个特异性结合酸性补丁。

2.酸性补丁定义:人类 H2A type 2-C(Q16777)的 E57、E62、E65、D91、E92、E93;经典口袋 AP1(E62、D91、E93)和 AP2(E62、D91、E65)。

3.预测一致性评估:计算 5 个模型中酸性补丁结合区域的成对 RMSD(均方根偏差),以 “1 -(模式 RMSD / 最大 RMSD)” 量化预测一致性,值越高表示模型间结构越稳定。

五、实验验证方法

1.蛋白质表达与纯化:


ARID4A/4B:克隆 ARID4A(1-150)、ARID4B(1-150)至 pET28a-SUMO 载体(含 6×His 标签、SUMO 标签),在大肠杆菌中 37℃培养至 OD600=0.6-0.8,0.5 mM IPTG 诱导 5 小时,4℃离心收集菌体。

纯化步骤:菌体用预冷裂解缓冲液(20 mM Tris-HCl pH8.0、500 mM NaCl、20 mM 咪唑)重悬,高压均质器(800-900 bar)裂解,30966g 离心 1 小时取上清;经镍柱亲和层析(洗脱缓冲液含 250 mM 咪唑)、SDS-PAGE 验证纯度后,稀释至 NaCl 50 mM,0.2μm 过滤,10kDa 超滤管浓缩,液氮速冻后 - 80℃保存。

RNF168 及其突变体:克隆至 pET28a 载体(含 6×His 标签),16℃诱导 15-18 小时,通过镍亲和层析(含 ZnCl₂的缓冲液)、离子交换层析和尺寸排阻层析纯化,最终纯度 > 95%。

2.核小体组装:采用盐梯度透析法 [38],将纯化的组蛋白(H2A、H2B、H3、H4)与 601 Widom DNA 按比例混合,在透析液中逐步降低 NaCl 浓度(从 2M 至 50mM),4℃组装为核小体核心颗粒,通过 DNA 含量定量。

3.EMSA(电泳迁移率变动分析):100 nM 核小体与梯度浓度的候选蛋白在 20 mM Tris-HCl(pH8.0)、50 mM NaCl 中 4℃孵育 15 分钟,6% 非变性 PAGE 分离,溴化乙锭染色,Tanon 1600 成像系统检测复合物迁移滞后现象。

4.Pull-down 实验:

H2A-H2B 结合验证:将带蛋白 A 标签的 scH2A-H2B 二聚体(野生型 / 酸性补丁突变体)固定在 IgG beads 上,与 ARID4A/4B(野生型 / HBD 突变体)按 1.5:1( prey:bait)混合,4℃孵育 1 小时;用 0.1M Glycine(pH3.0)洗脱,SDS-PAGE 分析结合效率。

核小体结合验证:基于 Horikoshi 等 [41] 的方法改良,结合缓冲液为 20 mM HEPES-NaOH(pH7.5)、50 mM NaCl、0.2 mM EDTA 等,通过洗涤后洗脱液的蛋白量评估结合能力。

5.冷冻电镜分析:

样本制备:RNF168’-RNF168-UbcH5c 与核小体复合物经密度梯度离心(5-20% 蔗糖梯度)纯化,取高纯度组分浓缩至适宜浓度。

数据收集与处理:样本滴加至 glow-discharged 的 Quantifoil R1.2/1.3 grids,Vitrobot Mark IV 冷冻(4℃、100% 湿度);Titan Krios 300kV 电镜(K3 探测器)收集 4652 个电影,经 Relion 3.0 和 CryoSPARC 4.4.1 处理,最终获得 3.9Å 分辨率的电子密度图。

研究结果:

AlphaFold3 预测核小体结合蛋白的高效性与准确性

210768fae7c8443bac486029a8798a42.png

图 1. AlphaFold3 引导的核小体结合蛋白预测工作流程和结果

1.预测规模:使用 AF3 网络服务器分析了 7655 种人类核蛋白与单个核小体核心颗粒的结合亲和力,生成了 38 390 个结构模型(图1A),采用计算方法量化蛋白质-核小体相互作用,特别是针对氨基酸对相互作用。前 149 个候选蛋白进行了 GO 富集分析,结果显示最富集的术语与染色质功能相关,支持预测的核小体结合物与相关生物学作用的比对

2.基准测试结果:在 75 种组蛋白结合蛋白中,成功预测了 56% (31/55) 具有已确定组蛋白结合能力的蛋白质和 77% (23/30) 已知能与核小体酸性斑块结合的蛋白质,表明该方法对酸性补丁结合蛋白的预测特异性更高。

3.结合模式分析:四种核心组蛋白的结合热点和结合模式分布,组蛋白 H2A 和 H2B 的 SF 分数分布最广(结合蛋白最多),H3 和 H4 较少参与核小体结合,表现出更强的相互作用,与酸性斑块是主要结合界面的观察结果一致。

4.预测一致性的关键作用:23 个准确预测的酸性补丁结合蛋白中,有 22 种获得了较高的预测一致性得分,在所有分析的蛋白质中排名前 6%(图2B),SIRT6、RING 型泛素连接酶 RING1B 和 BRCA1 表现出较低的 SF 得分,可能是因为 PAE 值异常高(图2A),但这些蛋白质的预测模型显示出高重复性和与已知结构的一致性,表明低 SF 得分可能意味着动态结合而不是缺乏相互作用(图2A)。

d5f6c6b6cada4035b4a674d9988563c3.png

图 2. 核小体酸性补丁结合蛋白的预测一致性和结构比对

ARID4A 和 ARID4B 为新型核小体结合蛋白,通过 HBD 与酸性补丁相互作用

40dc6d53ff6c43a991ccda0443eec31d.png

1.候选蛋白筛选:


在排名前 10 位的蛋白质中,有4种(CENPC、KMT5B、KMT5A 和 RNF168)是已确定的核小体结合蛋白,以富含 AT 的相互作用结构域而闻名的 ARID4A 和 ARID4B 之前并未被鉴定为核小体结合蛋白(图3A )。

2.结构预测分析:

AlphaFold 模型显示,ARID4A 和 ARID4B 均利用其 N 端 1-150 位残基与核小体结合,详细分析显示核小体DNA相互作用定位于ARID4A/4B DNA结合结构域(DBD;残基1-109),而组蛋白结合定位于组蛋白结合结构域(HBD;残基110-150)(图3B),预测一致性分析显示,二者的模型间 RMSD 低(一致性高),表明结构稳定。

3.EMSA 验证:

ARID4A(1-150)、ARID4B(1-150)与核小体的结合呈现剂量依赖性(随蛋白浓度升高,复合物条带逐渐增强),HBD (Δ110–150) 的缺失严重损害了核小体的结合,证实了其在ARID4A/4B-核小体相互作用中的重要作用(图3C)。阳性对照 KMT5A(194-393)也显示类似结合模式,验证了实验体系的可靠性。

4.相互作用机制:

Pull-down分析显示,ARID4B HBD突变体与核小体和H2A-H2B二聚体的结合均显著降低(图3D),该表型与H2A-H2B酸性斑块突变体(图3E)和ARID4A突变体,表明这些残基介导ARID4A/4B-酸性斑块相互作用。凸显排序系统识别新型核小体结合物和解析相互作用机制的能力。

RNF168 二聚化增强核小体结合与泛素化活性,冷冻电镜结构揭示分子机制

13b38e0d7d524a44b4300535a953a524.png

图 4. 泛素 E3 连接酶 RNF168 的综合分析


1.RING 家族 E3 连接酶的特殊性:


RING家族泛素E3连接酶(例如RING1B、BRCA1和BRE1A)的 SF 分数较低,但 Rosetta ΔΔG 计算显示,其与 E2 连接酶(如 UbcH5c)形成复合物后,核小体结合能显著降低(更稳定),提示复合物形成可能增强结合。

2.RNF168 二聚化预测与验证:

AlphaFold 模型显示,RNF168 (1-189) 可以在有核小体和无核小体的情况下发生二聚化(图4C),AUC 证实 RNF168 (1–189) 形成二聚体,依赖于 RING 结构域和卷曲螺旋区域(图4D),而截短体(1-113)为单体,表明卷曲螺旋区域对二聚化至关重要。

3.二聚化增强结合与功能:

EMSA 显示,scE3'-E3-E2 构建体与 scE3-E2 构建体具有相似的结合模式,两种构建体均表现出相当的核小体结合效率(图4E)。体外泛素化实验中,二聚体构建体(scE3’-E3-E2、RNF168 1-189)对 H2A 的泛素化效率(Ub-H2A、Ub2-H2A 条带强度)显著高于单体(RNF168 1-113),表明二聚化可增强催化活性(图4F)。

4.冷冻电镜结构解析:

以 3.9 Å 分辨率进行结构测定,E3 亚基与 RNF168-UbcH5c-核小体复合物 (PDB: 8SN1) 中的对应物精确对齐,能够将相邻密度明确地分配给 E2 和 E3'(图5C-F)。E3’通过与 H2A C 端尾和 SHL-6.5 DNA 相互作用稳定复合物(图5)。该结构首次证实 RNF168 二聚体可结合天然核小体,无需共价融合修饰,为其生理作用提供了结构依据。

5c4a237e848d448bb7236d28ae2c5020.png

图 5. 二聚化的 RNF168 RING 结构域结合核小体的冷冻电镜结构

讨论与结论

核小体结合蛋白通过调节DNA与组蛋白之间的相互作用,对于调控染色质结构和基因表达至关重要。它们通过影响核小体的维持,在转录、复制和DNA修复等基本细胞过程中发挥着关键作用。为了发现新的核小体结合物,团队开发了一种计算机筛选方法,并以已知的核小体酸性斑块相互作用物为基准评估了其预测准确性和一致性。该方法成功地将ARID4A和ARID4B鉴定为新型核小体结合蛋白,并通过冷冻电镜分析提供了结构验证,证明了RING家族泛素E3连接酶成员RNF168的二聚化。工程化的scE3*-E3-E2构建体可能由于强制的E3*–E3二聚化而引入非生理性相互作用。尽管在二聚体构建体中观察到增强的泛素化活性,也不能排除内源性RNF168在某些细胞条件下作为单体运作的可能性。未来使用内源性二聚化界面的研究将阐明RNF168二聚化的生理相关性。


计算机筛选程序为发现和表征核小体结合蛋白提供了一种快速有效的手段。它很好地适应了分析复合物中涉及的各种相互作用对的结构数据。利用这一策略,团队开发的可扩展的网络工具,用于分析蛋白质/DNA分子结构,可容纳多种文件类型,如PDB、CIF或JSON。该工具允许用户上传由AlphaFold2、AlphaFold3预测的结构或实验解析的结构进行深入分析。用户可以指定分析参数,如链ID,从而控制要分析的相互作用区域。此方法扩展到涉及氨基酸或核苷酸的相互作用界面分析,在参数选择上具有灵活性。例如,在已解析结构(如SMARCAS (PDB: 8V4Y)或 MEN1 (PDB: 8GPN))中常被忽视的酸性斑块接触,可以在预测结构中以高置信度识别。该工具还有助于分析核小体DNA结合蛋白,包括先锋转录因子和锌指蛋白,拓宽了潜在结构见解的范围。通过挖掘这些数据并采用类似方法筛选其他相关结合蛋白,可能发现新的蛋白质-蛋白质相互作用网络。

预测动态结构仍然是AlphaFold面临的挑战。在本研究中,AF3偶尔会错误放置包含靶向核小体酸性斑块的非经典精氨酸指基序的序列。这一限制解释了其对某些核小体结合蛋白预测不可靠的原因,无论这些蛋白是否包含竞争性与酸性斑块结合的重复短肽基序。这可以通过扩展训练数据集以包含多样化的界面几何形状来解决。此外,基于AF3的计算框架引入了预测偏差。解决这些限制需要扩展训练数据集以采样多样化的界面几何形状,并整合考虑组蛋白修饰和非经典核小体状态的正交实验验证。

团队通过数据表明,高预测一致性有助于纠正对低SF分数的误解,否则可能表明缺乏相互作用。这些差异很可能是由这些蛋白质内部的结构灵活性或局部动态性引起的,这凸显了在核小体相互作用分析中仔细分析预测一致性的必要性。一些预测一致性较低的蛋白质仍然能成功结合核小体,表明除了结构对齐之外的因素也影响核小体结合效能。重要的是,团队发现了SF分数低但预测一致性中等至高的蛋白质,表明它们具有潜在的核小体相互作用能力。

团队开发的基于 AlphaFold3 的核小体结合蛋白筛选方法,以 77% 的高成功率鉴定出 ARID4A 和 ARID4B 两种新型结合蛋白,并通过冷冻电镜解析了 RNF168 二聚化增强核小体结合的结构机制。该研究不仅为表观遗传调控研究提供了新的分子靶点和理论依据,其开发的预测工具和数据库也将推动染色质生物学领域的快速发展。未来,结合更高分辨率的动态结构预测和体内功能实验,有望揭示更多核小体 - 蛋白相互作用的奥秘。


作者:耙耙柑

新闻搜集:蔡雯捷

文章转载自:AI蛋白质前沿站(如有侵权,联系删除)