旅游营销型网站,手机网站适应屏幕,网站搭建工作怎么样,cdn网站加速原理概述
在生命科学的“造物革命”中#xff0c;蛋白质工程一直面临着“试错成本”与“设计效率”的双重挑战——传统方法依赖繁复的多序列比对#xff08;MSA#xff09;或耗时的实验室筛选#xff0c;如同在浩瀚的蛋白质宇宙中盲选星辰。而今日#xff0c;一项发表于《Cel…概述
在生命科学的“造物革命”中蛋白质工程一直面临着“试错成本”与“设计效率”的双重挑战——传统方法依赖繁复的多序列比对MSA或耗时的实验室筛选如同在浩瀚的蛋白质宇宙中盲选星辰。而今日一项发表于《Cell Research》的突破性研究彻底改写了游戏规则中国科学家团队开发的ProMEPProtein Mutational Effect Predictor通过多模态深度学习仅凭单条蛋白质序列与预测结构即可实现零样本突变效应预测无需MSA辅助将基因编辑工具TadA的A-to-G转化效率推至77.27%同时使TnpB核酸酶的编辑效率提升近3倍这项技术不仅比传统方法快数百倍更首次证明AI模型通过整合1.6亿蛋白质的序列与结构信息能精准预测人类从未见过的蛋白质突变效果为“按需设计生命元件”按下加速键。
这篇论文的题目是《Zero-shot prediction of mutation effects with multimodal deep representation learning guides protein engineering》论文链接
下面我对这篇论文进行结构化介绍帮助一下读者快速掌握这篇论文核心。
我写了一篇赛博修仙版搭配食用效果更佳
《AI修仙实录ProMEP炼出「零样本蛋白质推背图」基因编辑直破77%天劫》https://blog.csdn.net/weixin_47520540/article/details/145813189?sharetypeblogdetailsharerId145813189sharereferPCsharesourceweixin_47520540spm1011.2480.3001.8118
论文解剖指南把天书拆成乐高积木
在正式开箱ProMEP这个蛋白质预言家之前请允许我祭出科研江湖生存指南——当年在本科实验室摸鱼时认真学习时导师传授的论文六脉神剑 看东西就关注三点数据、输入、输出训练方式、度量方法loss、评价体系网络和特殊设计 弟子不才对其进行一下转述看AI论文就像做菜食材数据决定上限菜谱网络结构决定下限火候训练策略决定成败最后还得靠米其林评委评价指标盖章认证。 一、数据部分——蛋白质宇宙的「灵气源泉」
主要让大家看看AI里面的蛋白质数据长啥样有个基本的把握可不是一个大分子结构团哦AI模型可吃不下
一基因编辑酶TnpB和TadA中氨基酸的变异位置的概率 图Source_Data1 AAProbability-score-TnpB.xlsx 和 Source_Data2 AAProbability-score-TadA.xlsx
注所有图片来自论文开源的数据集
Position表示氨基酸在蛋白质序列中的位置即该氨基酸在序列中的序号。Wild-Type Amino Acid表示在该位置上的天然氨基酸即未突变前的氨基酸。Mutated Amino Acid表示突变后的氨基酸替换了天然氨基酸的氨基酸。Probability Score表示模型预测的突变后蛋白质适应性分数这个分数越高表明突变后的氨基酸在该位置上更可能维持或增强蛋白质功能。 具体介绍每一行代表蛋白质序列中的一个具体位置及其相应的突变信息包括该位置上的天然氨基酸、可能的突变氨基酸以及模型为此突变计算出的适应性概率分数。 这些数据用于评估模型预测的准确性。模型在训练过程中学习如何根据序列和结构信息来预测突变的适应性分数并通过这些分数来指导蛋白质工程例如识别出能够提高酶活性或稳定性的有益突变。 二TadA中40个有益突变的编辑效率。
Source_Data3-6.xlsx
Position与上面表格类似表示蛋白质序列中的氨基酸位置。Wild-Type Amino Acid表示在该位置的天然氨基酸。Mutated Amino Acid表示突变后的氨基酸。Probability Score表示模型对每个突变后蛋白质功能的预测分数。Additional Columns可能包含多个额外信息列如不同突变组合的适应性分数、实验测量值等。
具体每一行对应一个特定的突变组合及其相关的适应性预测分数。多个突变可能会组合在一起以显示这些组合对蛋白质功能的影响。
该表格的数据帮助模型学习如何处理复杂的多点突变情景尤其是涉及多个氨基酸位置同时发生变化的情况。这些数据提供了实际生物实验的参考以验证模型预测的可靠性和实用性。
二、模型输入 模型的输入是多模态的主要包括蛋白质的序列信息和结构信息。 1、蛋白质序列
简单来说就是由氨基酸按照特定顺序组成的链接收一个蛋白质的氨基酸序列例如MKVLYNLVNA...序列输入首先通过一个嵌入层embedding layer进行编码这个层将每个氨基酸转换成一个向量矢量这些向量捕捉了氨基酸的物理化学性质以及它们在蛋白质中的上下文关系。每个氨基酸的嵌入通常是一个高维的向量比如128维或更高维度的向量这样可以更全面地表示其性质。
2、蛋白质结构输入 涉及到蛋白质的三维构象即蛋白质中各个原子的位置和它们之间的空间关系。
蛋白质点云模型采用了一种名为“蛋白质点云”的表示方法。蛋白质点云是一组三维坐标点每个点代表一个氨基酸的α碳原子即该氨基酸的主链中的一个关键原子。这些点不仅有空间坐标x, y, z还附带了该氨基酸的类型如G, A, V等和在序列中的位置。输入形式这些点云数据通过模型的结构嵌入模块进行处理。模型利用这些三维坐标和氨基酸类型来捕捉蛋白质的空间构型和氨基酸之间的相互作用。
3、组合输入 在多模态模型中序列信息和结构信息并不是独立处理的而是通过特定的架构如编码器-解码器架构结合在一起以便模型能够同时理解和处理蛋白质的线性序列和三维结构。
序列上下文模型的序列嵌入模块使用Transformer架构能够捕捉序列中的长程依赖关系和氨基酸之间的复杂相互作用。结构上下文模型的结构嵌入模块如SE(3)-Transformer则能够处理蛋白质的三维信息确保模型能够识别蛋白质中空间上相互靠近但在序列上可能相隔很远的氨基酸之间的相互作用。
三、模型输出 模型的输出为每个突变体的适应性预测分数这些分数表示突变后蛋白质功能可能发生的变化如活性增加或减少。此外模型还能够预测多点突变的综合效应以帮助识别具有潜在有益功能的突变组合。
四、训练方式 训练数据
模型在AlphaFold2数据库中预测的约1.6亿个蛋白质结构上进行自监督训练。训练数据包括从这些蛋白质中提取的序列和结构信息。
训练方法
模型采用了自监督学习的方式进行训练这意味着模型在训练过程中不需要人工标注的数据而是通过掩码预测来学习数据的内在结构。这里补充一下掩码策略
掩码策略
序列掩码在输入的蛋白质序列中随机选择15%的氨基酸进行掩码。被掩码的氨基酸有80%的概率被替换为一个特殊的掩码标记有10%的概率被替换为随机的另一个氨基酸剩下的10%保持不变。模型的任务是根据上下文信息预测这些掩码处的真实氨基酸。结构掩码对于蛋白质的点云结构模型会掩码掉靠近蛋白质中心的25%的点然后通过结构信息来重建这些点的三维坐标。
五、度量方法
损失函数
交叉熵损失Categorical Cross-Entropy, CE用于评估模型预测的突变氨基酸与实际氨基酸之间的差异主要用于序列重建。
Chamfer距离损失Chamfer Distance, CD用于度量重构后的蛋白质点云与真实结构之间的几何差异确保模型能够准确捕捉蛋白质的三维结构信息。 六、评价指标
斯皮尔曼等级相关系数Spearman’s Rank Correlation用来评估模型预测结果与实验测量之间的相关性适用于无监督预测任务。关于这个指标我的这篇博客中有介绍斯皮尔曼相关系数
受试者操作特性曲线下面积Area Under the ROC Curve, AUROC用于评估模型在区分病原性突变和非病原性突变方面的表现特别是在病原性预测任务中使用。
平均精确度Mean Average Precision, MAP用于多任务预测中的精度评估。
七、模型设计——压轴大戏 a:以任意 WT 蛋白质作为输入具体而言对于任意突变ProMEP 首先从 WT 蛋白质中提取序列嵌入和结构嵌入。然后对这些嵌入进行对齐并输入到预训练的 Transformer 编码器中以生成残差分辨率的蛋白质表示。使用序列解码器细粒度蛋白质表示最终分解为序列和结构背景下每个氨基酸的条件概率。任意突变的影响可以解释为突变序列和 WT 序列之间预测对数似然的差异。采用定制的蛋白质点云以原子分辨率引入蛋白质结构背景。
b:输入蛋白质结构的 3D 平移和旋转不会影响蛋白质的结构背景。 ProMEP 应用旋转和平移等变结构嵌入模块来保证这种不变性。
c :ProMEP可用于指导蛋白质工程而无需标记数据集或对蛋白质结构和分子功能的整体理解。它使用户能够通过有效遍历蛋白质适应度景观来识别有益的多个突变体。
模型结构
1、多模态深度学习模型该模型结合了蛋白质序列和结构的多模态信息通过编码器-解码器架构学习蛋白质的序列和结构上下文。编码器负责处理输入的掩码序列和点云数据生成特征表示解码器则用于重建掩盖的信息。
2、Transformer编码器由33层堆叠的Transformer组成每层包括层归一化、20头注意力块和前馈网络用于捕捉序列信息的上下文。
3、SE(3)-Transformer结构嵌入模块保证结构上下文在三维变换中的不变性确保模型对输入结构的旋转和平移具有不变性。
关键设计
蛋白质点云使用蛋白质结构的α碳原子坐标构建点云保持了蛋白质的几何信息同时提高了计算效率。多模态训练同时学习蛋白质序列和结构上下文确保模型能够整合多种信息来源从而提供更准确的突变效果预测。 总结展望科技狂想症犯了
ProMEP虽强但科学家的脑洞永远比AI大——这些升级方向正在路上 挑战1.0插入/删除突变 当前模型像精准的「氨基酸狙击枪」但面对插入或缺失InDels这类「霰弹枪式改造」仍力不从心。解法把训练目标从填空游戏MLM切换成接龙预测Next Token不过需要更庞大的算力和数据燃料 挑战2.0超长蛋白的「分块处理」 遇到新冠刺突蛋白这类「基因长篇小说」ProMEP得像读PDF一样拆分成段落分析。未来可能用循环记忆Transformer实现「无限滚动阅读」彻底告别上下文限制。 挑战3.0蛋白质社交网络 现在ProMEP专注「单身蛋白」若能整合蛋白质相互作用PPI数据就能分析「蛋白复合体派对」——这对药物靶点设计简直是降维打击 未来科技树点法 强化学习RL让AI化身「突变策略师」通过试错奖励机制自动优化设计路线 生成对抗网络GANs生成海量虚拟突变体帮模型突破数据局限 图神经网络GNNs把蛋白质结构变成分子关系网精准捕捉远程相互作用
终极愿景当这些技术熔铸一炉ProMEP将成为生物版的「ChatGPT」——输入目标功能输出最优突变方案。从癌症治疗到碳中和酶设计人类终于握住了改写生命蓝图的「代码钢笔」 ✍️
赛博修仙版科研放松时刻
《AI修仙实录ProMEP炼出「零样本蛋白质推背图」基因编辑直破77%天劫》https://blog.csdn.net/weixin_47520540/article/details/145813189?sharetypeblogdetailsharerId145813189sharereferPCsharesourceweixin_47520540spm1011.2480.3001.8118