用xampp来搭建wordpress建站环境,哪个公司做网站推广最好,ui个人中心页设计说明,中国铁路建设投资公司网站熊学军----/ START /---- 基因组学其实是一门将数据驱动作为主要研究手段的学科#xff0c;机器学习方法和统计学方法在基因组学中的应用一直都比较广泛。 不过现在多组学数据进一步激增——这个从目前逐渐增多的各类大规模人群基因组项目上可以看出来#xff0c;这其实带来了新的挑…----/ START /---- 基因组学其实是一门将数据驱动作为主要研究手段的学科机器学习方法和统计学方法在基因组学中的应用一直都比较广泛。 不过现在多组学数据进一步激增——这个从目前逐渐增多的各类大规模人群基因组项目上可以看出来这其实带来了新的挑战——就是数据挖掘的难度增加了。我们要高效地从多组学数据中挖掘出有价值的信息那么就需要掌握更富有表现力的方法这个时候深度学习就成了一个合适的选择。 因为就目前来说深度学习本身就适合用来挖掘大量的、多维度数据背后的潜在规则它也已经改变了多个计算机领域包括图片识别、人脸识别、机器翻译、自然语言处理等。 近年来深度学习在基因组学领域也有了不少的研究和应用我这篇文章主要基于 Nature Reviews Genetics 上《Deep learning- new computational modelling techniques for genomics
》的内容同时我也做了一些额外的补充目的是和大家一起梳理一下目前深度学习在基因组学研究方面的应用情况。 这篇文章主要分为下面四个部分 第一介绍有监督学习中四个主要的神经网络分别是全连接网络、深度卷积、循环卷积和图卷积同时解释了如何将它们用来抽取基因组数据中常见的 Pattern 第二介绍多任务学习和多模态学习这是两种适合于集成多维数据集的建模方法 第三讨论迁移学习这是一种可以从现有模型中开发新模型的技术。这个方法对于多组学的研究和应用来说有着实际的价值 第四讨论自动编码器Autoencoder, AE和生成对抗网络generative adversarial networksGANs这两个非监督学习方法。 好接下来我将逐一展开介绍这四个方面的内容同时为了让你可以更好地理解这篇文章我穿插补充了一些关于机器学习的背景知识。 第一部分 这一部分的内容与有监督学习有关因此我们要先了解什么是“有监督学习”。 图1 是有监督学习的一个示意图 图1. 有监督学习示意图 简单来说有监督学习的过程是输入样本的特征值这个特征值可以是一个值也可以由是一系列值构成的向量然后预测出样本属于哪一个结果标签或叫做“标注”。比如 图1 是一个预测 RNA 剪接位点的例子这里模型要依据样本的特征值如位点序列信息、位置、内含子长度等进行计算得到一个是否为剪接位点的预测结果。 另外图1 其实是一个由逻辑回归组成的单层神经网络分类模型。 所以有监督学习是一种需要使用标签化数据进行训练然后推断出输入特征和结果标签之间函数映射关系的机器学习方法模型的训练数据需要有明确的结果标签否则不能训练。 搞清楚定义之后那有监督机器学习是如何进行模型训练的呢所谓训练其实就是求解模型参数。 这个过程具体是如何实现的呢 图2. 模型训练 这个训练过程一共三步图2——这也是绝大多数机器学习算法进行模型训练的方式具体如下 1. 分割数据 首先要将训练数据分割为三个集合分别是训练集验证集和测试集如图2.a 。其中训练集用于模型参数的计算验证集用于模型性能评估和超参调整目的是为了保障模型可以在现有数据条件下达到最好的结果而测试集则是用来评测最终模型的综合性能。 2. 使用训练集数据计算模型参数 还是以图2为例——我们这里图2是一个神经网络模型训练开始时首先要给这个网络中的各个参数进行一次随机初始化然后再代入训练数据去迭代更新模型参数。 每一次的迭代时通常都是随机地从训练集中抽取一小撮数据图2.a中的Batch代入模型进行计算——注意这个过程非常重要然后和真实结果比较获得函数损失量。在神经网络的训练中目前要通过反向传播算法做梯度运算获得能让模型的参数往损失函数最小化的方向走的值模型的参数要依据这个极值的结果进行更新。接着再重新到训练数据中随机抽取另一小撮的数据集重复这一轮迭代直到损失函数收敛。 反向传播算法是神经网络模型的基础没有这个算法就无法高效地实现梯度下降算法中梯度值的计算。 这种训练时仅从训练集里随机抽取一小撮数据集的做法与一次性使用整个训练集的做法相比有两个好处 第一模型训练所需的内存将比较恒定。因为不必将大量的数据一次性加载到内存里因此模型能不受计算机的内存所限可以使用尽可能大的训练集数据训练过程的可拓展性比较高 第二在机器学习领域其实已经证明这种小批量数据集的方法会给模型带来一定程度的随机波动而这种波动有利于模型性能的提升。 3. 通过验证集调整模型的超参 所谓超参就是“超级参数”它是模型中一个(或一些)需要人为设定的外部参数而且是无法通过训练集进行训练的只能进行手动调整。比如我们要在进行模型训练之前先给模型的某部分乘上某一个固定的常数/向量这个常数/向量无法训练它就是“超参”。通常只能一边调整一边在验证集上评估结果最后留下一个“看起来”能够最准确贴近验证结果的参数。这是一个很繁琐的过程需要多次尝试直至模型性能不再出现改善为止。 调超参一直都是机器学习模型训练的一个难点。 当你完成最后的调参之后用另一个独立数据——也就是这里的测试集综合评估这个最佳模型的性能主要是看看是否存在过拟合或者功效不足的情况没问题之后就可以用到项目中了。 以上就是训练一个神经网络模型的主要过程。再次强调一次一共是三步分别是分割数据、使用训练集计算模型参数、通过验证集调整模型超参并用测试数据综合评估最终模型的性能。 了解了以上背景内容之后我们就可以转入深度学习的内容了。 对于很多比较简单的问题而言一个单层的神经网络通常是可以满足要求的。但对于维度更多、更复杂的生物学问题来说单层是不够用的只能通过更复杂的模型才能处理这类数据。图3是一个多层神经网络模型的示意图。 图3. 一个多层神经网络示意图 这个网络有两层而且你可以看到中间一层不与输出层相连接对于输出来说是一个不可见的“层”所以也被称为隐藏层它的作用是将上一层的输入数据做转换将其映射到一个可以对特征值进行线性分离的空间然后通过激活函数进行非线性化再给到后一层作为输入。这个模型是深度神经网络的雏形当你的模型有许多个中间隐藏层2时这个模型就称之为深度神经网络模型。 深度神经网络使用隐藏层来自动学习非线性特征的各类变换。模型里的每一个隐藏层都可以是多个线性模型叠加一个激活函数所构成激活函数非常重要它起到了将线性模型非线性化的作用否则你的模型就无法通过非线性的形式描述真实世界的生物学问题因为这些问题本身通常就是线性模型无法解答的。目前深度学习中用得最多的激活函数是ReLU这是一个线性整流函数负数赋值为0正数不变 图4. ReLU 深度学习模型的训练也和上面所术的过程一致。区别就在于它涉及的参数多需要更多的训练数据和更长的时间才能得到理想的结果。对于我们来说深度神经网络的构建和训练可以用专门的深度学习框架来实现比如TensorFlow、PyTorch和Keras等。 全连接网络层 在说完上面的关于模型训练的内容之后接下来要说的是第一部分中的第一个概念全连接网络层Fully connected layer。 什么第一部分才刚开始吗..... 全连接网络层一般是深度学习模型的倒数第二、第三层它在网络中主要起分类器的作用本质上就是将前面各层训练得到的特征空间线性地变换到另一个特征空间即结果空间——其实就是结果集中。结果空间的每一个维度都会受到源空间所有维度的影响数据被利用得很充分所以可以很准确地将获得分类结果。这么说比较抽象的话可以通俗理解为经过全连接层的计算之后目标预测结果就是前面各层结果的加权和了。 以全连接层结成的神经网络也叫全连接神经网络全连接神经网络在基因组学里也都有所应用比如一开始我提到的剪接位点预测还有致病突变预测、基因表达预测特定基因区域内顺式调控元件的预测等但全连接层神经网络运算量很大。 深度卷积神经网络 接下来我们用深度卷积神经网络也就是CNN作为例子介绍序列模式特征的发现过程。如图5 所示这个模型要通过神经网络预测TAL1-GATA1转录因子复合物的结合亲和力。 图5. 基于CNN的序列模式特征检测 图中从左到右第一层分别以 GATA1 和 TAL1 转录因子的位置为权重滤波器滑动扫描整个 DNA 序列然后卷积计算每一个扫描框中的结果形成一个权重矩阵b-c再使用 ReLU 激活函数——这个激活函数会将负值重新赋为0正值则保持不变进一步做运算。 然后再用最大池化操作图中的Max pooling获取位置轴上各个连续窗口内的最大加权结果再传入下一个卷积层进行新一轮的运算和特征训练过程与第一个卷积层类似最后再经过一个全连接层得到最终想要的预测结果。 目前利用 CNN 对序列特征预测转录因子结合位点的方法有三个分别是DeepBind、DeepSEA和Basset。而且这是目前 CNN 在基因组序列特征预测方面做的比较成功的例子。 循环卷积神经网络 介绍完CNN之后我们开始探讨循环卷积神经网络——简称RNN。鉴于它的特征目前它主要在基因组远端调控预测方面有所运用。 这是因为 RNN 相比于 CNN它更加适合用于处理序列化的数据包括时间序列数据、语言数据、文字翻译以及 DNA 序列数据而且 RNN 对每一段序列单元都使用相同的操作参数之间由一定的方式进行共享。 图6. RNN 鉴于 RNN 模型的这些特点它既可以有效地在DNA序列的任意位置上进行开放读码框的预测也可以用来识别某类特定的输入序列比如起始密码子预测、终止密码子预测等。 相比于CNNRNN模型的主要优势在于RNN模型可以很自然地处理长度变化很大的DNA序列比如mRNA序列就很适合通过RNN模型来进行处理和分析。如果CNN要达到类似的效果需要作出很多繁琐的模型调整。 不过由于 RNN 只能对序列进行从前到后的顺序操作因此也不太容易进行并行化处理这就导致它的速度要比 CNN 模型慢很多。 在基因组学的应用方面RNN 主要是用在单细胞 DNA 甲基化预测、RNA binding protein预测和表观遗传学中DNA长序列可及性的预测也就是长序列调控的预测。如果你对这一块感兴趣可以试试 deepTarget/deepMiRGene它们就是干这些事情的。 此外最近有一项研究发现RNN模型还可用在测序数据的碱基识别即Base-calling。这在三代测序数据的Base-calling中有应用DeepNano 就是通过构造合适的 RNN 模型对 Oxford Nanopore 测序仪所产出的长读长测序序列进行碱基识别的方法。 图卷积神经网络 图卷积神经网络模型GCN图6(d)在基因组学中涉及的应用还很少。它比较合适的应用场景是蛋白质之间互作用的网络或者基因与基因之间的调控网络上。因为这两个方面的网络在逻辑上都将是以图结构的形式呈现。图卷积神经网络通过图中代表个体特征的节点和节点与节点之间的连接性来实行机器学习任务。 虽然应用还比较少但GCN实际上提供了一种分析图结构数据的新方法值得在基因组学中进行更多的尝试和应用比如可以尝试利用它来解决肿瘤亚型的分类等。 第二部分 第二部分要介绍的内容是“多任务学习和多模态学习”。 之所以涉及到这个方面是因为基因数据实际上并非只有 DNA 序列这一类遗传方面的数据还涉及到转录组、表观组修饰、蛋白组等多组学数据而且数据在彼此之间存在着一定的内在关系。如何处理和整合这些多组学数据就涉及到“多任务和多模态学习”这个问题了。 在多模态学习模型的构成中它有一个总损失函数它的值是各个模态数据损失函数之和或者加权和这取决于各个模态之间损失函数的结果是否差异巨大。 下面图7.a-c 是一个多任务和多模态学习的示意图。这类模型的训练往往比较困难因为需要同时优化学习网络中多个不同的损失函数并且往往还得做出合适的取舍每一个取舍都要有合理的内在理由。而且如果不同的类型的数据之间出现了较为严重的权重失衡的话——比如出现”一超无强”的情况那么最终的模型可能仅能代表一小撮数据的结果这就会让模型出现严重偏差。 图7. 多任务与多模态学习模型 基因组学领域已经成功应用多任务学习和多模态学习的一个场景是对多种不同的分子表型的预测比如前面提到的转录因子结合位点、组蛋白标记、DNA可及性分析和不同组织中的基因表达等这一类与转录组学和表观基因组学相关的多组学研究。 第三部分 这一部分我们来说说迁移学习。 迁移学习与上述内容都不同它是一种解决训练数据稀缺问题的机器学习方法。因为数据稀缺或者数据缺失的情况下从头训练整个模型可能是不可行的。那么一个取而代之的方法就是使用相似结构的任务以及由它训练得到的模型的大多数参数来初始化我们的目标模型。 你可以理解为这是一种将先验知识整合到新模型中的机器学习方法它可以在一定程度上解决训练数据不足的问题。比如 图8 这个例子你可以看到在这个例子中源模型的数据很充足且源模型中第一个子模型的结构和预测结果的形式都跟目标模型相似都是椭圆那么这时我们就可以将源模型里这个子模型的相关参数迁移到下方的目标模型里对目标模型进行初始化接着再利用有限的训练数据对目标模型进行更新就可以了。 图8. 迁移学习 在基因组学中远程调控的预测模型就应用到了迁移学习。不过迁移学习在组学方面的应用还缺少深入的研究比如目前依然不清楚应该如何选择合适的源模型、以及源模型中有哪些参数适合共享到目标模型中等。 深度学习模型的可解释性问题 这个问题对于深度学习来说是天生的但它关系着深度学习是否适合被充分应用到生命健康领域。 我们知道深度学习模型的一个问题是黑盒子效应——我们无法得知模型的具体训练细节以及中间特征参数的变化。这对于基因组学研究来说是不利的这是因为组学研究最后的服务对象是我们人类自身的健康特别是重大的健康问题没有人真的愿意将重大的健康问题交给一个没人理解的黑盒子处理所以我们还是有必要对深度学习模型的可解释性进行一定的研究。 但遗憾的是目前对深度学习模型的黑盒子效应似乎尚未有特别有效的解密方法。目前主要是通过不断给出示例数据探查输入和输出结果之间的关系来推测和评估模型所用到的特征和权重给出特征重要性评分Feature important score可用的方法包括归因分数、相关性系数或权重共享系数等。 不过在深度学习领域最近有一个称为DCell的模型它提出了一种称为“可见神经网络”的技术通过它可以检查神经网络的训练情况进而再改善神级网络的可解释性。 第四部分 最后这部分讨论非监督学习在基因组学方面应用的问题这里主要介绍自动编码机Autoencoder, AE和生成对抗网络generative adversarial networksGANs这两类非监督学习方法其中生成对抗网络在基因组学的首次应用是在单细胞基因组研究中。 非监督学习与有监督学习不同它的训练数据并不需要标记。模型的目的是通过学习数据集中有用的特征和属性来表征整个数据集的结构。最典型、最被熟知的非监督学习方法就是k-means聚类和降维算法如PCA、tSNE。 神经网络也有类似的方法比如自动编码机AE就是一种能够将数据嵌入到一个含有隐藏瓶颈层的低维空间中并对原始数据进行重建的方法如图9所示。 图9. 自动编码机AE) 这个方法很特别而且非常有用的一点是它能够对原始数据进行有效的“降噪”这是因为网络中间有一个维度较低的瓶颈层存在它会迫使网络在学习的过程中尽可能提取更有用的特征那些不重要的特征变化会被自动遗漏。而且在该瓶颈层中的数据已经实现了降维这个正好可以与PCA相呼应。 另外自动编码机适合用于缺失数据的填补特别是可以用来填补基因芯片数据的缺失值和处理RNA-seq中基因表达数据中的异常值处理。 另一个非监督神经网络是生成模型。生成模型不同于前面提到的方法它的目的是学习数据的生成过程。代表性的例子就是生成对抗网络GANs和可变自动编码器(VAEs)。其中VAEs方法可以生成新的随机样本可以用在单细胞和RNA-seq数据中用来协助寻找统计意义的结果。 GANs是另一种生成模型它包含一个鉴别器和一个生成器网络。这两个网络会进行共同训练生成器用来生成真实的数据点而鉴别器则用于区分样本是真实的或是由生成器所生成图9(c)也是对该过程的一个描述。 不过目前GANs在基因组学中的应用非常有限目前只看到在设计和蛋白质相关的DNA探针方面有所应用。 小结 关于目前深度学习在基因组学方面的应用和研究情况就介绍到这里了。在未来深度学习肯定是会深刻影响这个领域的具体来说主要有三个方面 第一协助对非编码区变异的功能进行预测这是目前传统方法做得比较差的一个方面 第二深度学习是一种完全由数据驱动的方法它会进一步革新当前的生物信息学工具我可以将它称为新生信这个也是目前最热的除了文章中所提到的新算法之外变异检测算法DeepVariants和Clair也属于这一方面 第三高效揭示多组学中高维数据的更多结构。 除此之外对于未来还有一个非常重要的领域那就是因果推断。不管是传统的机器学习方法或是现在的深度学习方法都很难用于预测数据之间的因果联系而因果关系对于生命科学研究来说十分重要目前虽有过一些尝试——比如孟德尔随机但其实都比较初步。总的来说这是一个很值得我们去进一步探索的地方可以从零开始而这也是我们的机会 最后还有一句话不要迷信模型。模型是解决问题的工具用好工具是我们的追求但问题的解决应以人为本。 参考文献 Deep learning- new computational modelling techniques for genomics What I cannot create, I do not understand.
- Richard P.Feynman(理查德.菲利普斯.费曼)