怎么做淘宝网站步骤,企业网站建设方案精英,手机网站模版,做网站的基本要素Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.
本文是MAMBA作者的博士毕业论文#xff0c;为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文#xff0c;由于知识水平有限#xff0c;只能尽自己所能概述记录#xff0c;并适…Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.
本文是MAMBA作者的博士毕业论文为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文由于知识水平有限只能尽自己所能概述记录并适当补充一些相关数学背景欢迎探讨与批评指正。内容多分章节更新以免凌乱等更新完毕补充目录跳转链接。
Abstract
这篇文档的摘要介绍了在机器学习领域的显著进步特别是在序列模型方面这些模型对深度学习在各种科学应用中的成功至关重要。尽管目前的方法取得了成功但它们在处理复杂的序列数据如涉及长期依赖性的数据时存在限制例如需要大量的特定任务专业化、计算效率低下等问题。为了解决这些问题论文介绍了一种使用状态空间模型的新方法。这些模型灵活、理论基础扎实、计算效率高并且在多种数据类型和应用中表现出色。它们扩展了标准深度序列模型如循环神经网络和卷积神经网络的功能。论文还开发了适用于现代硬件的新型结构化状态空间适合长序列处理和其他场景如自回归推理。此外它还提出了一种用于逐步建模连续信号的新数学框架通过这种框架可以为状态空间模型提供原理上的状态表示并改善其处理长期依赖性的能力。这种新方法为机器学习提供了有效且多功能的工具特别是在处理大规模的一般序列数据方面。
1.Introduction
1.1 Deep Sequence Models
首先定义了序列模型一张图就把CNN 、RNN、Transformer以及本文的模型概括进去。 在本文中将序列模型定义为参数化序列到序列的转换用作深度学习模型的组件。 上序列模型通常围绕简单的参数化转换构建。定义的状态空间序列模型是一维序列上的简单线性映射。 右深度序列模型是一种围绕核心序列变换例如卷积、注意力或 S4构建的神经网络架构并包含附加的位置神经网络组件例如归一化层、线性层和残差连接。盒装架构块通常被重复组成深度神经网络。输入通常具有额外的通道或特征维度并且是批量处理的。
深度学习模型用于序列数据的处理被描述为基于简单机制如递归、卷积或注意力机制的序列到序列的转换。这些基本元素被整合进标准的深度神经网络架构形成了主要的深度序列模型家族循环神经网络RNNs、卷积神经网络CNNs和Transformers。这些模型通过标准深度学习技术如梯度下降的反向传播实现了强大的参数化转换。
每种模型家族都在机器学习领域取得了巨大成功例如RNNs在机器翻译中的应用、CNNs成为首个神经音频生成模型以及Transformers在自然语言处理领域的革命性影响。然而这些模型也有其固有的权衡。例如
RNNs是一种自然的、状态驱动的序列数据模型它们在训练过程中较慢并且存在优化困难如“梯度消失问题”限制了它们处理长序列的能力。CNNs擅长处理本地上下文和编码属性如平移等变性训练速度快但在序列推理上成本较高且存在上下文长度的固有限制。Transformers凭借处理长程依赖性和并行化的能力取得了巨大成功但它们在序列长度上的处理呈二次方规模增长。神经微分方程NDEs这是一种原理性的数学模型理论上可以处理连续时间问题和长期依赖关系但效率非常低。
这些权衡指出了深度序列模型面临的三个广泛挑战
通用性能力深度学习的一个广泛目标是开发可以广泛应用于各种问题的通用构建模块。序列模型为解决许多问题提供了一个通用框架减少了专门化的需求因为它们可以应用于任何可以被视为序列的设置。计算效率实际应用深度序列模型需要计算它们定义的函数即参数化的序列到序列的映射这可能在训练和推理时面临挑战。长程依赖性实际世界的序列数据可能需要对成千上万的时间步进行推理。除了处理长输入所需的计算问题外还需要能够模拟这种长程依赖性中的复杂交互。
尽管为长程依赖性设计的解决方案但在像Long Range Arena这样的挑战性基准测试中这些解决方案仍然表现不佳。
1.2 State Space Sequence Models
本文介绍了一系列基于线性状态空间模型SSM的新的深度序列模型。将这个 SSM 定义为一个简单的序列模型它通过隐式潜在状态 x ( t ) ∈ R N x(t) \in \mathbb{R}^{N} x(t)∈RN映射一维函数或序列 u ( t ) ∈ R ↦ y ( t ) ∈ R u(t) \in \mathbb{R} \mapsto y(t) \in \mathbb{R} u(t)∈R↦y(t)∈R x ′ ( t ) A x ( t ) B u ( t ) y ( t ) C x ( t ) D u ( t ) \begin{aligned} x^{\prime}(t) \boldsymbol{A} x(t)\boldsymbol{B} u(t) \\ y(t) \boldsymbol{C} x(t)\boldsymbol{D} u(t) \end{aligned} x′(t)y(t)Ax(t)Bu(t)Cx(t)Du(t)
这些模型将一维函数或序列通过隐含的潜在状态映射到另一个序列形成了一种简单的序列模型。SSMs在控制理论、计算神经科学、信号处理等领域都是基础性的科学模型它们模拟了潜变量在状态空间中的演变并且通常定义了这些动态的概率模型。
状态空间模型与如NDEs、RNNs和CNNs等其他模型家族有紧密关联可以以多种形式表达以获得通常需要专门模型的不同能力。SSMs具有以下特性
SSMs是连续的它们本身是微分方程可以模拟连续时间模型的独特应用如模拟连续过程、处理缺失数据和适应不同的采样率。SSMs是递归的它们可以被离散化成线性递归用标准技术模拟推理时的状态驱动递归模型每个时间步骤具有恒定的内存和计算量。SSMs是卷积的它们是线性时不变系统已知可以显式表示为连续卷积。此外离散时间版本可以在训练期间使用离散卷积进行并行化从而提高训练效率。
然而SSMs的通用性也带来了一些权衡。简单的SSMs仍然面临其他挑战如速度远慢于同等大小的RNNs和CNNs以及难以记住长期依赖性例如继承了RNNs的梯度消失问题。
为了解决这些挑战引入了具有结构化状态空间S4的新算法和理论。这些算法通过在状态矩阵A上施加结构以适应高效的算法。S4模型的第一个结构使用状态矩阵的对角线参数化非常简单且足以表示几乎所有SSMs。然后通过允许低秩修正项可以表示一类特殊的SSMs。综合了多种技术思想如生成函数、线性代数变换和结构化矩阵乘法的结果开发了这些结构的算法时间复杂度和空间复杂度均为O˜(N L)这对于序列模型来说是非常紧凑的。
此外SSMs在处理长期依赖性方面表现不佳这是由于线性一阶常微分方程解决为指数函数可能导致序列长度中梯度指数级缩放。为了解决这个问题开发了一个称为HIPPO的数学框架用于在线函数逼近或记忆。HIPPO产生的方法旨在通过维护其历史的压缩来增量记忆连续函数。这些方法实际上是SSMs的特定形式尽管它们是完全独立地激发出来的。