视频购物网站开发方案,wordpress仿站标签,wordpress在哪里修改密码,工业产品设计作品集开篇
深度学习的发展为我们创建下一代时间序列预测模型提供了强大的工具。深度人工神经网络#xff0c;作为一种完全以数据驱动的方式学习时间动态的方法#xff0c;特别适合寻找输入和输出之间复杂的非线性关系的挑战。最初#xff0c;循环神经网络及其扩展的LSTM网络被设…开篇
深度学习的发展为我们创建下一代时间序列预测模型提供了强大的工具。深度人工神经网络作为一种完全以数据驱动的方式学习时间动态的方法特别适合寻找输入和输出之间复杂的非线性关系的挑战。最初循环神经网络及其扩展的LSTM网络被设计用于处理时间序列中的顺序信息。然后卷积神经网络被用于预测时间序列因为它们在图像分析任务中的成功。
Transformer模型随后于2017年由谷歌发布(Vaswani et al. 2017)其设计目的是使用注意力机制处理序列数据以解决自然语言处理如机器翻译中的序列学习问题。本质上Transformer模型使我们能够将一个域的输入序列转换为另一个域的输出序列。例如我们可以使用Transformer模型训练机器人将英语句子翻译成法语。打个比方如果我们把时间序列的一个片段看作是一种语言的句子下面的片段看作是另一种语言的句子那么这个多步时间序列预测问题也是一个序列学习问题。因此Transformer模型也可用于解决时间序列分析中的预测问题。如Wen et al.(2022)所述Transformer模型的许多变种已成功应用于时间序列预测任务如Li et al.(2019)和Zhou et al.(2021)。随着Transformer模型架构的提出深度学习在时间序列预测的应用也越来越广泛。针对时间序列预测存在的难点越来越多的Transformer的架构被提出例如Temporal fusion transformersInformerAutoformer及Crossformer等。 Transformer模型使用了seq2seq架构其灵活性允许我们处理更复杂的序列学习问题。**利用注意力机制我们可以捕捉序列中元素之间的长期依赖关系特别是利用多头注意力会从不同方面捕捉序列中的信息。**此外除了我们应用于编码器和解码器的自注意机制外我们还使用另一种注意机制来捕捉编码器和解码器之间的相关性。由于自关注机制不按时间顺序分析它们的输入Transformer模型不太可能受到消失或爆炸梯度问题的影响。**Transformer模型的另一个优点是它们的并行化。**由于采用了多头注意机制Transformer模型中的每个头都可以捕获输入中的元素与不同标准上所有其他元素的关系。而RNN模型需要将数据按时间顺序逐一输入这使得其无法并行化。
通过理解Transformer模型的注意力机制原理和seq2seq架构我们可以将这些先进的机器学习技术应用于时间序列预测特别是多时段多元时间序列预测如下图所示。在这类任务中我们不仅需要学习时间序列中的时间关系来为动态系统的演化建模还需要学习多元数据中的空间关系来理解它们是如何相互影响的。在金融领域时间序列预测是一项常见的任务。 Transformer在金融时序预测中一般有两类应用场景
只使用Encoder做单步预测
如下所示如果我们只使用Transformer模型的编码器部分并将编码器输出直接连接到最后一层则该模型类似于传统的RNN的多对一预测但采用了自我注意机制。因此我们可以在一步预测问题中使用该模型就像我们经常使用RNN或LSTM等递归模型一样这些递归模型可以完全被编码器取代因为它允许更灵活的并行化更有效的长期记忆以及更少的消失或爆炸梯度问题。我们还可以通过修改模型最后一层的激活函数来处理不同的问题如分类问题处理回归问题。 使用全模型Encoder和Decoder做多步预测
传统的多步预测有两种方式包括迭代法和直接预测法如下图所示无论是使用迭代法还是直接法一步预测模型都难以应用于多步预测任务。由于Transformer模型中的seq2seq架构我们可以使用这些模型来处理多步预测问题。 金融时序预测存在的问题
在投资领域投资组合构建中最困难也是最重要的任务之一就是对未来收益的预测。我们还认为机器学习模型可能会给量化投资带来一些计算优势例如捕捉非线性关系和时间依赖性的能力。例如Cherief等人(2022年)使用基于树的机器学习算法来捕获非线性并检测欧元和美元信贷空间中风险因素之间的相互影响。
然而我们认为机器学习模型的成功应用需要满足许多条件数据必须干净数据量也必须足够数据中呈现的模式必须持久模型的复杂性必须适当训练的质量也必须非常好。
在实践中由于金融时间序列数据与文本或图像等其他领域的数据存在差异我们往往无法满足上述所有条件。主要的问题有
低信噪比
与图像处理或自然语言处理等传统机器学习技术用例不同金融数据中的信噪比非常低。换句话说数据中有太多的噪音因此系统不够可预测。值得指出的是如果我们考虑一个分类或回归问题噪声不仅存在于特征中也存在于标签中。例如我们可以将资产的回报看作是预期回报和噪声的总和。我们可以很容易地从市场数据中观察到已实现的回报但要知道真正的预期回报是什么是非常困难的特别是在噪声非常强的情况下。
市场是不断发展的
这就是为什么“体制转换Regime Shift”一词被用来描述金融体系中几个组成部分之间的相互联系的变化。作为一个经典的例子我们用扩张或衰退来描述经济周期的不同机制用牛市或熊市来描述金融市场周期。为了训练一个鲁棒的机器学习模型除了确保训练和验证数据集具有类似的分布外我们还必须确保未来的数据也遵循相同的分布。对于大多数金融数据这两点很难实现。因此如果我们希望有一个可以适应当前制度的机器学习模型用于训练模型的输入不应该包括太旧的数据。
金融行业的数据量较少
主要问题是所有的金融数据都是随机和非平稳的这使得很难通过跟踪金融市场的时间动态的实验产生新的数据。此外规模限制不仅来自特征而且往往来自标签因为我们更希望能够直接预测有有限观察的金融资产的回报。例如如果我们有一项金融资产的20年日回报率那么也只有大约5000个数据点分布在不同的市场Regime中。对于一些极端事件发生的次数要低得多如金融危机、新冠肺炎等。这个数量级的数据相对于其参数数量来说不足以训练一个深度学习模型特别是在多元的情况下。因此除了上一段介绍的原因外用于训练模型的数据集的容量经常受到限制。
怎么权衡模型的复杂性
当我们在量化投资中使用机器学习技术时**特别是做资产收益的分类或回归时我们往往会将所有特征输入一个复杂的深度学习模型希望捕捉金融数据中的非线性关系和复杂结构。**基于我们之前提到的机器学习在金融应用中的三个问题我们很容易犯两个错误:
1、由于金融领域的数据质量和数量不如许多其他使用机器学习技术的领域模型的准确性将不够高以确定模型是否良好和稳健。特别是我们用于机器学习的标签例如资产回报的正负符号非常不稳定、嘈杂有时是错误的。因此使用这些低质量的标签和复杂的模型将导致模型一无所获或过拟合。
2、根据我们的经验我们发现在没有足够数据进行训练的情况下使用复杂的深度学习模型会有更强调某些特征的趋势这意味着模型往往会过度拟合。在这种情况下我们将面临失去多元化的问题这是量化投资中最重要的一点之一。
**因此在我们无法显著提高模型精度的情况下使用具有非常多特征的复杂深度学习模型的样本外性能往往低于传统的基于规则的模型因为在试图捕获数据中更复杂的关系时我们同样失去了利用多样化的机会。**因此我们认为我们应该在模型复杂性和多样化之间选择一个平衡。受集成学习中弱学习器概念的启发**我们在实践中倾向于训练许多结构简单、使用较少特征的弱模型。**然后我们通过加权所有模型的预测来构建一个强大的模型而不仅仅是训练一个复杂的机器学习模型。此外我们选择了不同类型的弱模型因为我们希望它们从不同方面获得有用的信息。在训练各类弱模型时我们应尽可能少地使用参数/超参数以避免过拟合同时使用不同的超参数集以获得更稳健的结果。使用较少的特征来训练模型的另一个优势是使用相对较少的数据即使使用神经网络结构也可以很好地训练模型。
使用来自金融领域的数据构建非常复杂的机器学习模型是极其困难的因为用于训练模型的数据包含许多缺陷。**因此我们的目标是牺牲模型的复杂性以获得更好的校准和预测质量这意味着模型与财务数据拟合的难度更小样本外误差更小。**我们认为这是一个非常适合机器学习在量化投资中的应用的解决方案在量化投资中数据的质量和数量相对低于行业我们无法找到一个明确的规律来全面描述市场中的行动。模型复杂性的牺牲将通过量化投资的多样化得到补偿。因此当我们希望应用传统的机器学习模型或深度学习模型来预测资产的未来回报时我们更倾向于使用结构简单、特征较少的低复杂度模型例如Transformer模型其编码器和解码器部分的深度较小使用两到三个特征作为输入。在这种情况下人们仍然使用深度学习模型是为了利用它们处理时间序列和捕获数据中的长期记忆的能力而不是利用它们的能力来拟合具有非常深结构的复杂非线性关系。
这种方法在保持多样化原则的基础上与Vapinik-Chervonenkis理论是一致的该理论试图为学习过程提供统计解释。根据Vapnik(2000)在训练机器学习模型时我们需要在模型复杂性、校准质量和预测质量之间找到平衡。在深度学习的背景下模型复杂度是指模型中使用的参数数量如神经网络的层数、每层的节点数等。更多的参数意味着更复杂的模型可以学习到数据中更复杂的关系但在训练过程中需要更多的数据进行模型校准。校准质量是根据训练误差和模型的复杂性来衡量的为了提高校准质量数据必须相互匹配。例如过于简单的模型无法捕获数据中的所有信息线性模型无法找到训练数据集中的非线性关系而过于复杂的模型则需要大量高质量的数据进行训练这通常是不可能的。预测质量与模型的样本外误差有关复杂的模型往往容易发生过拟合从而导致较大的样本外误差。
Transfomer在量化投资中的案例
案例1趋势跟踪策略单步预测
我们首先看一个单步预测的案例。在趋势跟踪策略的情况下我们将使用Transformer模型的编码器部分使用资产的短期、中期和长期趋势来预测资产下周回报的迹象。在我们的例子中我们没有将所有这些特征放在一起来训练一个复杂的模型。我们借鉴了集成学习中弱学习器的思想我们将训练许多模型每个模型都很简单只使用一两个特征。最后我们将这些弱学习器聚集起来成为一个强学习器。
我们采用logistic回归、支持向量机和带有注意力机制的编码器等不同模型对各资产下周的超额收益进行分类预测是一个分类模型。对于每个模型我们用一两个特征训练弱学习器并将所有弱学习器的结果进行聚合以构建一个强学习器。为避免选择偏差我们用5个经典回溯窗口(1个月、2个月、3个月、6个月、12个月)计算资产的短期、中期、长期的收益率作为模型的特征集。
该回测的目的是说明在将机器学习模型应用于量化投资时模型复杂性和多样化之间权衡的重要性并测试机器学习模型是否可以在数据中捕获更多的信息。我们使用不同的模型从数据的不同方面获取信息
1、基准策略相当于一个线性分类器只训练一个特征例如12个月的动量阈值设置为0.9。
2、逻辑回归也建立一个线性分类器训练上只有一个特征但阈值是从数据中学习。
3、为了使用支持向量机中使用的RBF核径向基函数核捕捉数据中的非线性关系我们一次使用两个特征训练一个模型比如1个月和12个月的动量。当我们有5个特征时我们必须训练10个模型。
4、我们还对编码器进行了多头注意机制的训练以捕获时间序列维度的信息。用于校准模型的特征仍然是使用5个不同的回顾窗口的趋势但这些特征作为时间序列输入模型。我们将应用与之前相同的想法每个模型也使用两个特征进行训练。
对于每个模型如果我们需要为模型选择超参数**我们将选择一组超参数而不是一个并对使用不同超参数的所有模型的预测结果进行平均。**对于我们采用多头注意机制的编码器我们采用了2个编码器块的简单结构由于我们的设计是只使用少量特征作为输入来训练模型所以这个线性层不需要有太多的节点。
回溯中我们使用每周再平衡并将期货交易成本设置为2bps。我们每3个月根据过去3年的观察数据重新校准机器学习模型。由于模型训练过程中的随机效应我们在每个重校准日期在同一训练数据集上训练多个模型然后对所有模型的预测结果进行平均。以下是不同类型模型的回测结果 从上图中我们注意到所有使用机器学习模型的策略相对于基准策略的表现有很大不同。Logistic回归和SVM模型的Sharpe比率与基准策略相当具有多头注意力机制的编码器优于所有其他模型。所有策略都有相同的波动水平和最大回撤。我们的三个机器学习模型具有不同级别的模型复杂性并使用不同数量的特征进行训练。在这方面模型越复杂就越有可能捕获数据中的有用信息。我们在回测中观察到2020年之后所有机器学习模型都在挣扎在这个时期Covid-19、高通胀、加息、股票和债券之间的高度相关性以及俄罗斯-乌克兰战争使金融市场比以往任何时候都不同。
由于样本外误差较大模型越复杂我们在这一时期的表现就越差。这就是为什么编码器模型在2021年后迅速下降的原因。在这种情况下可行的选择是增加模型重新校准的频率并在训练过程中使用更近期的数据以快速适应实际的市场情况。回测结果表明使用机器学习模型可以在数据中捕获更多有用的信息来预测未来的收益因此我们可以尝试通过在模型中添加一些宏观因素来改进策略。
在下图中我们展示了基准策略和集合策略的比较**集合策略结合了3种机器学习策略和基准策略采用了风险平价方法。**集合策略的表现优于基准策略夏普比率更高最大跌幅更低。这一结果表明机器学习模型可能在量化投资方面提供一些计算优势。特别是确认了我们策略设计的关键思想即训练许多弱机器学习模型来构建强学习者以确保模型复杂性和保持多样化之间的平衡。 案例2组合优化多步预测
对于多期投资组合优化问题我们将使用全Transformer模型对波动率时间序列进行多期预测并将这些预测作为平均方差优化方法和风险预算方法等投资组合配置方法的输入。我们将比较单期最优投资组合、基于历史估计的多期最优投资组合和基于Transformer预测的多期最优投资组合之间的差异。
对于多期的组合优化目标是最大化未来h期的效用。如上述等式中 是 期的持仓权重向量 是未来h期的持仓权重。 是效用函数。假设以上优化求解的问题的解为 。但实际上在 时刻我们最看重 因为 会在 根据最新的信息进行更新。
然而多期投资组合优化模型在实践中应用较少。一个原因是准确估计多个时期甚至一个时期的回报/风险可能是相当具有挑战性的。在MVO模型的框架下我们需要估计投资组合中资产的预期收益向量µ和方差-协方差VCV矩阵Σ。此外VCV矩阵可以分为波动率向量和协方差矩阵。经验上预期收益向量被认为是MVO模型中这三种输入中最难估计的而协方差矩阵通常被认为比预期收益和波动率更稳定。因此波动率预测是定量研究中的一个重要问题。
波动性作为衡量市场风险的标准被广泛应用于整个金融行业的各种应用中。特别地所有传统的投资组合构建方法都将资产的波动性作为模型的输入无论是均值-方差优化方法还是风险平价/风险预算方法。波动率预测问题的核心可以看作是一个时间序列预测问题。在我们的研究中我们将利用Transformer模型中的注意力机制和seq2seq架构来解决这些问题。
在实验中我们并没有直接使用Transformer模型预测整个VCV矩阵而是分别预测各资产的波动率然后使用1年历史资产收益率和预测的波动率构建协方差矩阵构建VCV矩阵。其原因是Transformer模型不能保证返回正的半定矩阵而多元时间序列预测需要模型中更复杂的结构和更多的数据来训练模型。因此通常很难获得好的结果。
策略的调仓期是月度调仓但我们使用周度的数据进行波动率预测也就是需要一次预测未来四个周的波动率如下图所示这正是一个多步预测模型。 在我们的实验中我们考虑了三种不同的投资组合配置方法
1、基于MVO的每月调仓
2、基于风险平价每月调仓
3、基于多期MVO的每周调仓
下图展示了回测结果。鉴于我们的测试期恰逢Covid-19和俄乌战争造成的经济挑战期而所有三个投资组合都是只做多的投资组合它们都在2022年经历了重大损失。**然而使用Transformer模型的预测作为输入的投资组合的业绩优于使用历史估计的投资组合。**使用Transformer模型的投资组合具有更高的Sharpe比率。我们的每周再平衡多期MVO投资组合表现优于单期MVO投资组合。由于风险平价投资组合仅使用VCV矩阵的估计作为输入故我们不包括模型中对回报的估计误差这些误差通常较VCV矩阵更难估计。因此在这一经济充满挑战的时期风险平价投资组合的表现优于MVO投资组合。 最后
正如我们在本文中描述的那样在金融中应用机器学习技术时的主要困难是金融数据中的信噪比往往较弱。因此下一阶段的研究重点是金融数据的去噪和标注这是机器学习技术在金融领域成功应用的关键。特征工程对于时间序列预测也很重要我们可以通过模式分解技术将时间序列分解为趋势、季节性和噪声成分。将这些方法与深度学习模型结合使用是一个有趣的研究课题。其次正如我们在关于图神经网络的工作论文(Pacreau et al. 2021)中描述的那样注意机制也被用于图注意层(GAT)中以捕获数据维度之间的底层关系。因此尝试将Transformer模型和图神经网络(GNNs)相结合来管理多元的、时空的时间序列数据如流量预测是很有效的。一些研究人员声称这种模型组合可以提高性能并在时空时间序列预测中更好地理解数据的因果关系如Cai et al.(2020)和Xu et al.(2020)。
在金融领域多家公司之间的关联关系或供应链关系可以看作是一种空间关系。因此将Transformer和GNN结合起来对时间序列的动态和维度之间的依赖性进行建模是我们未来研究的一个重要途径。这将为一个新的研究领域打开大门以捕捉财务数据中更复杂的关系并改进量化投资策略。
如何学习AI大模型
作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 一、全套AGI大模型学习路线
AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能 二、640套AI大模型报告合集
这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。 三、AI大模型经典PDF籍
随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 四、AI大模型商业化落地方案 作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。