当前位置: 首页 > news >正文

湖北手机版建站系统哪家好网站建设实现用户登录

湖北手机版建站系统哪家好,网站建设实现用户登录,手机销售网站制作,创世通网站建设编辑 | Happy 首发 | AIWalker 链接 | https://mp.weixin.qq.com/s/l3US8Dsd0yNC19o7B1ZBgw project, paper, code Token Mixer是ViT骨干非常重要的组成成分#xff0c;它用于对不同空域位置信息进行自适应聚合#xff0c;但常规的自注意力往往存在高计算复杂度与高延迟问题。… 编辑 | Happy 首发 | AIWalker 链接 | https://mp.weixin.qq.com/s/l3US8Dsd0yNC19o7B1ZBgw project, paper, code Token Mixer是ViT骨干非常重要的组成成分它用于对不同空域位置信息进行自适应聚合但常规的自注意力往往存在高计算复杂度与高延迟问题。而直接移除Token Mixer又会导致不完备的结构先验进而导致严重的性能下降。 基于此本文基于重参数机制提出了RepIdentityFormer方案以研究无Token Mixer的架构体系。紧接着作者改进了学习架构以打破无Token Mixer架构的局限性并总结了5条指导方针。搭配上所提优化策略后本文构建了一种极致简单且具有优异性能的视觉骨干此外它还具有高推理效率优势。 实验结果表明通过合适的优化策略网络结构的归纳偏置可以被集成进简单架构体系中。本文为后续优化驱动的高效网络设计提供了新的起点和思路。 背景与动机 Token Mixer是ViT架构中用于空域信息聚合的关键模块但由于采用了自注意力机制导致其计算量与内存消耗与图像尺寸强相关(quadratic)。 基于修正版12层ViT-B架构作者进行了系统的延迟分析(可参考上图)。从仅包含Input Embedding的模块出发逐步添加不同的操作单元如LN、Attention、MLP等最终构成了无GAP与分类头的ViT-Base架构。从图示可以看到 **Token Mixer部分耗时约为1433.6ms约占整个架构耗时的46.3%**。 也就是说Token Mixer对于模型延迟有非常大的影响这无疑限制了其实际应用。不有而然升起一个疑问是否可以移除Token Mixer同时保持其高性能呢MetaFormer提出了无Token Mixer的架构但发现会导致不可忽视的性能退化。基于此本文旨在通过先进的优化策略(如知识蒸馏、结构重参数等)来挖掘极简ViT架构的潜力。 RIFormer探索之路 接下来我们将呈现出从全监督到更先进训练体系的探索之路调研并指定了不同的优化机制。RIFormer采用了与MetaFormer相同的宏观与微观模块区别仅在于RIFormer未使用Token Mixer。 无Token Mixer的视觉骨干 本文旨在移除每个基础模块中的TokenMixer以得到更高推理速度且性能保持的视觉骨干(仅在推理时移除)。 以PoolFormer-S12为起点将其中用于TokenMixer的Pooling操作替换为Identity同时采用常规监督方式进行训练可以看到RIFormer-S12会导致不可接受的性能下降(下降约2.7%)。也就是说当没有TokenMixer操作时常规的监督式训练在辅助模型学习有用信息时存在一定局限性需要更先进的训练机制。 接下来作者调查并修改了一系列训练机制以改善基线模型性能可总结如下 Knowledge distillation teacher type influence Structure Re-parameterization Module Imitation Local partial parameters from teacher. Distillation Paradigm Design 上表对比了四种不同训练配置下的性能对比默认老师模型为GFNet-H-B从中可以看到 Hard标签蒸馏可以将模型性能从72.31%提升至73.51%。这说明带TokenMixer的老师模型对于无TokenMixer的学生模型可以起到正面促进作用了 Soft标签蒸馏可以取得最佳性能学生模型性能可提升至74.05%。 总体来看监督式训练范式看起来并非无TokenMixer架构的最佳训练方式带TokenMixer的老师模型有助于引导训练但仍无法弥补因移除TokenMixer导致的性能损失即还需要引入其他策略。 Re-parameterization for Identity Mapping 这几年重参数方法在各个领域得到了广泛的应用。RIFormer推理时的TokenMixer模块可以视作LNIdentity组合。因此训练时模块续满足以下两个前提条件 per-location操作以支撑等价变换 parameteric操作以支撑额外的表达能力。 基于上述分析作者在训练阶段采用仿射变换以替代恒等变换它仅在通道维度进行缩放与移位操作见上图。在推理阶段该仿射变换参数可以合并进LN层故训练时的LN仿射变换可以等价为LNIdentity。详细分析请查看原文这里给出参数变换公式如下 从上表可以看到直接使用结构重参数机制并无显著优势。作者认为导致该现象的原因在于LN中的仿射变换是一种线性变换。因此如果仅仅通过模型的输出进行监督训练额外参数的潜力可能并未得到充分挖掘。与此同时老师与学生模型的同构设计促使我们探索一种更有效的方式进行模块间的知识迁移。 Module Imitation 有鉴于上述分析作者进一步提出了Module Imitation以充分利用老师模型TokenMixer后的有用信息。如上图所示作者希望在训练过程中仿射操作能近似模拟TokenMixer的行为。此时两者之间的MSE可以计算如下 考虑到当前层的输入为前一Block的输出特征因此作者从Block层面进行匹配此时上述损失简化为 此外在输出特征层面还进行隐状态蒸馏 仿射操作与TokenMixer输出的MSE计算如下 组合上述公式即可得到最终总损失 从上表可以看到Module Imitation对与学生模型有正向促进作用。最贱方案已取得了75.13%超越了PoolFormer-S12的75.01%。 从上表可以看到尽管GFNet-H-B并没有最佳指标但它仍是更佳的选择(无论是否使用Module Imitation)。可能这与感受野有关对于有限感受野的RIFormer而言具有更大感受野的模型会是更优的老师选型而GFNet具有全局感受野。 最后作者还尝试了直接加载老师模型中除TokenMixer之外的预训练参数到学生模型学生模型的性能可以**从75.13%提升至75.36%**。 本文实验 上表给出了RIFormer与其他方案的性能对比从中可以看到 RIFormer-M36的吞吐量可达1185同时精度高达82.6%而PoolFormer-M36的吞吐量为109精度为82.1%。 对比GFNet与RIFormerGFNet-H-B吞吐量为939精度为82.9%但需要特殊的、硬件不友好的FFT操作而RIFormer可达到与之相关的水准且无复杂的操作。 全文到此结束更多消融实验与分析请移步原文。 送书福利 本次活动准备赠送三本《ChatGPT全能应用一本通》小伙伴们可以扫描下方二维码参与抽奖抽奖活动截至2023年06月06日22:00届时请中奖的小伙伴及时联系我们(AIWalker-zhushou)喔 抽奖进行中ChatGPT全能应用一本通点击参与 本文由 mdnice 多平台发布
http://www.dnsts.com.cn/news/114799.html

相关文章:

  • 以投资思维做网站怎么推广自己的微信号
  • 开发者门户网站是什么意思wordpress windows 慢
  • 免费可以绑定域名网站空间网站开发实训要求
  • 无锡加盟网站建设广州做网页
  • 网站开发预算做宣传图片用什么网站
  • 个人网站logo图片大型门户网站 代码
  • 腾讯云服务器做网站可以吗东莞松山湖招聘
  • 嘉兴做微网站的公司网络平台推广哪家好
  • 清远建设工程招投标网站如何调整wordpress页面的顺序
  • 瑞诺国际公司团队介绍seo网站快速排名外包
  • 济南优化网站的哪家好网站设置专栏有什么好处
  • DW做的网站怎么弄兼容性商务网站是什么
  • 国家建设工程注册管理中心网站做网站用php还是python
  • 建设网站主机免费版做游戏推广一个月能拿多少钱
  • 做电商有哪些网站有哪些内容app游戏制作教程
  • 网站建设套餐有哪些内容来年做那个网站致富
  • 免费设计公司logo设计临沂网站优化
  • 网站 图片延时加载高端网站建设天软科技
  • 书店网站模板下载网站空间邮箱每年要续费吗
  • html用表格做网站网站地图怎么上传
  • 滁州网站建设联系方式郑州网约车官网
  • 网站必须做API接口吗wordpress的页面的
  • 广德县建设协会网站无锡易时代网站建设有限公司怎么样
  • 马鞍山 网站建设 有限公司wordpress 新建媒体库
  • 网站改版合同全国装修公司大概多少家
  • 河北省建设厅官方网站郑州网站建设报价表
  • 福州仓山区网站建设玉溪市住房和建设局公布网站
  • 绿化面积 建设网站.me做社区网站
  • 网站后台是怎么更新吴江建设局网站
  • 在线免费看电视剧的网站抚顺您做煮火锅网站