关于网站策划的文章,网站建设的公司如何寻找客户,网站网页设计代码,wordpress心情评论插件2024 10月的arxiv
1 主要idea
针对多模态大模型#xff08;如LLaVA#xff09;#xff0c;提出了一系列高效的剪枝策略 在显著降低计算开销#xff08;多达 88%#xff09;的同时#xff0c;保持了模型在多模态任务中的性能表现
2 目前的问题
与文本 token 相比…2024 10月的arxiv
1 主要idea
针对多模态大模型如LLaVA提出了一系列高效的剪枝策略 在显著降低计算开销多达 88%的同时保持了模型在多模态任务中的性能表现
2 目前的问题
与文本 token 相比视觉 token 的数量往往更为庞大 在 LLaVA 模型中处理一张图像涉及超过 500 个视觉 token而对应的文本 token 只有数十个 ——计算效率低下——视觉数据固有的空间稀疏性导致许多计算是冗余的 大部分视觉 token 之间的交互权重很低仅有邻近 token 之间的交互是关键 在深层模型中视觉 token 对文本生成的影响逐渐减弱目前的优化策略通常以牺牲模型性能为代价 ——如何在保持性能的同时显著降低计算复杂度仍是一个急需解决的
3 论文方法 4 实验 效果没怎么降FLOP降多了