当前位置: 首页 > news >正文

php做手机网站不同性质网站

php做手机网站,不同性质网站,美容评测网站建设分析报告,网站 签约#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: LLaMA-VID: An Image is W… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要 在这项工作中我们提出了一种新颖的方法来解决视觉语言模型VLMs在视频和图像理解中的token生成挑战称为LLaMA-VID。 当前的VLMs虽然在图像描述和视觉问答等任务上表现出色但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧即上下文token和内容token来解决这个问题。 上下文token根据用户输入编码整体图像上下文而内容token封装了每一帧中的视觉线索。 这种双token策略显著减少了长视频的负载同时保留了关键信息。 通常LLaMA-VID使现有框架能够支持长达一小时的视频并通过额外的上下文token提高了其上限。 它已被证明在大多数基于视频或图像的基准测试中优于先前的方法。 代码可在https://github.com/dvlab-research/LLaMA-VID上找到。 LLaMA-VID 在用户指令下LLaMA-VID通过接收单张图像或视频帧作为输入并从语言模型LLM生成响应。 该过程从视觉编码器开始将输入帧转换为视觉嵌入。 然后文本解码器根据用户输入生成文本查询。在上下文注意力中文本查询从视觉嵌入中聚合与文本相关的视觉线索。 为了提高效率提供了将视觉嵌入下采样到各种token大小或单个token的选项。 接着使用线性投影仪将文本引导的上下文token和视觉丰富的内容token构建出来以表示时间 t t t 的每一帧。 最后LLM 接收用户指令和所有视觉token作为输入并给出响应。 Encoder and Decoder 提出的LLaMA-VID可以用于与单张图片或长视频进行交互。 为了清晰起见我们假设输入图像是从视频序列中捕获的如在时间 t t t首先使用基于Transformer的视觉编码器来生成视觉嵌入 X t ∈ R N × C X_t \in \mathbb{R}^{N \times C} Xt​∈RN×C。 这里 N H / p × W / p N H/p \times W/p NH/p×W/p C C C 分别表示图像块的数量和嵌入通道。 对于基于ViT的骨干网络图像块大小 p p p 通常设置为14。 同时我们以用户指令为输入并生成文本引导的查询 Q t ∈ R M × C Q_t \in \mathbb{R}^{M \times C} Qt​∈RM×C其中 M M M 表示查询的数量。 如图2所示这种跨模态交互主要发生在文本解码器中可以轻松地使用BERT或QFormer实例化。 通过这种方式文本查询 Q t Q_t Qt​ 包含与用户指令最相关的突出视觉线索。 Token Generation 通过文本查询 Q t Q_{t} Qt​ 和视觉嵌入 X t X_{t} Xt​我们可以轻松地为大型语言模型LLMs生成代表性token。 具体来说上下文注意力被设计为聚合与文本相关的视觉特征并将它们压缩成一个单一的上下文token。 如图2所示它以 Q t Q_{t} Qt​ 和 X t X_{t} Xt​ 作为输入并制定上下文相关的嵌入 E t ∈ R 1 × C E_{t} \in \mathbb{R}^{1 \times C} Et​∈R1×C 为 E t Mean ( Softmax ( Q t × X t T ) × X t ) E_{t} \text{Mean}\left(\text{Softmax}\left(Q_{t} \times X_{t}^{T}\right) \times X_{t}\right) Et​Mean(Softmax(Qt​×XtT​)×Xt​) 其中Softmax 函数和 Mean 操作分别沿着 N N N 和 M M M 维度进行。 与采用32个视觉查询作为 LLMs token的 QFormer 不同我们仅使用文本查询 Q t Q_{t} Qt​ 来聚合具有高响应分数的视觉特征以输入指令。因此与用户相关的最关键视觉线索被有效地保留在压缩嵌入中。 随后使用线性投影器将嵌入 E t E_{t} Et​ 转换为上下文token E t T ∈ R 1 × C E_{t}^{T} \in \mathbb{R}^{1 \times C} EtT​∈R1×C这与 LLMs 的语言空间对齐。 同时我们根据计算限制采用自适应池化策略对视觉嵌入进行处理以产生内容token E t V ∈ R n × C E_{t}^{V} \in \mathbb{R}^{n \times C} EtV​∈Rn×C其中 n ∈ [ 1 , N ] n \in [1, N] n∈[1,N]。 例如当输入单张图像时我们保持视觉嵌入 X t X_{t} Xt​ 的原始分辨率而对长视频进行下采样将 X t X_{t} Xt​ 下采样为1个token。这种方法显著减少了每帧 LLMs 的开销从而有效支持长达数小时的视频。 最后生成的上下文token E t T E_{t}^{T} EtT​ 和内容token E t V E_{t}^{V} EtV​ 被连接起来表示时间 t t t 的帧。连同其他时间戳的帧整个视频序列被转换为token格式的语言空间然后用于生成来自大型语言模型LLMs的响应。 Training Strategy 三阶段训练 Modality Alignment: Context Attention、Projector ❄️ Visual Encoder、Text Decoder、LLMInstruction Tuning: Other ❄️ Visual EncoderLong Video Tuning: Other ❄️ Visual Encoder 实验 主实验 消融实验 总结 我们引入了LLaMA-VID这是一种简单而有效的VLMs视频语言模型token生成方法。 LLaMA-VID背后的核心概念是用上下文token和内容token来表示图像。具体来说上下文token是根据输入指令生成的而内容token则是基于图像内容产生的。 根据预算内容token可以被压缩为一个token或以未压缩的形式表达。这使我们能够以保留细节的方式表示单个图像并且只需两个token就能高效地编码每个视频帧。 此外我们还构建了一个用于理解时长为一小时的视频的指令数据集。 我们在多个基于视频和图像的基准测试上的实验证明了我们方法的优势。 我们希望LLaMA-VID能作为一个强大的高效视觉表示基准。
http://www.dnsts.com.cn/news/6116.html

相关文章:

  • 东莞网站推广优化搜索推广网站seo在线诊断
  • 哪个网站可以做优惠券建设项目环保备案登记网站
  • 大鹏网络网站建设网站h1
  • 蛋糕网站模版深圳外贸公司网站建设公司排名
  • 邵阳汽车网站建设网站外链带nofollow是什么意思
  • 微信公众号可以做网站嘛学生做微商怎么加入
  • 三网合一网站建设报价cdn wordpress 回复
  • 嘉定南翔网站建设网页代码编辑器有哪些软件
  • 网站上线后做什么网站怎么申请微信支付接口
  • dede网站架设教程如何做酒网站
  • 网站做目录网站建设 网站开发
  • 网站自响应深圳有哪些网站公司
  • 亳州企业网站建设佛山外贸网站建设信息
  • 广州做网站(信科网络)天津网站建设的公司
  • 网站中的文字滑动怎么做怎能建设个人网站
  • 企业年金怎么查询海口百度seo
  • php mysql视频网站开发网站建设职业发展前景和现状
  • 网站在网站网站在哪里找到的上海大企业公司排名
  • 娄底网站设计网站建设 证书
  • 安康网站定制厂家国家电网电子商务平台
  • 周口规划建设局网站网站推送怎么做
  • 域名网站空间汉中网站建设公司电话
  • 网站开发合同管辖权异议建设科技网络网站的意义和目的
  • 网站建设仟金手指六六14嘉兴seo外包服务商
  • 域名出售网站主流大型网站开发语言调查
  • 做服务网站要多少钱山东大学网站设计与建设
  • 哈尔滨网站制作案例企业网站怎样做可以搜索到
  • 网站开发程序流程图如何识别网站的建站程序
  • 乐山网站建设公司wordpress收费下载资源插件
  • seo的网站建设标准下载网站