当前位置: 首页 > news >正文

做优惠网站多少钱推广普通话手抄报内容简短

做优惠网站多少钱,推广普通话手抄报内容简短,广州网站建设优化公司哪家好,网站域名注册步骤ViLT 浅析 论文链接#xff1a;ViLT 文章目录 ViLT 浅析创新点网络结构总结 创新点 本文先分析了4种不同类型的Vision-and-Language Pretraining(VLP) 其中每个矩形的高表示相对计算量大小#xff0c;VE、TE和MI分别是visual embedding、text embedding和modality interact…ViLT 浅析 论文链接ViLT 文章目录 ViLT 浅析创新点网络结构总结 创新点 本文先分析了4种不同类型的Vision-and-Language Pretraining(VLP) 其中每个矩形的高表示相对计算量大小VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。 根据上述划分原则 VSE、VSE和SCAN属于(a)类型。对图像和文本独立使用encoder图像的相对复杂文本的相对简单使用简单的点积或者浅层attention层来表示两种模态特征的相似性。CLIP属于(b)类型。每个模态单独使用重的transformer encoder使用池化后的图像特征点积计算特征相似性。ViLBERT、UNTER和Pixel-BERT属于©类型。这些方法使用更深的transformer进行模态融合但是由于VE仍然使用相对复杂的卷积网络进行特征抽取导致计算量依然很大。而作者提出的ViLT模型属于d类ViLT是首个将VE设计的如TE一样轻量的方法该方法的主要计算量都集中在模态交互上。 文本一般使用transformer的线性嵌入而以前的图像特征则采用CNN提取相关特征而作者提出了采用一个线性嵌入来提出特征 网络结构 对于图像特征的提取作者采用了类似ViT一样的Patch Embedding结构首先将图片划分为一小个的Patch并输入到线性投影层而对于文本特征的提取作者采用了对完整的单词进行mask的方式。然后对于提取到的特征分别进行位置编码添加其位置信息然后进行模态编码其中使用0表示文本特征1表示图像特征同时给文本与图像特征添加一个额外的可学习[class] embedding方便和下游任务对接最后两个特征进行拼接并输入到transformer编码器中。 ImageText Matching用来判断图像文本是否匹配Masked Language Modeling预测被掩盖的单词word patch alignment计算teextual subset和visual subset的对齐分数 总结 文章主要受到了ViT的影响设计一个Patch Embedding结构将图像特征序列化并与文本特征进行模态融合。 采用Patch Embedding结构使得整个模型训练大幅度加快同时在许多任务上保持着较高的准确率。
http://www.dnsts.com.cn/news/200289.html

相关文章:

  • ngrok做网站服务器职业培训机构资质
  • 给别人做违法网站泰安可以做网站的公司
  • 网络营销策划方案书深圳企业股权优化
  • 专业h5网站制作四川成都旅游必去景点
  • 韩国网站域名分类幻灯片模板
  • 网站建设期末实践报告千万别去代理记账公司
  • 网站是自己做还是让别人仿昆山公司网站制作
  • 网站当电话线商标注册查询怎么查询
  • 网站建设代理多少钱做外贸需要哪些网站有哪些
  • 刷评论网站推广好123上网主页免费
  • 南昌网站外包苏州制作网站的公司
  • 网站建设准备期对应网站中国导航电子地图
  • 如何寻找网站建设需求客户wordpress 后台开发
  • 招聘网站建设保定网站建设调研论文
  • 广州网站建设联系电话为企业策划一次网络营销活动
  • 沧州做网站推广网站团队人数
  • 北京网站排名优化网站页面框架设计
  • 新建网站怎么优化轻云服务器菁英版 多个网站
  • 建设部网站查询通报贡井区建设局网站?
  • 网站做引流小程序免费制作平台有赞
  • 怎么用自助网站朝阳周边网站建设
  • 昆明网站建设php方太官方网站的建设情况
  • 衡阳做淘宝网站建设爆破wordpress密码
  • 好的网站建设wordpress 创建招生网
  • 重庆市建设工程造价站wordpress国际化
  • 网站收录差南昌做网站软件
  • 潍坊网站建设价南通做百度网站的公司网站
  • 网站建设项目验收方案珠海市建设局网站
  • 广州企业网站建设开发学习建网站
  • 运营一个网站一年费用雷州手机网站建设