当前位置: 首页 > news >正文

做网站的优惠广告做旅游网站有前途吗

做网站的优惠广告,做旅游网站有前途吗,wordpress 访问统计,推广项目网站1 背景 在过去的几年#xff0c;随着自动驾驶技术的不断发展#xff0c;神经网络逐渐进入人们的视野。Transformer的应用也越来越广泛#xff0c;逐步走向自动驾驶技术的前沿。笔者也在博客《人工智能---什么是Transformer?》中大概介绍了Transformer的一些内容#xff1a…1 背景 在过去的几年随着自动驾驶技术的不断发展神经网络逐渐进入人们的视野。Transformer的应用也越来越广泛逐步走向自动驾驶技术的前沿。笔者也在博客《人工智能---什么是Transformer?》中大概介绍了Transformer的一些内容结构和简单应用。 本篇博客带领读者朋友们领略视觉Transformer在自动驾驶领域的应用。主要参考文献为《A Survey of Vision Transformers in Autonomous Driving: Current Trends and Future Directions》。 2 视觉Transformer 论文中主要探索了视觉Transformers模型在自动驾驶中的适应性这一转变受到Transformers在自然语言处理中所获得成功的启发。Transformers在序列图像处理等任务中超越了传统的递归神经网络RNNs在全局上下文捕获任务中优于卷积神经网络CNNs就如复杂场景识别所证明的那样它在计算机视觉中越来越受欢迎。这些能力在自动驾驶中实时、动态的视觉场景处理方面是至关重要的。 在论文中全面概述了视觉Transformers在自动驾驶中的应用着重于自注意力、多头注意力和编码器-解码器架构等基本概念。涵盖了目标检测、分割、行人检测、车道检测等领域的应用比较了它们的架构优势和局限性。 2.1 主要内容 Transformer已经彻底改变了自然语言处理NLPBERT、GPT和T5等模型在语言理解方面树立了新的标准。它们的影响超出了NLP因为计算机视觉CV采用了Transformers进行视觉数据处理。从传统的卷积神经网络CNNs和递归神经网络RNNs到CV中的变换器的这种转变意味着它们的影响力越来越大在图像识别和对象检测中的早期实现显示出有希望的结果。         在自动驾驶中Transformer正在转换一系列关键任务包括对象检测、车道检测和分割并且可以与强化学习相结合来执行复杂的路径查找。它们擅长处理空间和时间数据优于传统的细胞神经网络和复杂函数中的RNN如场景图的生成和跟踪。Transformer的自我注意机制提供了对动态驾驶环境的更全面的理解这对自动驾驶汽车的安全导航至关重要。        论文中对自动驾驶中的视觉Transformer进行了广泛的概述探讨了它的发展、分类和各种应用。从Transformer架构的基本方面开始论文深入研究了视觉Transformer在自动驾驶中的作用强调了对3D和2D感知任务的改进。 基本架构图可参考下图 输入嵌入Input Embeddings将输入序列中的词或符号转换为向量表示。位置编码Positional Encodings为输入序列中的每个位置添加位置信息以便模型能够区分不同位置的词。编码器Encoder由多个相同的层堆叠而成每一层包含两个子层多头自注意力机制和前馈神经网络。解码器Decoder也由多个相同的层堆叠而成每一层包含三个子层多头自注意力机制、编码器-解码器注意力机制和前馈神经网络。多头注意力机制Multi-Head Attention通过将注意力机制应用于多个投影版本的查询、键和值来捕捉不同表示空间中的信息。前馈神经网络Feed-Forward Neural Network两个全连接层之间的ReLU激活函数用于每个位置独立地处理输入。残差连接Residual Connections在每个子层中添加残差连接并进行层归一化Layer Normalization以避免梯度消失或爆炸问题。位置编码合并Position-wise Feed-Forward Networks在每个位置独立地应用前馈神经网络以增加模型的非线性建模能力。 2.2 自注意力机制 Transformer模型的核心是自注意机制如上图所示它评估输入序列的各个片段如何相互关联。在此过程中每个输入元素被转换成三个矢量查询q、键k和值v通常为维度d512并被编译成矩阵Q、K和V。然后注意力函数通过查询和键之间的点积计算交互得分然后进行归一化除以 以稳定训练。         这些分数通过softmax函数转换为概率指示每个元素所需的关注程度。最终输出Y计算如下 这是值向量的加权和封装了整个序列的上下文。编码器-解码器注意机制允许解码器集中在输入序列的相关段上由其当前状态和来自编码器的输出来通知。这种机制再加上向输入嵌入添加唯一位置信息的位置编码确保了对序列排序的全面理解。 2.3 多头注意力机制 多头注意力机制上图增强了分析多维度输入数据的的能力。最初输入向量被划分为三个不同的头的集合查询集Q′键集K′和值集V。每个子集的维数为d/h。 这些集合由较小的向量组成——具体地说每组h个向量当d为512时每个向量的维数为64。然后将这些向量分组以形成矩阵Q′K′和V′用于之后的注意力计算。多头注意力流程的形式化如下 其中每个头 被定义为Y。在这种情况下Q′K和V′表示由它们各自的矢量的级联形成的集合矩阵是将注意力头的单独输出组合成单个输出向量的学习权重矩阵。 2.4 其它重要机制 前馈网络FFN是Transformer模型的重要组成部分在每个单元中进行自注意计算后定位。它由具有非线性激活函数的两阶段线性运算组成通常为高斯误差线性单元GELU。这在数学上表示为 其中和是可学习参数的矩阵表示非线性函数。FFN的作用是增强处理复杂数据模式的能力其中间层通常容纳约2048个单元。 跳过连接是Transformer模型每一层的组成部分增强了信息流并解决了消失梯度问题。 这些连接将输入直接添加到子层的输出中 其中X是输入是输出。跳过连接结合层归一化确保稳定的学习。一些变量采用层前归一化来进行优化并在每个子层之前使用归一化。 先了解一下什么是logitslogits表示未归一化的概率即各个特征的加权之和。logits经过sigmoid或softmax函数变为归一化的概率值。 Transformers中的输出层对于将矢量序列转换为可解释的输出至关重要。它包括将向量线性映射到与词汇表大小匹配的logits空间然后是将logits转换为概率分布的softmax函数。这一层是将处理后的数据转换为最终的、可理解的结果的关键在各种数据处理任务中至关重要。         自动驾驶中的Transformer具有高级特征提取器的功能与细胞神经网络不同的是它集成了更大视野中的信息以实现全局场景理解。它们并行处理数据的能力提供了显著的计算效率这对自动驾驶汽车的实时处理至关重要。全局视野和效率使Transformer极具优势用于自动驾驶技术增强系统功能。 3 视觉Transformer的应用 在NLP自然语言处理中基本都是在vanilla Transformer概念的基础上进行研究本节主要说明视觉Transformer的动态世界及其在自动驾驶中的影响力。视觉Transformer已经发生了重大变化展示了其在车辆技术中的多功能性和有效性。接下来的部分将详细介绍如何在自动驾驶的各个维度上使用视觉Transformer。首先探索它们在3D任务中的使用包括物体检测、跟踪和3D分割等基本功能这些功能是环境感知的基础。然后过渡到2D任务突出了它们在车道检测、复杂分割和高清晰度地图创建方面的能力——所有这些都对解释二维空间数据至关重要。         最后论文深入研究了视觉Transformer的其他关键作用如轨迹和行为预测及其在端到端自动驾驶系统中的集成。通过视觉Transformer在自动驾驶中的应用不仅展示了它们的适应性还强调了它们在增强自动驾驶汽车能力方面日益重要的影响力。 3.1 视觉Transformer的崛起 下图带来了自动驾驶中图像处理的范式转变用自注意层取代了传统的卷积层。这种变革性的方法将图像分割成不同的补丁以使用由自注意层和前馈层组成的Transformer编码器进行分析。这使得能够对重要的图像片段进行集中分析从而大大提高驾驶场景中的感知能力。         对于较大的图像ViT采用了一种混合模型结合了卷积层和自注意层。这种创新策略对于有效处理复杂的视觉数据至关重要这是自动驾驶汽车复杂决策的关键要求。 3.2 3D感知任务 视觉Transformer在3D物体检测方面带来了重大创新PETR、CrossDTR、BEVFormer和UVTR等模型处于领先地位。PETR特别使用位置嵌入变换来增强具有3D坐标信息的图像特征从而提供更详细的空间理解。CrossDTR集成了DETR3D和PETR的优势创建了一个统一的检测框架该框架由跨视图分析和深度指导提供信息。BEV Former利用时空视觉Transformer架构通过无缝集成空间和时间数据实现统一的BEV表示。另一方面UVTR专门从事深度推断利用跨模态相互作用形成不同的体素空间从而实现对精确的3D对象检测至关重要的广泛的多模态分析。         随着视觉Transformer的集成自动驾驶中的3D分割领域有了显著的改进。TPVFormer、VoxFormer等和SurroundOcc是值得注意的例子。TPVFormer通过将体积转换为BEV平面来减少计算负载从而保持语义占用预测的高精度。VoxFormer使用2D图像创建3D体素查询建议通过可变形的交叉注意力查询增强分割。SurroundOcc利用一种独特的方法从不同视图和比例的2D图像中提取3D BEV特征熟练地合并这些特征以绘制出密集占用的空间。 视觉Transformer模型为自动驾驶汽车的3D对象跟踪带来了变革。像MOTR和MUTR3D这样的模型扩展了传统跟踪方法的能力。MOTR以DETR模型为基础引入了一种“跟踪查询”机制用于对视频序列的时间变化进行建模避免了对传统启发式方法的依赖。MUTR3D引入了一种创新的方法允许同时进行检测和跟踪。它利用不同相机和帧之间的关联来理解随着时间的推移物体的三维状态和外观从而大大提高了自动驾驶系统中的跟踪精度和效率。 3.3 2D感知任务 在自动驾驶中与2D感知相关的任务包括检测车道、分割各种元素和创建高清地图等关键功能。这些任务的重点是处理和理解二维空间数据这是自动驾驶汽车技术的一个关键方面。与处理深度和体积的3D任务不同2D任务需要对平面和平面元素进行精确解释这对自动驾驶汽车的精确导航和安全至关重要。         车道检测是有效利用Transformer模型的主要领域可分为两组。第一组包括BEVSegFormer等模型该模型使用交叉注意力机制进行多视图2D图像特征提取并使用基于CNN的语义分割进行准确的车道标记检测。另一个例子PersFormer将用于2D车道检测的细胞神经网络与用于增强纯电动汽车特征的变压器相结合。第二组以LSTR和CurveFormer等模型为特色专注于从2D图像中直接生成道路结构。这些模型使用Transformer查询来细化道路标线并实现曲线查询以有效生成车道线展示了Transformer在车道检测任务中的多功能性和准确性。         除了车道检测Transformer模型越来越多地应用于自动驾驶中的分割任务。TIiM以其序列到序列模型举例说明了这一应用该模型有效地将图像和视频转换为开销BEV图将图像中的垂直扫描线链接到图中的相应射线以实现数据高效和空间感知处理。Panoptic SegFormer提供了一种包罗万象的全景分割方法集成了语义和实例分割。利用监督掩码解码器和查询解耦策略提高了分割效率。该模型展示了Transformer架构在处理复杂分割任务方面的灵活性。         在高清晰度地图生成领域STSU、VectorMapNet和MapTR等Transformer架构正在带来重大进步。STSU将车道视为有向图重点学习Bezier控制点和图连接将前视图摄像机图像转换为详细的道路结构。另一方面VectorMapNet在高精度地图的端到端矢量化方面处于领先地位利用稀疏折线基元对几何形状进行建模。MapTR为矢量化地图生成提供了一个在线框架将地图元素视为点集并采用分层查询嵌入方案。这些模型强调了在将多视图特征合并为有凝聚力的汽车视角方面的进展这对于创建准确详细的自动驾驶地图至关重要。 3.4 预测、规划和决策任务 Transformer在自动驾驶中越来越重要尤其是在预测、规划和决策方面。这一进展标志着向端到端的深度神经网络模型的重大转变该模型将整个自动驾驶管道包括感知、规划和控制集成到一个统一的系统中。这种整体方法反映了传统模式的实质性演变表明朝着更全面和自动驾驶汽车技术的集成解决方案。         在轨迹和行为预测中基于Transformer的模型如VectorNet、TNT、DenseTNT、mmTransformer和AgentFormer已经解决了标准CNN模型的局限性特别是在远程交互建模和特征提取方面。VectorNet通过以下方式增强了对空间关系的描述采用层次图神经网络用于高清晰度地图和agent轨迹表示。TNT和DenseTNT改进了轨迹预测DenseTent引入了无锚预测功能。mmTransformer利用堆叠架构进行简化的多模式运动预测。AgentFormer允许直接的代理间状态随时间的影响保存关键的时间和交互信息。WayFormer通过其创新的融合策略进一步解决了静态和动态数据处理的复杂性提高了数据处理的效率和质量。         自动驾驶的端到端模式有了显著的发展特别是在规划和决策方面。TransFuser通过使用多个Transformer模块进行全面的数据处理和融合举例说明了这一演变。NEAT引入了一种新的BEV坐标映射函数将2D图像特征压缩为流线型表示。在此基础上InterFuser提出了一种用于多模式传感器数据融合的统一架构增强了安全性和决策准确性。MMFN扩展了数据类型的范围包括高清地图和雷达探索了多种融合技术。STP3和UniAD进一步为该领域做出了贡献STP3专注于时间数据集成和UniAD重组任务以实现更有效的规划。这些模型共同标志着向集成、高效和更安全的自动驾驶系统迈出了重要一步展示了Transformer技术在该领域的变革性影响。 4 面临的挑战 数据效率 视觉Transformer通常需要大量数据进行训练。如何通过数据增强、迁移学习等技术提高数据效率。 实时性 自动驾驶对实时性要求极高。优化模型结构、减少计算量等方法来提高处理速度。 鲁棒性 自动驾驶系统需要应对各种复杂环境和天气条件。通过增强模型的泛化能力来提高鲁棒性。 5 总结 本文对自动驾驶中的Transformer模型特别是视觉Transformer进行了比较全面的说明展示了它们的意义超越了传统的卷积神经网络CNNs和递归神经网络RNNs。探索了Transformer在自然语言处理和计算机视觉方面的基础架构、基于注意力的处理优势以及它们在各种自动驾驶任务中的卓越性能包括3D对象检测、2D车道检测和高级场景分析。 此外视觉Transformer凭借其细致入微的数据处理能力有望在车载技术方面取得令人兴奋的进步。
http://www.dnsts.com.cn/news/82167.html

相关文章:

  • 厂房装修东莞网站建设电话营销系统
  • 深圳市网站首页网站建设平台价格
  • 手机套 东莞网站建设军事新闻最新消息军事新闻
  • 风景区介绍网站建设市场分析wordpress 优化加速
  • 用电脑做兼职的网站比较好如何入侵网站服务器
  • 适配移动网站旅游区网站建设
  • 河南省建设厅官方网站wordpress 即时
  • 如何建设自己的淘宝客网站注册外贸网站有哪些问题
  • 网站全屏弹出窗口高端的食品行业网站开发
  • 西安企业建站系统模板常用的网络编程技术
  • 儿童教育网站源码WordPress虚拟商城插件
  • 上海商地网站建设公司手机网站开发学习
  • 能通过淘宝网站做淘宝客吗网站建设引言
  • 杨凌做网站的公司阜阳网站开发
  • 网站改版 收录网站规划要点
  • 网站推广专家十年乐云seo购物网站的设计
  • 网站建设新手教程视频WordPress报价表
  • iis 网站绑定域名注册资金多少有什么利弊
  • 无锡网站建设的公司网店美工具体要求
  • 阿里云上怎么做网页网站贵州网站建设服务平台
  • 五屏网站建设如何建设商城网站
  • 聚化网网站唐山移动互联网开发
  • 南通建设厅网站做面包国外网站
  • 如何做网站截流优化公司股权结构
  • 网站论文首页布局技巧深圳注册公司需要什么资料
  • 俄语网站建设公司wordpress函数大全
  • 做网站用ui好还是psapp和小程序的区别
  • 静态网页毕业设计论文富阳网站优化
  • 网站标题 关键字怎么设置代码网站中的搜索框图标怎么做的
  • 摄影师作品网站有哪些去成都旅游攻略及费用