当前位置: 首页 > news >正文

建立简单网站上饶做网站的公司

建立简单网站,上饶做网站的公司,卖机械设备什么网站做推广好,wordpress 设置404页面作者#xff1a; Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu 单位#xff1a;中国科学院空天信息创新研究院网络信息系统技术重点实验室#xff0c;中国科学院大学电子电气与通信工程学院 原文链接#xff1a; AeroVerse: UAV-Agent Benchmark Suite fo… 作者 Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu 单位中国科学院空天信息创新研究院网络信息系统技术重点实验室中国科学院大学电子电气与通信工程学院 原文链接 AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models (https://arxiv.org/pdf/2408.15511) 主要贡献 构建了首个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k 该数据集利用无人机从第一人称视角拍摄的高分辨率城市图像涵盖了广泛的城市场景。 数据集包含10,000张图像用于增强无人机智能体在理解和描述真实城市环境中的能力。 开发了虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k 该数据集包括500,000张从四个虚拟城市景观深圳、学校、住宅区和上海中采集的第一人称视角图像。 每张图像都配有详细的文本描述和无人机的姿态信息用于虚拟环境中的预训练以提高无人机在实际环境中的适应能力。 定义了五个航空航天具身下游任务并构建了相应的指令数据集 这些任务包括场景感知、空间推理、导航探索、任务规划和运动决策。 为了支持这些任务的微调论文构建了五个指令数据集SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent-Nav3k、SkyAgent-Plan3k和SkyAgent-Act3k。 开发了基于GPT-4的自动化评估方法SkyAgent-Eval 该方法利用GPT-4的多方面能力通过设计不同的提示模板对下游任务进行定制化评估。 评估方法包括LLM-Judge-Scene、LLM-Judge-ReasonNav和LLM-Judge-Plan分别针对场景感知、空间推理与导航探索以及路径规划任务。 研究背景 研究问题 现有的具身世界模型主要关注室内场景中的地面智能体而对UAV智能体的研究尚未充分探索。 论文主要解决的问题是如何增强无人航空飞行器UAV和其他航天平台的自主感知、认知和行动能力从而实现与人类和环境之间的以自我为中心的活动交互。 研究难点 该问题的研究难点包括 UAV具身任务的定义不明确现有的具身任务定义主要集中在室内外导航、命令跟随和具身问答等方面而UAV智能体需要在四维时空中进行感知和行动涉及环境意识、认知、规划和决策等多个方面。 UAV 3D数据获取困难获取室外3D数据需要专业设备和技能成本较高。 UAV具身数据收集成本高UAV在大范围内操作需要广泛的训练数据来标注。 相关工作 该问题的研究相关工作包括 3D视觉语言数据集如ScanQA、ScanRefer和ScanNet等这些数据集主要关注室内环境。 具身智能数据集如Abhishek等人提出的EQA数据集、Mohit等人提出的ALFRED数据集和Anderson等人提出的R2R数据集这些数据集主要关注室内机器人。 本文首次为无人机智能体明确定义了五种具身下游任务并构建了相应的指令数据集以支持无人机在复杂城市环境中的导航和任务执行。 任务描述 论文介绍了无人机智能体在航空航天领域中实现闭环训练的五个下游任务并对每个任务的概念进行了清晰的定义对输入输出格式进行标准化 场景感知无人机智能体根据其在三维空间中的位置从四个方向前、后、左、右描述周围的环境元素增强认知过程和行动能力。 空间推理基于无人机收集的数据智能体理解3D空间场景图中的对象关系、意图、反事实等维度进行推理。 导航探索无人机智能体根据长距离多阶段导航指令自主探索大都市环境并回答与物体特征相关的问题。 任务规划智能体整合3D环境生成详细的步骤路径规划识别每个阶段的显著地标提高路径规划的准确性。 运动决策无人机智能体实时操作动态调整策略直至到达目的地实现感知、推理、规划和行动的闭环。 仿真平台 论文开发了AeroSimulator模拟平台用于模拟无人机在城市环境中的飞行场景。 模拟器的开发 使用Unreal Engine 4加载城市环境并选择AirSim来构建无人机模型从而开发出AeroSimulator。 多动作空间支持 模拟器支持无人机执行多种动作如改变位置、方向和速度以及通过加速度调整和力向量应用进行更复杂的机动。 场景选择 从UrbanScene3D数据集中选择了四个具有代表性的场景深圳、上海、学校和住宅区这些场景基于实际物理位置的3D重建。 环境多样性 模拟器能够模拟不同的光照条件和天气情况并生成视觉输出包括RGB图像、深度图和分割数据减少模拟环境与现实世界的差异。 数据采集 无人机在虚拟城市环境中飞行记录下密集采样区域的无人机姿态生成大量第一人称视角图像。 数据对齐 除了图像和文本描述外数据集还包括无人机在3D空间中的姿态以增强无人机自我中心的场景理解能力。 统计信息 CyberAgent-Ego500k数据集的统计结果显示图像描述的最大长度为865词平均长度为127词包含4,725,682句和63,539,302词以及94,823个词汇。 这在规模、文本长度、句子数和对齐的无人机姿态方面超越了大多数现有的视觉-语言数据集。 数据集 为了弥补无人机智能体在大规模训练数据上的不足促进航空航天具身模型的训练并推进航空航天具身智能研究论文开发了综合数据集套装包括两个预训练数据集和五个下游任务指令微调数据集。 AerialAgent-Ego10k 多分辨率无人机第一人称视角的城市图像数据集从UrbanBIS数据集中获取了多个实际地点的航拍照片包含来自六个实际地点的0.5TB航拍照片和15,094张图像。 使用LLaVA-1.5-13B生成高质量的环境描述并注重多样性和准确性。 CyberAgent-Ego500k 图像-文本-姿态对齐数据集包含在四个虚拟城市环境中由专业无人机飞行员操作的无人机姿态记录。 数据集通过多属性的第一人称文本描述和图像-文本-姿态对齐来增强无人机的空间推理能力。 SkyAgent-Scene3k 场景描述数据集要求标注者控制无人机在3D虚拟城市场景中导航并从四个方向描述周围环境。 数据集具有多样化的对象类型和指令以及多视角和多属性的环境描述。 SkyAgent-Reason3k 推理数据集旨在增强无人机智能体在三维城市环境中的认知推理能力。 数据集包含六种推理模式并通过专业标注者创建问题和答案对。 SkyAgent-Nav3k 导航数据集要求标注者控制无人机在城市环境中飞行特定距离记录飞行路径的文本描述并设计问答对。 数据集强调对象属性描述的精确性和基于多个连续空间推理的长距离导航路径。 SkyAgent-Plan3k 路径规划数据集要求无人机飞行员识别起点和终点并在飞行指定时间后选择一个中途点提供路线描述。 数据集注重自我中心对象的详细描述和多视角对象定位。 SkyAgent-Act3k 动作决策数据集记录无人机的运动序列和姿态要求无人机选择起点和终点并提供详细的分路描述。 数据集强调起始点和终点超出视线范围的能力以及专业的路径选择和平滑的动作序列。 实验设置 基线模型 模型选择 选择了包括LLaMA、MiniGPT4、BLIP2在内的几种主流2D视觉-语言模型。 由于开源的3D视觉-语言模型较少仅选择了3D-LLM作为3D模型的代表。 模型调整 由于现有视觉-语言模型的输入格式与定义的下游任务不匹配作者对这些模型进行了修改以适应任务需求。 例如在航空航天具身场景感知任务中2D视觉-语言模型需要从无人机的四个视角前、后、左、右获取图像并生成环境观察的输出。 调整示例 在场景感知任务中修改后的2D视觉-语言模型通过提供四个视角的图像生成环境观察的输出。 在空间推理任务中调整输入以包括观察图像和直接在无人机位置前方的问题并基于此生成空间推理答案。 在导航探索任务中输入包括无人机飞行路径上的图像和问题生成导航探索的解决方案。 在任务规划任务中输入包括多个图像描绘的飞行路径和终点图像生成路径规划的答案。 评估指标 传统指标 BLEUBLEU分数通过比较参考翻译和候选翻译之间的n-gram重叠程度来评估翻译质量。它被广泛应用于机器翻译任务的评价。 CIDErCIDEr是一种用于图像描述任务的评估指标通过计算每个句子的n-gram TF-IDF向量并使用余弦相似度来衡量候选句子与参考句子之间的语义一致性。 SPICESPICE利用基于图的语义表示来编码描述中的对象、属性和关系。它通过解析描述和参考描述为语法依赖树并使用概率上下文无关文法(PCFG)依赖解析器来进行评估。 基于GPT-4的指标 LLM-Judge-Scene用于评估场景感知任务。该指标设计了特定的提示模板分别评分描述的细节水平和每个方向响应的准确性。 LLM-Judge-ReasonNav用于评估空间推理和导航探索任务。该指标通过分析AI助手响应与正确答案之间的相关性和实用性客观识别和纠正错误并提供解释。 LLM-Judge-Plan用于评估任务规划任务。该指标关注关键动作序列与参考答案的对齐程度以及路径上建筑物的描述准确性包括顺序和方向。 结果与分析 SkyAgent-Scene3k 任务结果 使用BLEU、SPICE和LLM-JUDGE-SCENE评估模型的词汇丰富度、语义准确性和人类偏好。 Qwen-lv-7b模型在BLEU上表现最强而gpt-4o在SPICE上表现最佳。 LLM-JUDGE-SCENE结果显示gpt-4-vision-review和gpt-4o与人类偏好一致。 SkyAgent-Reason3k 任务结果 使用LLM-JUDGE-REASON评估人类偏好。 llama-adapter-v2-7B、qwen-lv-7b和gpt-4o在空间推理和问答任务中表现突出。 gpt-4o在第一人称空间推理和问答任务中表现出色。 SkyAgent-Nav3k 任务结果 使用LLM-JUDGE-NAV评估人类偏好。 gpt-4o在大多数城市场景和评估指标中排名第一表现出色。 llama-adapter-v2-7B在住宅区场景中表现出色。 SkyAgent-Plan3k 任务结果 使用LLM-JUDGE-PLAN评估人类偏好。 许多模型在该任务中表现不佳得分较低。 gpt-4o在所有城市中排名第一表现出色。 定性分析 3D-LLM在室外3D城市场景中表现出泛化能力不足输出类似于室内环境的描述。 2D视觉-语言模型在描述基于第一人称视角的城市设置时表现更好但仍有幻觉现象。 3D视觉-语言模型在短期空间推理上表现出色但在复杂城市环境中仍需改进。 讨论 场景泛化能力在校园场景中所有模型表现有所提升qwen-lv-7b和gpt-4o表现最佳。 任务泛化能力Instruct-BLIP和BLIP2在任务1中表现优异而Llama、MiniGPT和MPLUG系列在任务4中表现更好。 规模效应模型大小对性能的影响不大增加参数数量并不一定带来性能提升。 总结 论文通过开发AeroVerse基准套件解决了UAV具身世界模型的研究空白提升了UAV智能体的端到端自主感知、认知和行动能力。 构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。 首次明确了五个航天具身下游任务并构建了相应的指令数据集。 开发了基于GPT-4的自动化评估方法SkyAgent-Eval。 通过广泛的实验分析了十个主要基线的性能揭示了2D/3D视觉语言模型在UAV智能体任务中的潜力和局限性。 未来工作将扩展仿真城市范围包括纽约等地点并将场景扩展到森林、山脉等户外环境继续积累训练数据并优化下游任务以促进航天具身智能的应用。
http://www.dnsts.com.cn/news/257983.html

相关文章:

  • 聚美优品网站建设方案美工培训机构
  • 保定制作公司网站屏蔽 wordpress 插件
  • 西安东郊网站建设公司网站建设客户群体分析
  • 什么网站做护工七牛云图床
  • sql数据库查询网站模板建设银行网站注册企业
  • 网站建设安全吗小程序助手官网
  • 济南网站优化推广方案绚丽的网站欣赏
  • 网站管理公司医院网站建设的意义
  • 成都优化网站建筑行业一般在哪个网站招聘
  • 权重网站建设微信怎么建立公众号小程序
  • 聊城市东昌府区建设路小学网站秦皇岛手机网站建设
  • 免费网站服务商上海页面设计公司
  • wood怎么做网站结构图快速创建一个网页
  • 樟树市城乡规划建设局网站福州论坛网
  • 网站收录突然全部没有了网站服务器自己做
  • 怎么给网站做外链邵连虎oss可以做视频网站吗
  • 网站建设 项目文档2015做导航网站有哪些
  • 普陀区网站建设前端做网站想注册商标是哪一类
  • 注册网站时应注意什么网站下载免费软件
  • 网站制作案例效果html网页的代码大全
  • 上谷网络网站建设一个交易网站开发的成本是多少钱
  • 在线A视频网站(级做爰片)徐州关键词排名优化
  • 做网站的赚钱吗免费网站正能量入口下载
  • 询广西南宁网站运营网站设计的指导思想
  • 网站建设之家三河市住房与建设局网站
  • 西安网站建设哪家强企业网站建设报价清单
  • 网站优化大赛好的界面建筑网站
  • 晋城两学一做网站企业网站建设规划的基本原则是什么
  • 建设银行车主卡网上交罚款网站企业云平台
  • 江门官网建站公司做短租哪个网站