盐城网站建设费用,做淘宝客没网站吗,个人网站icp备案,杭州十大室内设计公司2024-10-31#xff0c;由清华大学和北京大学共同创建的AndroidLab数据集#xff0c;为安卓自主代理的训练和评估提供了一个包含操作环境、行动空间和可复现基准的系统框架#xff0c;这对于推动安卓代理技术的发展具有重要意义。
数据集地址#xff1a;Android Instruct|A…2024-10-31由清华大学和北京大学共同创建的AndroidLab数据集为安卓自主代理的训练和评估提供了一个包含操作环境、行动空间和可复现基准的系统框架这对于推动安卓代理技术的发展具有重要意义。
数据集地址Android Instruct|Android自主代理数据集|移动操作系统数据集 一、研究背景
随着自主代理与现实世界互动中的重要性日益增加特别是安卓代理已成为近期频繁提及的互动方式。然而现有的安卓代理训练和评估研究缺乏对开源和闭源模型的系统性探索。 目前遇到困难和挑战
1、训练和评估移动代理面临的挑战包括缺乏系统性的探索以及对静态环境的依赖这限制了代理的实际交互能力。
2、现有的基准测试缺乏对模型行为的系统性评估限制了对模型行为的分析、洞察力的整合以及强化学习实验的有效进行。
3、缺乏统一的基准比较开源和闭源模型在不同模态下的表现限制了提升开源解决方案的机会。 数据集地址Android Instruct|Android自主代理数据集|移动操作系统数据集 二、让我们一起来看一下AndroidLab
AndroidLab是一个系统性的安卓代理框架包括操作环境、行动空间和可复现基准。
包括预定义的安卓虚拟设备和覆盖九个应用的138个任务。通过使用预加载的应用程序操作历史和离线数据的安卓虚拟设备AndroidLab确保了可复现性并消除了外部网络或时间依赖。 AndroidLab构建 :
AndroidLab的构建涉及任务推导和扩展、自动探索以及手动注释。
通过学术数据集和手动编写的指令来种子任务生成然后使用语言模型创建额外的任务并通过审核添加到数据集中。自动任务探索使用LLMs和LMMs输出完成状态初步使用手动选择来验证结果后来用奖励模型替代。手动注释包括指令检查、初步熟悉、任务执行和交叉验证。 AndroidLab的特点
1、支持大型语言模型LLMs和多模态模型LMMs在同一行动空间。
2、包括XML模式和SoM模式确保不同观察模式下的动作一致性。
3、引入ReAct和SeeAct框架允许代理逐步思考和执行任务。
4、提供了精确的任务完成和进度评估。
AndroidLab支持文本和多模态训练通过在线注释工具收集操作记录该工具使用ADB命令监控用户在手机上的交互并在每个动作之前捕获屏幕截图和页面XML。 基准测试
AndroidLab基准测试提供了一个确定性和可复现的评估平台允许用户公平且具有挑战性地比较安卓代理的能力。基准测试包括操作任务和查询任务以及基于设备和屏幕状态的任务完成评估系统。 AndroidLab 的环境和基准测试概述我们为多模态模型 LMM 设计了 SoM 模式为纯文本模型 LLMs确保相同的动作空间。我们还在这两种模式下实现了 ReAct 和 SeeAct 框架。根据环境我们提出了 AndroidLab 基准测试。 Android Instruct 数据收集概述 Android Instruct 微调前后的成功率 任务示例以及 AndroidLab 基准测试中所有应用和子类别的分布情况。我们将每项任务分解为子目标并独立评估它们。只有当所有子目标都得到正确解决时任务才被视为完成。 代理完成整个任务的所有子目标的示例。我们只介绍开始和结束步骤以及代理完成每个子目标的步骤。我们必须记录每个子目标的完成状态。如果没有这些信息我们可能无法从已完成页面的 XML 中获取详细信息这可能会导致对任务的误判。 XML 和 SoM 模式的主要结果。SR、Sub-SR、RRR 和 ROR 分别代表成功率、子目标成功率、反向冗余率和合理运营率。对于所有这些指标值越高意味着越好。-ft 表示微调模型。在每种模式下Bold 表示最佳结果。如果 SR lt; 5我们不会报告 RRR 评分 ReAct 和 SeeAct 框架对 SR 结果的影响。值得注意的是在 XMLReAct 模式下模型性能得到了显著提高 不同模式的平均生成代币。我们使用 LLaMA3 分词器进行计算。FT 表示指令调优模型。 介绍了四种模型在四种不同设备类型上的性能。其中Pixel 3a 是一款体积更小的手机Pixel 7 Pro 和 Pixel 8 Pro 的尺寸与常用手机相当Pixel Fold 类似于平板电脑。 三、让我们一起展望AndroidLab应用
比如我是一个安卓应用的测试人员我想要测试应用在不同用户操作下的表现。
日常工作状态是说起这个事吧让人头疼。我要手动一遍又一遍地去点击、滑动屏幕还要记录下每个操作后应用的反应看看有没有bug用户体验是否流畅。比如我要测试应用里的日程管理功能我得自己打开应用找到日程管理的界面然后手动添加一个事件设置时间、地点啥的费时费力脑壳疼。
但是现在有了AndroidLab数据集这事儿就简单多了。这就好比给应用来了个“智能替身”能自动帮我模拟各种用户操作从简单的点击到复杂的多步骤任务都能搞定。我只需要告诉它你要测试什么功能比如“添加一个联系人”然后它就能自动在应用里找到对应的界面输入信息然后检查结果是不是符合预期。
比如我想测试应用的响应速度AndroidLab数据集能帮我记录下每个操作的响应时间还能分析出哪些操作特别慢或者有没有卡顿的情况。
比如我想测试一个个人财务管理应用我说“记录一笔3000元的收入标记为投资收入。AndroidLab数据集帮助我训练应用来准确执行这些任务。
告诉你啊还有一个最棒的功能AndroidLab数据集还能帮我模拟不同的用户行为比如有些用户可能喜欢用语音输入有些用户可能更喜欢用键盘。我能通过这个数据集测试应用在不同用户习惯下的表现确保每个用户都能有良好的体验。 来吧让我们走进Android Instruct|Android自主代理|移动操作系统数据集