企业建设网站的目的( ),ui特效网站,直播网站如何做,平台优化作者#xff1a;吴宁川 AI#xff08;人工智能#xff09;工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度#xff0c;着眼于在企业生产环境中规模化落地AI应用的工程化举措#xff1b;而AI工业化则从AI供应商的角度#xff0c;着眼于以规模化方式…作者吴宁川 AI人工智能工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度着眼于在企业生产环境中规模化落地AI应用的工程化举措而AI工业化则从AI供应商的角度着眼于以规模化方式为企业用户提供AI技术、方案和服务从而在企业生产环境中能够规模化落地AI应用。AI工业化和AI工程化相当于一个硬币的两面一面是AI技术供给和供应链的规模化一面是AI技术使用和落地的规模化。
AI工程化已经连续两年入选Gartner的2021年及2022年重要战略科技趋势报告。在2021年Gartner指出只有53%的项目能够从AI原型转化到生产环境AI项目的扩展难度很大。而在2022年报告中Gartner预测到2025年10%建立了AI工程化最佳实践的企业将比余下90%的企业实现至少高三倍的收益。AI工程化不足之处AI工业化补足。作为AI模型生命周期高质量数据服务供应商澳鹏中国高级产研总监张童皓指出数据优化为AI推理带来的效果提升要远比代码优化的效果强很多企业到了建立AI数据供应链的时机。
AI工业化与AI工程化都包括了DataOps、ModelOps和DevOps三大实践统称为AIOps。其中ModelOps和DevOps已经有众多成熟的自动化工具与平台以及相应的从业人员而DataOps正处于快速上升期AI数据标注是DataOps中的一个关键领域。2022年1月澳鹏中国推出了MatrixGo高精度AI数据标注平台企业版专门面向企业本地部署环境帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。
MatrixGo的推出标志着AI工业化迎来了一个全新里程碑也将极大推动AI工程化进展。 AI数据工业化大趋势
以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在2015年取得视觉识别的突破、在2017年取得语音识别的突破以及2018年底BERT大规模预训练神经网络模型问世以来深度学习算法就在互联网和高科技行业率先推动了一波大规模应用包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域而其成果就是推高了互联网和高科技公司的市值。
除了互联网和高科技公司外AI创业公司也是深度学习算法在各行各业落地的主力军。在全球市场根据CB Insights统计2010年到2021年全球AI 100强共获得了117亿美元的股权融资自动驾驶、医药研发、AI处理器等是最主要投融资领域如今AI 100强在零售、快速消费品、游戏等18个行业领域推动着AI的落地。在中国除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外高校与科研机构、AI四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。
近年来人工智能领域在第三次浪潮爆发后经历了快速的发展许多特定领域的专用人工智能算法已经大幅度超越了人类的水平并在工业生产和社会生活中得到了广泛应用。目前深度学习算法的本质是海量数据驱动的统计学习是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式例如北京智源人工智能研究院的人工智能大模型“悟道2.0”参数规模就达到1.75万亿注1。
既然深度学习算法是算力与大数据的产物那么深度学习算法模型的工业化优化也就需要AI数据供应链的工业化。所谓“工业化”即以自动化、标准化和规模化可扩展方式为标志。澳鹏Appen是一家有着超过25年历史的人工智能训练数据服务公司澳鹏Appen近期发布的《2021年人工智能与机器学习现状调查报告》显示随着深度学习算法越来越成熟模型算法本身的迭代优化已经不能带来明显的效果而AI数据的高质量优化是模型效果提升的下一个关键。AI数据即需要经过人工标注后的数据才能用于AI模型的训练和推理及优化。此前AI标注数据的供应基本以作坊式为主难以保证AI标注数据的高质量供给接下来AI标注数据的供给将迎来工业化爆发。 构建AI数据供应链能力
随着互联网高科技企业等越来越大规模地将AI嵌入到自己的商业运营、产品与服务等方方面面大规模的AI项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的AI用户已经率先与外部的数据服务供应商合作以解决持续的AI标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在AI标注数据的规模化供给方面自动化、标准化和规模化可扩展仍然是需要解决的关键问题。
澳鹏中国高级产研总监张童皓表示2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具以更为自动化、标准化和规模化可扩展的方式为整个AI模型生命周期提供高精度和高质量的标注数据满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程以工业化方式构建起完整AI标注数据供应链。在2019年进入中国市场之前澳鹏Appen已经拥有业内先进的人工智能辅助数据标注平台、一体化AI数据及资源管理平台、全球100多万名众包资源以及丰富的实践。
将AI标注数据实践沉淀为方法论这不是一件容易的事情。其中很多要解决的问题包括如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等同时还要应对用户业务中出现的各种复杂场景甚至是业务出海场景中的地域差异等。这不仅要将AI标注数据的具体实践落地到一个强大而高效的工具集中还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程此外还要能够对外开放一定的API将数据标注结果与各种AIOps流程相结合。
张童皓强调数据标注平台非常复杂在某种程度上是Office 数据仓库AIOps的结合体很多互联网高科技企业CIO们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前为了更好地训练和再训练AI模型以及AI推理企业CIO们都构建了自己的数据资产管理平台数据资产管理平台对接着两端——一端是数据供应链一端是模型训练环境。对于专业的AI标注数据服务公司来说将已有的方法论进行沉淀再将行之有效的方式固化下来形成能够复用且易用的产品级能力就能大规模赋能AI模型迭代。 全场景覆盖AI模型生命周期
在意识到数据标注工具平台对于AIOps的重要性后澳鹏Appen在2019收购了创立于硅谷的数据标注平台Figure 8并将之与澳鹏全球上百万的众包工作者和团队相结合澳鹏中国也于2022年1月推出了自研的面向中国大陆、港澳台及亚太区域的MatrixGo企业版。目前这些地区的客户可以通过MatrixGo的公有云SaaS版或纯私有化部署企业版构建自己的AI标注数据供应链。
MatrixGo作为AI标注数据的采标一体化平台为企业AI模型优化实现端到端的数据深度整合同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流在保证企业数据安全的前提下建立企业AI数据供应链能力。MatrixGo被定位于AI行业赋能者它可覆盖丰富的场景——支持全领域数据类型及应用场景承诺极致的数据质量——提供海量高质量、无偏见、多元化的AI训练数据生产服务确保数据标注流程合规及隐私保护——通过了ISO27001等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo沉淀了丰富的AIOps方法论提供丰富的API能力可以与上下游系统进行良好集成。
MatrixGo让数据标注团队获得极高的生产力大幅降低标注数据人员的门槛。MatrixGo面向AI数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能项目管理、资源管理、标注工具箱AI辅助引擎、工作流引擎、标注引擎等四大模块其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等资源管理则是企业自有团队管理、BPO管理数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。
数据收集和标注工具是MatrixGo的核心亮点之一。数据收集包括手机端应用可完成视频图像、音频文本甚至是复杂的手写体数据收集等数据收集后的分发、质检反馈、工作量结算等可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写高精度完成长语音的切分可引导标注员方便地浏览或在不同音频段之间跳转图像通用关键点标注工具能让标注员一边接受培训一边上手做项目提高项目冷启动时的效率2D图像标注工具支持网格视图模式且将质量保证固化到工具中3D点云工具与2D标注框逻辑绑定连续帧模式下可做到线性填充部分帧可分钟级完成标注质检达每帧秒级等等。 澳鹏2D图像复合标注示例 澳鹏3D点云拉框及2D映射融合标注示例
此外MatrixGo还提供了模板引擎组件支持脚本编程可构建适配于项目定制化需求的工具分钟级完成自定义工具自定义工具与MatrixGo平台的数据统计等各流程节点直接集成。MatrixGo最重要的亮点是工作流调度面向海量任务支持高并发呑吐架构平台上单点能够支持每秒3万任务的吞吐量还可无限自动横向扩容工作流并行消费数据中心的数据进行各自生产再向统一节点进行交付在项目生产过程中项目经理可以随时修改任务平台自动确保数据统计等正确。
张童皓强调推出MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司科研和小型创业公司则更适合公有云SaaS方式。特别是MatrixGo的SaaS版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性可满足中国企业出海的需求。目前澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI创业公司、零售、医疗、高校等2022年还将拓展更多的传统企业数字化转型市场。
总结来说2022年是整个AI产业的一个分水岭更高自动化程度的AI数据标注平台正在定义整个模型生命周期内的AI模型质量与效果。AI数据标注的工业化运作让DataOps成为了整个AIOps中最重要的环节。当前互联网和高科技企业正在引领这一大趋势未来将有更多的科技企业和传统企业数字化转型也将采用专业的AI数据标注平台。以澳鹏中国MatrixGo为代表的AI数据标注平台将成为AI发展的重要赋能平台。
注1北京智源人工智能研究院《2021人工智能的认知神经基础》白皮书。