怎么建设网站后台,wordpress后台模块,网站制作的原因,杭州一起做网站通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状#xff0c;让商家像玩转2D一样去玩转3D#xff0c;让普通消费者也能参与到3D内容创作和消费中#xff0c;真正实现内容生产模式从PGC/UGC过渡到AIGC#xff0c;是我们3D场景智能创作引擎一直追求的目标。 前言…  通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状让商家像玩转2D一样去玩转3D让普通消费者也能参与到3D内容创作和消费中真正实现内容生产模式从PGC/UGC过渡到AIGC是我们3D场景智能创作引擎一直追求的目标。  前言 随着元宇宙的大火国内外各大厂纷纷下场开始为下一代互联网技术布局旨在为用户提供更好的体验。体验包括方方面面比如更好的游戏体验、更好的社交体验、更高效的办公体验当然也包括更好的消费体验。作为国内最大的电商平台我们团队也在持续思考如何基于元宇宙的技术给消费者带来更好的购物体验以及给商家带来更好的营商体验。 回归到电商“人、货、场”三要素上通过虚拟人技术以及商品三维重建技术“人”和“货”在3D化上已经迈出了重要的一步而“场”作为连接“人”和“货”的重要载体目前还严重依赖于专业人员通过专业的DCC软件进行创作门槛高、耗时长、成本高、效率低这就导致了中小商家以及C端用户在现阶段难以大规模参与即使是头部大品牌商家制作的3D场景内容也很有限。然而大规模的虚拟世界需要有大规模的虚拟内容作为支撑进行构建基于AIGC的能力加速“场”的自动化构建从而降低3D场景制作门槛就显得非常有必要。  3D场景制作流程概述 3D场景制作在游戏行业已经形成了一套非常成熟的工业化、流水线生产的解决方案。下面通过游戏行业场景制作方式来简单介绍一下3D场景制作的整体流程。游戏中一个完整的场景制作流量一般可以分成如下六个步骤 游戏策划提需求原画师承接并绘制出对应的原画建模师制作对应的三维模型和材质贴图绑定师架设骨骼、蒙皮、绑定控制器进行角色驱动动画师会采用动作捕捉或者手动设定关键帧的方式制作动画资源场景编辑师在游戏引擎中搭建游戏场景  图片来源https://baijiahao.baidu.com/s?id1730605368628365612wfrspiderforpc 当然构建一个电商场景的3D内容其复杂度远低于一个庞大的游戏场景但相关的流程基本是一致的比如商家想要在虚拟世界中构建一个店铺进行商业活动那么整个店铺的搭建也大体需要遵循上面的流程  电商3D场景拆解 电商域的3D场景由小到大一般可以分成展示单品的3D场景、展示店铺的3D场景、商业街区场景、虚拟城市场景如下图所示  由于街区是店铺的集合而城市是街区的集合因此只要做好单品展示场景和店铺展示场景便能基于这两个基础能力跟搭积木一样的实现街区或者城市的构建。 下面以店铺为例对虚拟店铺场景的构造进行拆解  上图标识了构建一个虚拟店铺需要用到的所有元素跟实体店铺类似一个虚拟店铺的构建也包含了店铺装修所有的环节硬装、软装、软装布局、布光、商品摆放等如果是单品场景展示还需要额外考虑商品运镜。  3D场景生成技术介绍 ▐  3D场景智能创作引擎技术架构  上述为AIGC 3D场景智能创作引擎技术架构下面介绍一下创作引擎核心的几个算法。 ▐  前背景生成技术  前背景生成技术核心解决构建的3D场景与待展示的商品或者店铺相匹配问题。即给定一款商品生成与之匹配的3D场景对该商品进行展示或者给定一个店铺的商品生成与这批商品调性相符的店铺场景。 对于不同品类的商品所需场景复杂度是完全不一样的。以手机和沙发为例一般展示手机的3D场景以抽象的风格为主比如星空、天空、或者一些抽象艺术风类似于手机内置的壁纸其主要目的是配合手机的外观以及屏幕壁纸颜色进行展示整体场景相对简单而展示沙发一般以实景场景为主并且需要在一个非常好看的客厅空间进展展示为了营造温馨或者奢华的视觉效果还需额外大量的辅搭物品如下图所示  为了解决不同复杂度场景生成问题我们构建了两套场景生成技术以下简称单场景生成技术和复杂场景生成技术下面分别介绍这两种技术方案  简单场景生成技术 简单场景生成技术核心解决场景内贴图生成问题根据不同的商品生成与之匹配的场景贴图并用生成的贴图根据一定的场景构建方式构建出新的场景从而完成简单3D场景创作。我们采用的技术方案是基于Diffusion Model进行贴图生成模型结构如下图所示  给手机生成的星空背景贴图如下图所示  同时我们基于手机屏幕壁纸也做了一些创意的贴图生成效果如下图所示  直接根据手机壁纸进行场景贴图生成构造与手机相符的3D场景。同时也可以基于该技术进行AI创意输出设计师在搭建场景时给到设计师更多的灵感输入。另外基于AIGC生成贴图的好处在于不受图片版权限制。  复杂场景生成技术 如上述沙发的例子在构建复杂场景时仅仅考虑场景贴图是远远不够的需要围绕该商品构建整个客厅场景硬装上包括背景墙、地板、灯具、窗帘等等、软装上包括辅搭家具、辅搭配饰、地毯等等。  如上图所示我们先后尝试过四种生成方案均未取得理想的效果原因如下 基于pair 1生成N方案:该方法直接将1-N的问题当成多个1-1的问题来处理缺点是搭配不存在递推关系即A与B搭A与C搭不能得出结论说B与C搭所以一旦生成的序列过长基本没有审美可言基于我们提出的BLEU n-gram的评测方法效果最差;TransE方案主要研究如何在更高位空间内解决递推关系缺点是在有限规模的数据集下不能找到一个高维空间可以对所有的家具进行表达进而导致递推关系不成立transformer方案需要大规模的数据集进行训练由于设计域的数据集都比较小导致训练不充分匹配关系基本都学得不够好其向量内聚性也不够好;GCN方案该方法的优点是节点的度越大表征得越充分度越少表征得越不充分极端情况是度为0表征能力就很差。很适合解类似于完形填空的N生成1问题针对1生成N问题初始情况下度为0很难稳定生成比较好的场景; 设计领域存在一个明显的设计特点物理空间上越接近的物体其相关性要求越高还是以沙发为例比如客厅的主沙发和副沙发往往要求其在款式、颜色、风格上要保持一致物理空间距离越远设计上的自由度就会越大比如客厅的沙发和卧室的床或者餐厅的餐桌之间设计自由度就会很高没有明显的限制。 根据设计与物理空间远近强相关这一关系我们对原有的transformer进行了部分改进在复杂场景中将待生成的辅搭物品根据空间距离划分成多个组从而将一次性生成一整个长序列分解成生成多个强相关的短序列组合同时每个短序列又作为先验知识用于生成下一个短序列这样做的好处是能够保证局部空间的强相关性以及当前空间与其他空间的相容性而且实验发现能大大降低对样本的消耗量。通过实践我们发现该方案不仅适用于单商品的场景生成也适用于店铺维度的场景生成整体的网络结构如下图所示  ▐  运镜技术  构建纯3D场景不会涉及到运镜相关的技术然而一旦需要把3D场景转成内容进行分发比如基于3D场景生成图片用于制作宝贝的商品主图或者基于3D场景制作短视频在各大短视频平台进行分发或者基于3D场景制作全景图进行3D展示或者在虚拟世界的虚拟屏幕上进行广告投放时智能运镜技术就显得非常有必要。智能运镜技术可以类比成一个虚拟摄影师通过这个虚拟摄影师可以在已经生成的3D场景里拍摄出非常好看的图片、视频、全景图等优质素材供给各渠道进行分发。 运镜技术最大的难点是相机参数标注难度过大成本过高无法开展批量化标注。相机标注要有专业的摄影师与3D设计师一起参与每一个机位的标注都需要设计师与摄影师协同配合成本非常高如果找非专业人士标注直接进行标注效果非常不理想为了解决无法进行批量化标注的问题我们先后迭代了两个大的版本我们称之为基于摄影构图的运镜技术和基于现有构图的逆向运镜技术下面分别介绍这两种运镜技术。 基于摄影构图的运镜技术 顾名思义就是将摄影构图的技术参数化并将其应用于3D场景的拍摄中比如最常见的构图技巧为“井”字构图法如下所示  将待拍摄的画面通过两条横线和两条竖线分隔成九个象限产出四个焦点这四个焦点称之为黄金分割点只要把待展示的物体放到这4个焦点的上就能产出一幅比较不错的图片还是以沙发为例通过运用“井”字构图法分别将焦点置于21和12处就能拍摄出不错的图片如下图所示  另外一种常用的构图技巧“井”字构图法的另外一种构图方法简称“三分”构图法将待拍摄的画面通过两条横线分隔成三个象限并把在3D场景中待拍摄的物体放置在下面一条线上也能拍出比较好的图片  基于摄影构图技术算法已经能够拍摄出与普通摄影师相媲美的图片或者短视频它的缺点在于摄影构图千变万化通过调整相机高度、相机相对物体的距离俯仰角、FOV等参数同样的构图技巧能拍摄出非常不一样效果而且不同品类的商品虽然构图理论是同一套但最终呈现的效果也可以完全不一样。因此需要根据不同的类目需要去调节不同的参数工作量巨大该方法适用于项目冷启动阶段且急需产出素材的时候无法大规模推广。  基于现有构图的逆向运镜技术 逆向指的是逆向商家的运镜商家经过多年的摸索已经把最优质的拍摄方法都沉淀在了商品主图中因此最直接的方式就是从商品主图中逆向摄影师拍摄时的相机参数。但直接从商品主图中还原摄影师拍摄时候的相机参数难度巨大两者之间缺少直接的联系。 由于物体在3D空间中的坐标是已知的如果我们能预估出物体在图像中的3D bounding box从而得到其8个顶点的坐标那么就可以将其转换成图形学中的Perspective-n-Pointpnp问题该问题可以通过Direct Linear Transformation (DLT)方法进行求解得到相机参数并将其迁移到3D场景中就能实现机位生成。 我们通过UniPose对商品主图进行预测得到物体的3D bounding box以及对应的8个顶点坐标为了提高模型效果同时加入了物体姿态估计、热图估计。训练数据则是来自于随机角度渲染出的2D图以及部分人工标注数据模型框架如下所示  有了主物体在2D空间下的8个顶点的坐标以及在3D空间下的对应的坐标通过DLT算法就能求解出对应的相机参数  其中x是物体2D图像坐标X是3D世界坐标K是相机内参矩阵R是相机外参矩阵Xo为相机位置坐标。 迁移到3D场景中时由于3D场景内物体在尺寸上与商品主图不一定完全一致为了保证主物体在画面中的占比需要进行机位微调如下图所示是微调的过程微调的目标就是主物体在画面中的占比   有了逆向运镜技术不仅可以直接获取商家的运镜方法也极大降低了标注成本不再需要专业的摄影师和3D设计师协同进行标注同时也为运镜技术进行规模化推广到所有品类奠定了技术基础。 算法基于3D场景生成技术智能运镜技术制作的效果图如下所示同样是针对沙发场景我们可以生成几十种运镜效果   ▐  场景素材价值预估技术 有了3D场景生成技术和运镜技术后机器已经可以批量化、规模化、低成本的进行场景制造据我们统计目前沙发类目下单品展示的3D场景平均一个模型已经可以构建出超过500个场景再加上运镜技术每个场景至少能生产5张优质图也就意味着针对一个3D模型我们可以生产出1500张优质图这么多优质素材如何投放能够效率最大化这一问题随着场景制造能力逐步提升所面临的挑战也在逐渐增大。此处我们的解法是进行素材价值优选优选最有效的素材进行投放比如搜索场景我们以CTR为目标优选出CTR最高的素材进行投放。 我们以目前跟搜索合作在搜索侧透出机器产出的3D场景素材为例简单阐述一下场景素材价值预估与传统CTR预估的区别 只负责供给素材不干预排序在这种情况下一个素材CTR高并不一定能代表我们生成的素材好需要考虑该素材透出的坑位以及商品本身的CTR传统CTR预估针对item维度对全局item进行预估而我们是素材维度对同一个item机器产出的不同素材进行预估;由于我们只做离线的素材供给因此仅有图像本身的特征以及投放后的统计类特征给不同商家供给的素材、给同一个商家不同商品供给的素材所用的3D场景需要有足够的多样性否则在搜素展现时同质化会非常严重 在没有大流量训练的前提下仅仅从图像层面进行粗粒度特征提取模型效果远不如汤普森采样。为此我们对图片的信息进行了细粒度的解构做了大量的特征工程同时基于逆向运镜技术从图片中解构出了相机参数作为2D图片独有的3D特征从而将商家拍摄的图片与3D场景下生成的图片在特征维度进行了统一如下为我们抽取的部分特征:  通过投放以及对日志数据的分析我们发现了一些有趣的现象如下图所示  我们通过大量的投放实验发现合理的前背景搭配以及合理的机位选择能对商品CTR带来显著的影响。住宅家具类目的实验表明更合理的前背景搭配以及有效的运镜CTR差异能够超过15%。 另外基于当前的工作我们也在探索设计的白盒化即可以从前背景搭配、运镜、主物体占比画面面积等维度出发对一张图的点击率进行分析或者给到商家一些指导帮助商家进一步优化主图的点击率进而提升运营效率。 ▐  模型生成技术 在进行游戏创作时最缺的是美术资产比如要搭建一个中世界风的游戏前期需要创作大量的美术资产如下图所示如今游戏产业针对美术资产的创作已经形成了一个比较完善的工业化解决方案。  电商行业也类似为了对万物进行场景构建我们同样需要丰富多样的3D美术资产。而与游戏厂商可以针对每款游戏进行重金投入花费巨额成本进行资产创作不同我们不可能要求所有商家都进行重资产投入特别是中小商家或者C端用户。面对电商特有的多样、高频的营销场景以及海量不同的商品特质都要求我们必须要有低成本、高质量的美术资产创作方案来适配海量场景构建需求。 目前我们的解法是通过AIGC技术进行纹理创作下图所示是基于AI进行模型生成效果    应用介绍 通过上面的介绍可知将AI构建的3D场景通过运镜技术内容化后分别可以输出图片、视频、3D空间等相关内容结合淘宝APP、手机天猫APP相关场景我们分别做了一些实践。 ▐  3D场景图片化 图片是目前淘宝APP各渠道分发最多的素材不管是商品详情页、搜索、首猜还是其他导购场都需要用到图片进行分发。因此图片也是商家花重金建设的最核心资产甚至有些商家戏称自己是一家图片制作公司。据我们跟一些头部家装大商家的调研如果是实拍图一套主图的成本就在20005000元不等。 如今3D场景的自动生成能力结合运镜技术AI已经具备了批量化造图的能力我们将AI制作的图片搜索以及首页猜你喜欢在公域非付费流量替换商品主图进行透出我们希望借助AI的能力让商家能够得到额外的收益。目前淘宝搜索、SKU搜索引擎、搜索筛选项、首页猜你喜欢的部分类目已经接入我们的能力日均曝光千万级CTR有明显提升并且获得了头部大商家的认可。AI的持续造图能力不仅能够给商家带来优质的图片素材同时也可以防止用户的浏览疲劳始终能够给消费者提供更新更好的素材供其消费。  通过这个项目我们跟家装头部大商家建立了很好的合作包括林氏木业、全友家居、芝华士、顾家、喜临门、慕思等等帮助他们持续提升在公域透出的效率目前已经有3000店铺授权我们使用公域自然流量。 可以想象未来商家基于AI能力进行素材创作并进行分发的巨大空间其制作效率与传统实景拍摄相比将会有一个多么大的提升特别是后疫情时代AI为商家提供了另一种可替代的造图能力甚至可以想象未来商家只要有一个3D模型AI就能完成商家所需素材的创作需求。 ▐  3D场景视频化 短视频化的时代我们通过3D技术也为短视频的生成持续助力。在3D场景中拍摄视频与拍摄图片相似单一视角拍摄变成了序列视角拍摄。目前我们生成的短视频已经在淘宝APP、手机天猫部分类目的商详落地帮助商家降低视频创作的成本提升视频创作的效率。 手机天猫商详视频 淘宝APP商详视频 其他基于3D场景生成的AI生成视频展示 视频 ▐  3D空间展示 3D空间展示依赖3D场景的构建  目前我们生成的3D场景以3D样板间的形式在极有家相关频道进行了透出,极大降低了商家搭建3D样板间的成本  总结与展望 作为下一代互联网虽然元宇宙仍处在非常早期的阶段我们也在持续探索元宇宙电商场景的表现形式不过我们始终坚信低成本、高质量、低门槛、大规模的3D场景构建技术必然是未来构建元宇宙的基础设施。通过改变3D场景制作流程复杂、成本高、门槛高、流动性差的现状让商家像玩转2D一样去玩转3D让普通消费者也能参与到3D内容创作和消费中真正实现内容生产模式从PGC/UGC过渡到AIGC是我们3D场景智能创作引擎一直追求的目标。 仰望星空的同时也要脚踏实地未来很长一段时间手机仍然电商最重要的媒介因此图片和视频仍然是商家重资产投入的环节以及消费者消费规模最大的内容希望我们的3D场景智能创作引擎在目前的2D分发时代能够给更多的商家以及业务在素材上降本增效丰富消费者个性多元的消费需求。  团队介绍 大淘宝技术Meta团队目前负责面向消费场景的3D/XR基础技术建设和创新应用探索创造以手机及XR 新设备为载体的消费购物新体验。团队在端智能、端云协同、商品三维重建、3D引擎、XR引擎等方面有着深厚的技术积累先后发布深度学习引擎MNN、端侧实时视觉算法库PixelAI、商品三维重建工具Object Drawer、端云协同系统Walle等。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。欢迎视觉算法、3D/XR引擎、深度学习引擎研发、终端研发、AIGC等领域的优秀人才加入共同走进3D数字新时代。简历请投递至: chengfei.lcfalibaba-inc.com ¤ 拓展阅读 ¤ 3DXR技术 | 终端技术 | 音视频技术 服务端技术 | 技术质量 | 数据算法