张家口购物网站开发设计,移动端网页,昌大建设总部哪里,网站页面布局设计思路在2024年3月23日的全球开发者先锋大会上#xff0c;阿里云的魔搭社区宣布了一个新计划#xff1a;“ModelScope-Sora开源计划”。这个计划旨在通过开源方式#xff0c;帮助中国在Sora模型类型上做出更多创新。这个计划提供了一整套工具#xff0c;包括处理数据的工具、多模…在2024年3月23日的全球开发者先锋大会上阿里云的魔搭社区宣布了一个新计划“ModelScope-Sora开源计划”。这个计划旨在通过开源方式帮助中国在Sora模型类型上做出更多创新。这个计划提供了一整套工具包括处理数据的工具、多模态数据集、Sora模型的基础版本和训练推理工具等。
魔搭社区还推出了一个叫做Data-Juicer的系统这是第一个为多模态数据处理而开源的系统。它包含了很多高效的工具可以大大提高处理视频数据的效率和质量。 Sora模型因为使用了大量的高质量数据所以在技术上引起了很大的关注。阿里通义实验室的专家李雅亮说数据的质量决定了机器学习能达到的高度。只有高质量、细致、大量的数据才能让模型训练得更好。
但是处理Sora模型类型的数据非常具有挑战性。现有的数据处理工具大多不是为多模态数据设计的尤其是视频数据。因此魔搭社区首先推出了Data-Juicer系统这个系统可以筛选和优化多模态数据使其更高质量、更丰富、更容易处理。 魔搭开源的Data-Juicer流程示意图
Data-Juicer支持处理文本、图片、音频和视频它有很多功能比如筛选、映射、去重、格式化输出和美学评分等。开发者可以像玩乐高一样自由组合这些功能。例如它可以自动剪辑视频提高分辨率调整宽高比去除文本段落甚至可以计算视频中的动态和静态部分只保留精彩的瞬间。 魔搭开源的lite-Sora模型架构图
魔搭社区还推出了一个基于Data-Juicer的沙盒实验室让研发人员可以在小规模数据集和模型上快速实验找到最佳的方法。然后他们可以使用阿里云PAI来处理大规模数据并在PAI上完成模型的训练和推理。
此外魔搭社区还开源了一个基础版的Sora模型华东师范大学的段忠杰博士和魔搭社区合作创建了一个名为lite-Sora的视频生成模型并在小规模数据集上进行了初步训练。
魔搭社区还计划举办“ModelScope-Sora挑战赛”鼓励更多开发者创建并开源自己的Sora模型共同推动中国多模态大模型的发展。同时魔搭社区也在努力构建一个开放的、高质量的中文多模态数据集。作为中国最大和最活跃的AI开源模型社区阿里云魔搭已经聚集了3000多个优质模型和上千个数据集为超过400万开发者提供服务。