做债的网站,网站打开,创免费网站,小程序源码网免费一、前言
此页面上的所有视频均由 Sora 直接生成#xff0c;未经修改。
OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日#xff0c;OpenAI 发布 AI 视频模型 Sora#xff0c;60 秒的一镜到底…一、前言
此页面上的所有视频均由 Sora 直接生成未经修改。
OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日OpenAI 发布 AI 视频模型 Sora60 秒的一镜到底惊艳的效果生成。AI 视频生成可能要变天 二、主要内容
能力
OpenAI 正在教授 AI 理解和模拟运动中的物理世界目标是训练出能帮助人们解决需要与现实世界互动的问题的模型。目前的成果是 SoraOpenAI 最新发布的从文本生成视频模型。Sora 能够生成长达一分钟的视频同时保持视觉品质和对用户提示的遵循。
2024 年 2 月 26 日Sora 即将向红队人员开放以评估关键领域的潜在危害或风险。OpenAI 还允许一些视觉艺术家、设计师和电影制作人使用以便获得反馈进一步优化模型使其对创意专业人士更有帮助。OpenAI 提早分享他们的研究进展以便开始与 OpenAI 之外的人们合作并从他们那里获取反馈同时让公众对即将到来的 AI 能力有所了解。
Sora 能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容还理解这些事物在物理世界中的存在方式。该模型对语言有着深刻的理解使其能够准确解读提示并生成表情丰富的引人入胜的角色。Sora 还能在单个生成的视频中创造出多个画面准确地保持角色和视觉风格的一致性。
当前模型有缺陷。它可能在准确模拟复杂场景的物理现象方面遇到困难也可能无法理解特定的因果关系。例如一个人可能会咬一口饼干但之后饼干可能不会留下咬痕。该模型也可能会混淆提示的空间细节例如将左和右搞混而且可能难以准确描述随时间发生的事件比如遵循特定的摄像机轨迹。
安全
在将 Sora 应用于 OpenAI 产品之前OpenAI 将采取几个重要的安全措施。OpenAI 正在与红队人员错误信息、仇恨内容和偏见等领域的专家合作他们将对模型进行对抗性测试。OpenAI 还在开发一些工具来帮助检测误导性内容例如检测分类器它可以分辨出视频是由 Sora 生成的。如果在 OpenAI 产品中部署该模型OpenAI 计划在未来加入 C2PA 元数据。
除了开发新技术为部署做准备外OpenAI 还在利用现有的安全方法这些方法是 OpenAI 为使用 DALL-E 3 的产品建立的也适用于 Sora。例如一旦进入 OpenAI 产品OpenAI 的文本分类器就会检查并拒绝违反 OpenAI 使用政策的文本输入提示例如要求输入极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容。OpenAI 还开发了强大的图像分类器用于审查生成的每段视频的帧数以帮助确保视频在播放给用户之前符合使用政策。
OpenAI 将与世界各地的政策制定者、教育工作者和艺术家接触以了解他们的担忧并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试但 OpenAI 无法预测人们使用这项技术的所有有益方式也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 相信从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。
研究技术
Sora 是一种扩散模型它从一个看起来像静态噪音的视频开始生成视频然后通过多个步骤去除噪音逐渐转换视频。Sora 能够一次性生成整个视频或延长生成的视频使其更长。通过让模型一次预见多帧画面OpenAI 解决了一个具有挑战性的问题那就是即使主体暂时离开视线也要确保主体保持不变。
与 GPT 模型类似Sora 也采用了 Transformer 架构释放了卓越的扩展性能。OpenAI 将视频和图像表示为更小的数据单元集合称为 “补丁”patches每个补丁类似于 GPT 中的令牌token。通过统一数据表示方式我们可以在比以往更广泛的视觉数据上训练 diffusion transformers包括不同的持续时间、分辨率和宽高比。
Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上。它采用了 DALL-E 3 中的重述技术即为视觉训练数据生成高度描述性的字幕。因此该模型能够在生成的视频中更忠实地遵循用户的文字说明。该模型不仅能根据文字说明生成视频还能根据现有的静止图像生成视频并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频并对其进行扩展或填充缺失的帧。更多信息请参阅 OpenAI 的技术报告。
Sora 是能够理解和模拟现实世界的模型的基础我们相信这种能力将是实现 AGI 的重要里程碑。 三、总结
OpenAI 发布其首个 AI 视频生成模型 Sora这是一个能够根据文本指令生成逼真而富有想象力的视频的模型它使用了扩散模型和 Transformer 架构能够生成长达一分钟的超长视频还能保持多镜头的一致性。
Sora 展现了对世界的理解和模拟这个模型能够学习到关于 3D 几何、物理规律、语义理解和故事叙述的知识它甚至能够创造出类似皮克斯作品的动画效果有着世界模型的雏形。
Sora 颠覆了视频生成领域这个模型的效果远超过了目前的 AI 视频工具如 Runway Gen 2 和 Pika它能够实现视频和现实的无缝对接让普通人也能在社交媒体上制作出高质量的视频内容。
Sora 可能为实现 AGI 奠定了基础这个模型是对真实世界和虚构世界的模拟是通用人工智能的重要步骤也是 OpenAI 的核心使命。 最新消息本文是设想的方式但 Sora 目前还未正式对外上线。后续预计先在 ChatGPT Plus 会员覆盖。 如果你想体验 ChatGPT4 服务可以查看这篇文章ChatGPT4.0升级教程