广州网站定制,免费招标平台,wordpress速度快了很多,济南做网站的价格#x1f30d;杭州#xff1a;全球数贸港核心区建设方案拟出台 争取国家支持杭州在网络游戏管理给予更多权限 #x1f384;Kimi深夜炸场#xff1a;满血版多模态o1级推理模型#xff01;OpenAI外全球首次#xff01;Jim Fan#xff1a;同天两款国产o1绝对不是巧合#x…杭州全球数贸港核心区建设方案拟出台 争取国家支持杭州在网络游戏管理给予更多权限 Kimi深夜炸场满血版多模态o1级推理模型OpenAI外全球首次Jim Fan同天两款国产o1绝对不是巧合
✨切尔诺贝利核电站传出爆炸声 泽连斯基发声
14日1时50分左右切尔诺贝利核电站的“新安全封隔”设施内传出爆炸声并出现火情该封隔设施负责保护切尔诺贝利核电站4号反应堆。据了解一架无人机撞上了“新安全封隔”设施顶部。
1.Seed Research | 视频生成模型最新成果可仅靠视觉认知世界现已开源
1. 模型仅靠“视觉”即可学习知识
面向本次研究研究团队构建了两个实验环境视频围棋对战和视频机器人模拟操控。
其中围棋可以很好地评估模型的规则学习、推理和规划能力且围棋关键信息仅有黑白两色及棋盘可将外观、纹理等复杂细节与高级知识的评估分离非常适合对上述问题的探索。同时团队还选取了机器人任务以考察模型在理解控制规则和规划任务方面的能力。
在模型训练环节团队构建了一个包含大量视频演示数据的离线数据集让模型“观看”学习以此得到一个可以根据过往观测预测未来画面的视频生成器。
模型架构上团队使用朴素的自回归模型实例化视频生成器它包含一个 VQ-VAE 编码器 - 解码器和一个自回归 Transformer 。编码器负责将视频帧画面转换为离散标记Transformer 在训练期间使用这些标记预测下一标记。
在推理过程中Transformer 生成下一帧画面的离散标记这些标记随后由解码器转换回像素空间。通过任务相关的映射函数模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下学习和执行具体任务。
基于上述朴素的框架对围棋和机器人视频数据进行建模团队观测到模型可以掌握基本的围棋规则、走棋策略以及机器人操纵能力。
但团队同时也发现视频序列的知识挖掘效率显著落后于文本形式具体如下图所示。 团队将这归因于——视频中存在大量冗余信息影响了模型的学习效率。
例如学习棋子移动过程中模型只需通过状态序列中少量位置标记编码但面向视频数据编码器则会产生过多冗余标记不利于模型对复杂知识的快速学习。
2. 压缩视觉变化让视频学习更加高效
根据上述观测结果团队提出 VideoWorld 。它在保留丰富视觉信息的同时压缩了关键决策和动作相关的视觉变化实现了更有效的视频学习。
通常视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息这导致知识被稀疏地嵌入标记中。为此VideoWorld 引入了一个潜在动态模型Latent Dynamics Model, LDM可将帧间视觉变化压缩为紧凑的潜在编码提高模型的知识挖掘效率。
举例而言围棋中的多步棋盘变化或机器人连续动作均表现出强时间相关性通过将这些多步变化压缩成紧凑嵌入不仅让策略信息更紧凑还将前向规划指导信息进行编码。
LDM 采用了 MAGVITv2 风格的编码器 - 解码器结构同时取消时间维度下采样以保留每帧细节。
对于一个视频片段LDM 采样每一帧及其后续固定数量帧编码器先以因果方式提取每帧特征图且进行量化以保留详细视觉信息。
接下来LDM 定义了一组注意力模块和对应可学习向量。每个向量通过注意力机制捕捉第一帧至后续固定帧的动态变化信息然后通过 FSQ 量化。其中量化器作为信息筛选器防止 LDM 简单记忆后续帧原始内容而非压缩关键动态信息。
最后解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧最终实现对未来动作的预测和规划实现对知识的认知学习。
下图为模型架构概览左侧为整体架构右侧为潜在动态模型。 通过使用多个向量顺序编码第一帧到后续多帧的动态变化VideoWorld 实现了紧凑且信息丰富的视觉表示可以捕捉视觉序列中的短期和长期依赖关系。这对于长期推理和规划任务至关重要。
通过引入 LDM VideoWorld 在仅有 300M 参数量下达到专业 5 段的 9x9 围棋水平且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上VideoWorld 也展现出了对多任务、多环境的泛化能力。 3. 纯视觉模型可“预测”未来并能“理解”因果关系觉模型可“预测”未来并能“理解”因果关系
3.纯视觉模型可“预测”未来并能“理解”因果关系
针对 LDM 提高视频学习效率的原因团队进行了更为细致地分析得出如下 3 点结论
LDM 建模了训练集的数据模式。
下图为 LDM 潜在编码 UMAP 可视化呈现面向围棋和机器人训练集每个点代表一个潜在编码。
其中UMAP 是一种流行的降维算法用于将高维数据映射到低维空间展现模型特征提取情况。
在下图左侧中奇数步表示白方走棋偶数步表示黑方图例展示了新增黑棋的一些常见模式。UMAP 可视化表明LDM 建模了训练集中常见的走棋模式并能将短期和长期数据模式压缩至潜在空间中提取并总结走棋规律。
同理下图右侧为机械臂沿 X/Y/Z 轴运动方向可视化潜在编码随着步数Step增多也能看到 LDM 可以建模多步动态依赖关系。 LDM 帮助模型在测试时进行前向规划。
团队还研究了 LDM 在模型推理中的价值。
如下图 UMAP 可视化所示在测试阶段模型生成的潜在编码按照时间步Time-step进行分组使得模型能够从更长远视角进行围棋决策。 在机器人场景实验中团队也观察到了类似现象。
下图展示了 VideoWorld 在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组突显了模型逐步捕捉特定任务长程变化的能力。 LDM 可以生成因果相关的编码。
为进一步研究潜在编码的影响团队进行了一项干预实验用随机标记替换不同时间步的潜在编码并观察其对模型性能的影响。
实验结果显示干预第一个编码的影响最大这可能由于编码之间存在因果依赖团队认为改变第一个编码即下一时间步的最佳决策会影响所有未来的决策侧面说明模型可生成因果相关编码理解因果关系。
2.苹果据称继续与百度合作 为中国iPhone用户开发AI功能 以分散风险 据媒体援引消息人士报道尽管与阿里巴巴建立了合作关系但苹果公司仍继续与百度合作为中国iPhone用户开发人工智能AI功能。 据悉百度正在开发一种能处理图片和文本的AI搜索功能并对中文版Siri语音助手进行升级这些功能属于“Apple Intelligence”苹果智能套件的一部分。 苹果在去年的WWDC全球开发者大会上首次公布了Apple Intelligence并宣布与AI公司OpenAI合作。去年12月Apple Intelligence在美国、英国、澳大利亚和加拿大等英语国家率先上线。 有消息称苹果自 2023 年起开始测试来自中国开发者的不同AI模型以推出面向中国市场的Apple Intelligence并且一度选择了百度作为主要合作伙伴。 据媒体周二报道称苹果近几个月开始考虑其他选项除了腾讯、阿里和字节跳动等中国互联网巨头外该公司还测试了近来火爆的AI初创公司深度求索DeepSeek的AI模型。 这一消息公布后苹果和阿里股价均大幅上涨。 在经过权衡之后苹果最终选择了与阿里合作开发AI功能。阿里董事局主席蔡崇信周四在迪拜的一场峰会上证实了这一合作关系。 苹果同时与百度和阿里合作显示出其在中国市场采取了多方合作的策略以降低风险。苹果在中国市场面临着来自华为和Vivo等本土智能手机品牌的激烈竞争。 在国际市场Apple Intelligence依靠的是苹果自研AI模型和与OpenAI的合作后者的聊天机器人ChatGPT在处理iPhone的复杂任务上发挥了更多作用。
3.Anthropic秘密「混合模型」 Claude 4首曝细节硬刚GPT-5深度推理模型来了
Anthropic终于要开始搞点事情啦
近期的「推理模型」热潮中Anthropic除了其CEO打了几个嘴炮外还没有掏出一个拿得出手的产品。
在这样下去可能要退出AI一线模型玩家行列了。Anthropic自己显然不想看到这种情况发生。
就在刚刚有消息称Anthropic会在未来几周内发布其全新的「混合AI」模型。
Anthropic版「推理模型」测试时计算完全掌控
在OpenAI去年秋季发布其「推理模型」后谷歌以及国内众多AI公司纷纷推出了自己的模型。作为一个主要的竞争对手Anthropic在这场推理竞赛中却明显缺席。
现在我们知道了原因——Anthropic开发的是一款融合了推理能力的混合AI模型。
具体来说这种「混合模型」可以使用更多的计算资源来计算复杂问题但也能像传统LLM一样快速处理更简单的任务无需额外计算。
此外模型还可以让客户控制它在查询时使用的算力——换句话说就是它在解决问题时「推理」的时长。
开发者可以通过一个滑动条来调整模型在尝试找出答案或完成任务时将处理或生成的token数量。
通过将滑动条设置为「0」开发者可以将Anthropic模型作为一个普通的、非推理AI使用类似于OpenAI的GPT-4o。
OpenAI也有类似的功能允许开发者控制其推理模型「思考」的时间。
但开发者仅限于「低」、「中」和「高」三种设置很难预测模型在这些级别上实际会处理多少token——因此也很难预测单次查询的成本。
现在OpenAI可能转而成为追随者。
2月13日CEO Sam Altman表示OpenAI计划将其Orion大语言模型作为GPT-4.5发布——这是一个传统的、非推理模型。之后则会把GPT模型和o系列推理模型合并为一个单一的AI。
在外界看来这和Anthropic尚未公开的技术路线可谓是如出一辙。去年11月The Information曾做过相关预测
从Anthropic和OpenAI设计模型和产品的方式我们可以清晰地看出它们在竞争激烈的AI市场中的战略定位。
OpenAI显然更希望ChatGPT成为面向消费者或个人专业人士的突破性应用这可能就是它在推理模型中使用低-中-高命名法的原因因为这更容易让普通用户理解。
Anthropic则更专注于企业市场这就是为什么它致力于开发能让开发者通过滑动条方式更好地控制成本、速度和定价的功能。
据知情人士透露Anthropic即将推出的模型在编程方面也取得了特别显著的进展这已经成为生成式AI在企业中最强大的应用之一。
当允许Anthropic模型使用最长时间「思考」时在某些编程基准测试中它的表现已经超过了客户目前能访问到的最先进的OpenAI推理模型即o3-mini high。
这位人士表示虽然OpenAI的推理模型在更学术性的问题上表现更好比如竞争性编程问题但Anthropic的模型更擅长处理企业工程师可能遇到的实际编程任务。
例如Anthropic的模型更善于理解由数千个文件组成的复杂代码库并能一次性生成可用的完整代码行。
不过仍然悬而未决的重要问题是Anthropic的新模型将收取多少费用以及它是否会比OpenAI最近发布的o3-mini推理模型更便宜。后者因比OpenAI最受欢迎的非推理模型GPT-4o更便宜而给开发者留下了深刻印象。
目前还不清楚像DeepSeek和谷歌最新的Gemini模型这样的超低价AI是否会推动所有模型的价格趋近于零。
就目前来看市场上似乎在进行着两场不同的竞争
在AI开发的前沿那些在推理或编程方面能够逐步改进的模型将继续保持定价优势在另一个更大的市场中那些「够用就好」good-enough的模型则可能会继续展开价格战。
对于这个全新的「混合模型」有网友认为Anthropic新模型的成败将取决于它的成本毕竟性能也很强的o3-mini是一个小模型成本很低。 2027年收入飙至345亿美元
根据The Information的报道Anthropic在2023年烧了56亿美元现金后计划在2025年将支出减少近半并在2027年实现高达345亿美元的收入。
要实现这样的增长Anthropic需要大幅缩小与市场领导者OpenAI之间的差距。目前OpenAI的收入可能是Anthropic的5倍以上——在2027年实现4,400亿美元的收入。
Anthropic和OpenAI一直是企业在生成式AI投资方面的风向标因此科技投资者正密切关注两家公司的表现。
在最可能的基本情况下Anthropic表示其收入将从2025年的22亿美元增长至2027年的120亿美元。
目前外界并不知道Anthropic在2024年的具体收入不过其月收入从年初的约800万美元上升到年底的约8,000万美元这表明其全年收入在4亿至6亿美元之间。Anthropic即将推出的新一代旗舰模型Claude有望支持其宏伟的增长目标。据知情人士透露新模
型预计在未来几周内发布。
然而最近像DeepSeek这样的超低成本模型的发布引发了人们对AI公司是否需要降价以保持竞争力的质疑。
在DeepSeek发布后Anthropic也是少数几个没有大幅降低模型价格的AI实验室之一。
从Anthropic的融资材料来看公司认为通过API向企业提供技术服务的机会要大于与ChatGPT等聊天机器人竞争。
OpenAI的ChatGPT在普通用户以及程序员、营销人员和律师等专业人士群体中取得了突破性成功截至去年底其订阅收入每月超过3.33亿美元。