代码命名 网站,网络营销简介,in什么 wordpress,wordpress 播放器右键超算#xff0c;是计算产业的明珠#xff0c;是人类探索未知的航船。超算的发展与变化#xff0c;不仅代表着各个国家与地区间的科技竞争力#xff0c;更将作为趋势风向标#xff0c;影响整个数字化体系的走向。 在目前阶段#xff0c;超算与AI计算的融合是大势所趋。为了… 超算是计算产业的明珠是人类探索未知的航船。超算的发展与变化不仅代表着各个国家与地区间的科技竞争力更将作为趋势风向标影响整个数字化体系的走向。 在目前阶段超算与AI计算的融合是大势所趋。为了将AI模型与AI计算融入超算体系一轮新的超算变革正在酝酿发生。与此同时一个关键问题也显露了出来我们是否需要配合AI大模型风潮打造全新且独立的存储体系 在超算领域拥有广泛声誉的橡树岭国家实验室Oak Ridge National Laboratory已经就这个问题给出了明确的答案需要。 日前我们在橡树岭实验室发布的面向2027年构建下一代数据中心相关计划中已经看到其明确提出了应对十亿到百亿级大模型的引入除了需要面向传统HPC场景的PFSParallel file system 并行文件系统还需要单独设立AOSAI-optimized storage AI 优化存储存储系统并给出了相关的详细品类定义与规格约束。 这个信息为何重要其又将如何影响计算与存储产业的持续发展 让我们共同来解读一下这个智能时代的存力信标。 科学之巅的超算答案 不久之前诺兰导演的电影《奥本海默》在全球热映其中对曼哈顿工程的描绘让人印象深刻。 事实上曼哈顿工程的影响远不止于影片介绍的范围。成立于1934年隶属于美国能源部的橡树岭国家实验室原本就属于曼哈顿工程的一部分。作为美国乃至全球最具代表性的国家实验室其存在目的是攻克当下最严峻的科学难题开发具有跨时代意义的技术。 从上世纪40年代开发核反应堆到率先在完成中子散射开展材料的相关研究再到为半导体产业提供了一系列信息与相关技术。橡树岭国家实验室可谓在每个阶段都深度参与了信息时代的重大科学发现被誉为人类科学之巅。 时间来到今天橡树岭国家实验室最具盛名的能力就是超算。在的2022年全球超算Top500名单中橡树岭国家实验室的Frontier超级计算机系统夺得第一。其凭借1.102 Exaflop/s的HPL分数成为人类有史以来第一台“E级超算”计算机。也就是说Frontier实现了断代式的惊人算力其超算性能大于排在它身后的468个超算体系之和。同时Frontier还是全球AI计算能力最强的计算体系之一其AI计算能力已经投身到了智能交通、智能医疗等领域的探索中。 由此可见橡树岭国家实验室在超算领域拥有极强的先进性堪称广义超算领域的绝对权威。而在打造Frontier为代表的超算体系过程中实验室也正以更加深邃的目光望向AI计算与存储的前沿探索之路。 他们给出的AI存力答案显然可以被更多超算体系乃至数字化建设整体所参考。 对AI存力底座的明确定义 长久以来我们都知道AI专项算力的重要性。那么是否需要在存储领域构建AI专项存力呢这一直是个业界激烈争论的问题。而橡树岭国家实验室的答案或许可以起到一锤定音的效果。在其发布的面向2027构建下一代数据中心方案中明确提出了面对大模型的引入除了需要面向传统超算场景的存储体系之外要单独设立AOSAI-optimized storage品类。这也就是说要建设传统超算业务和面向AI业务负载的两套I/O存储系统——PFS和AOS即构建更适应、更匹配AI负载的专项存储。 这是因为橡树岭国家实验室已经意识到未来超算将面临着越来越多的AI处理任务。这不仅仅需要算力系统的提升更需要单独针对存储系统进行升级。因此对AI工作负载定制全新的存储子系统至关重要。 两套I/O存储系统相比较的话很容易找到区别。 传统的PFS更多是针对单一POSIX文件命名空间整体业务的I/O较大并且更多针对大文件进行运算处理更强调集群聚合带宽对小文件的创建或读取性能要求并不高。 而相较于PFSAI应用折射到AOS负载上的文件更加复杂大小不一并且数据密集型分析占据了更大比重在全流程中会产生大量的数据或元数据随机读写情况。这就需要存储系统既具备高达千万级的IOPS与OPS、又拥有十TB/s级别的超高带宽来进行高速顺序读写。 简而言之新的AI负载会带来巨大的存储性能需求这是传统PFS系统所谓无法负担的。只有存储性能极大升级才能让AI算力利用率提升整个模型的训练效率升级。 其次极为重要的一点在于AI场景下计算节点故障率高平均要达到天级甚至小时级就出现故障因此需要频繁的断点续训并且还有可能需要很多阶段性的模型数据与窗体数据定期保存。因此与传统的超算任务相比AI任务需要存储具有更大的容量以及更高的效率。 接下来我们还要看到共享存储的必要性。橡树岭国家实验室要求计算任务在任何计算节点都可以随机访问任何一个文件从而确保AI任务在任何节点访问时性能具有强一致性。 除此之外AOS还具备在底层文件系统与AOS之间的高效并行数据传输能力从而确保文件的跨层调度能力。 为了保护珍贵的AI数据资产AOS对存储可靠性的要求也提升了很多。由于各种AI训练大量采用分布式需要在单点故障后依旧保持数据高可用、任务不中断。这需要满足跨节点的ECErasure Coding能力不像一些传统并行文件系统仅可做到节点内EC当节点宕机后就会出现数据丢失、数据完整性受损并且对于故障后的数据重构的性能速度也规定了相关时长。 最后AOS还需要具备本地数据的清洗与处理的能力包含敏感信息去除、隐私信息过滤甚至转码、去重等工作从而简化数据预训练工作提升AI任务的整体效率。 总结来说橡树岭国家实验室已经明确提出AI大模型浪潮不仅需要专项算力还需要专项存力。传统的并行文件系统已经无法满足AI任务的需求AI存储的门槛正在变得更高定义正在更加清晰明确。 由橡树岭国家实验室的超算探索出发AI存力的概念将影响到整个产业。 存储发展的时代信标 橡树岭国家实验室的发现可以说是一个时代信标它将辐射到更广泛的区域给存储产业的升级发展提出明确信号。 首先业界可以由此凝结成一个共识AI需要专业算力也需要专业存储。AI存力概念将成为大模型时代主导存储产业的骨干。 其次我们可以看到超算领域将首先得到启示。在全球各个国家与地区超算都是国之利器是科技竞赛的关键节点。而在超算与AI水乳交融的发展趋势下超算场景必须积极引入AI存力升级设置专业的外置存储并且积极践行以存强算通过存储升级来提升AI算力利用率。比如将AI大模型密集型计算之前为了降低计算通信开销比可以将一部分数据预处理下沉到存储层完成以此节省AI算力。最终可以通过存储来提升超算体系的先进性与自主性。 接下来我们还可以看到这一趋势将释放到超算场景之外。在AI大模型走入千行百业的进程中各个领域都需要考虑存储是否能够适配AI模型与算力系统。适时进行存储升级实现存、算、AI的相辅相成是智能化发展过程中的关键。 这些启示对于中国存储产业的发展尤有至关重要的意义。 存力勃发时代之选 在大模型发展中存力是前提条件也是产业支柱。尤其对应到中国在实现科技自立自强推进数实融合的大势当中。AI浪潮恰好是一个绝佳契机可以以最低成本最高价值实现存储产业的全面升级更新。 从目前全球主流趋势来看存储升级对AI发展的助力是多方位、全面性的。是一个高吞吐、可共享、大容量、高可靠的存储系统是产业智能化、经济智能化发展的关键。 在这个趋势下中国存力建设有以下几个机遇需要紧紧把握 1.扩大存力规模提升先进存储占比。 随着AI大模型的崛起以及AI深入到超算、大型政企数字化等场景会有更多企业倾向于进行本地化的AI训练与相关数据存储。这个过程中既需要扩大存力整体规模也需要提升以全闪存为代表的先进存储占比以此来满足智能化发展所需。 2.提升存储技术创新应对AI时代的数据复杂性。 AI带来了数据复杂性与应用流程多样性等一系列挑战因此存储的先进性必须得到进一步提升。比如说在建设数据湖的过程中多数据中心、多业务系统的数据归集缓慢且复杂跨业务的数据倒换的低效且繁琐都给存储带来了考验。因此存储需要提升协议互通能力、数据跨域调度、跨系统可视化数据管理等能力。以存储技术创新应对AI时代的一系列技术挑战。 3.提升存储安全与运维能力确保AI发展无忧。 AI大模型不仅带来了数据的复杂性还带来了一系列全新的安全隐患以及愈加复杂的存储运维管理压力。因此存储需要积极践行主动安全、自动运维等能力从而确保AI体系的健康发展。 在这些努力的坚持不懈下AI存力将得到极大发展。就像我们知道AI算力即生产力AI存力也将在未来成为生产力释放的关键成为产业智能化的引擎。 总结起来一项产业升级与技术发展首先需要找到信标读懂趋势。如果说此前我们对于AI专项存储的定义与发展还有争议那么橡树岭国家实验室对未来数据中心的定义就是为这一争论画下了句号。 依靠其在超算领域乃至全球科研界的地位首先我们可以看到AI存储本身的绝对必要性。其次可以对AI存储的定义、门槛与发展规范提出详细的要求。由此一来我们可以在越来越多的证据下清楚地看到AI大模型时代存储升级的必然。 AI存力的价值在顶级实验室的论证与探索中可以证明在存储产业多年来走向自主化、先进化的发展脚步中可以证明在每一次AI训练之后模型开发者对存储价值的慨叹中可以证明。 抓住AI机遇促使存力勃发是时代之选更是时代之幸。