手机网站快速建设,百度云网盘,网站的维护及建设,国际贸易网登录阅读了Design Space Exploration for Chiplet-Assembly-Based Processors这篇论文#xff0c;是关于chiplet设计空间探索的#xff0c;个人感觉核心贡献有两个#xff1a;1.提出使用整数线性规划算法进行Chiplet的选择#xff1b;2.基于RE和NRE提出了一个cost模型#xff…阅读了Design Space Exploration for Chiplet-Assembly-Based Processors这篇论文是关于chiplet设计空间探索的个人感觉核心贡献有两个1.提出使用整数线性规划算法进行Chiplet的选择2.基于RE和NRE提出了一个cost模型具体的一些记录如下 目录
一、Article:文献出处方便再次搜索
1作者
2文献题目
3文献时间
4引用
二、Data:文献数据总结归纳方便理解
1背景介绍
2目的
3结论
4主要实现手段
5实验结果
6其他积累
三、Comments对文献的想法 强迫自己思考结合自己的学科
四、Why:为什么看这篇文献 方便再次搜索
五、Summary:文献方向归纳 方便分类管理 一、Article:文献出处方便再次搜索
1作者
Saptadeep Pal, Puneet Gupta (美国加州大学洛杉矶分校电气与计算机工程系美国加州大学洛杉矶分校)Daniel Petrisko, Rakesh Kumar (美国伊利诺伊州香槟大学香槟分校电气与计算机工程系)
2文献题目
Design Space Exploration for Chiplet-Assembly-Based Processors
3文献时间
APRIL, 2020IEEE Transactions on Very Large Scale Integration (VLSI) Systems是全球半导体行业与ISSCC齐名的最重要会议
4引用
S. Pal, D. Petrisko, R. Kumar and P. Gupta, Design Space Exploration for Chiplet-Assembly-Based Processors, in IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 28, no. 4, pp. 1062-1073, April 2020, doi: 10.1109/TVLSI.2020.2968904.二、Data:文献数据总结归纳方便理解
1背景介绍
不断增加的处理器设计、验证、制造和管理成本——正在给可用于目标应用程序的系统数量带来巨大的压力。随着这些成本的增加设计和制造大量的片上系统SoC可能变得不可行。由于新的设计和组装方法egEMIB正在被开发和商业化一个大型处理器SoC现在可以分解成多个、更小的Chiplet component不同的Chiplet可以使用类似SoC的低延迟和高带宽互连的substrate进行连接然后重新集成到一个完整的处理器系统中。Chiplet的优势更高的良率可能会降低系统成本(多个Chiplet可以均摊设计和制造成本且不同的Chiplet可以基于不同的技术节点)可以实现异构设计低成本的硬件定制针对不同的应用程序可以选择不同的Chiplet组合来构建许多系统
在prior-art中研究的都是如何找到一个性能最好的处理器以及在media processor中进行DSE。而本文的目标是开发一个基于Chiplet-assembly的DSE算法同时实现定制化和成本化。2目的
作者在introduction中提出了三个问题这三个问题也是本文探究的目标
当一组Chiplet component将被用来构建一组系统以针对不同的应用程序时应该如何设置微体系结构DSE(Design Space Exploration)问题也就是说应该如何设计Chiplet 微体系结构以满足不同应用程序的需求并优化系统的性能和功耗当每个系统仅针对一个应用子集而不是整个应用集时不同Chiplet的微体系结构特征以及相应的系统是什么也就是说在这种情况下不同的Chiplet应该具有何种微体系结构特征以及相应的系统应该如何设计以满足不同应用程序的需求当考虑到设计和制造的总成本时Chiplet组装方法有什么好处以及需要构建哪些Chiplet和相应的系统也就是说Chiplet组装方法可以带来哪些成本上的优势以及应该构建哪些Chiplet和相应的系统以达到最优的性能和功耗3结论
开发了第一个Chiplet-assembly-based processor的微架构设计空间探索框架使我们能够确定设计和制造所需要的最小Chiplet集以使用最小的Chiplet集为应用程序提供近乎定制的系统性能作者考虑通过同时解决Chiplet和制程技术选择来最小化总体设计/制造成本并且在成本意识优化时指在设计和制造过程中考虑成本因素以最小化总体成本的优化过程Chiplet组装可以比SoC节省更多的成本展示了在不同的应用程序套件从高性能到嵌入式应用程序上执行Chiplet DSE的价值而不是每个套件都进行探索。Chiplet可以在不同的基准套件中重复使用从而最大限度地实现设计成本摊销的机会。这句话我理解了好久我感觉是因为multi-Chiplet可以每个Chiplet承担一个测试套件所以可以一次测试多个就不用挨个测试从而节省时间和资源4主要实现手段
A. 基于IntLP(整数线性规划)的Chiplet选择框架 表示哪些Chiplet是系统的一部分。可以在初始Chiplet集合D中包含多个相同Chiplet微体系结构的副本代表不同的技术节点。系统配置集S是由Chiplet组成的所有系统的集合。每个应用程序可以分配到任何系统上运行与之相关的成本[n-tuple]包含功率、CPI性能、每条指令的能量EPI、EDP和总成本]由 给出示意图如下 一些假设
所有的Chiplet都采用标准的接口协议来相互通信可拓展支持所有宽度的接口并只增加一个额外的延时在双核系统的不同内核上运行的两个应用程序不相互干扰它们的总体性能是每个工作负载在单核上运行时IPC的总和对于性能模拟假设L2 Cache 有 12-cycle access将latency更改一个周期导致的性能差异可以忽略不计计算平均能耗时排除了DRAM的能耗因为其对结果影响不大不同制程技术节点的Chiplet具有相同的微架构参数即性能相同DSE的方法是一个包含三个主要步骤的迭代过程
首先我们确定了一组有趣的初始系统配置来探索。下一步我们对这些初始系统配置进行了全因子探索。全因子探索是一种研究方法它可以用来研究多个变量之间的相互作用以及它们对结果的影响。它可以帮助研究人员更好地理解系统的行为并确定最佳配置。最后根据IntLP DSE Framework优化算法来选择最佳的芯片和系统来覆盖给定的工作负载。
总的来说生成设计空间的实验方法的整个步骤就是
1确定设计参数2确定设计空间3确定设计变量4确定设计约束5确定设计目标6确定设计优化算法7运行设计优化算法8评估设计空间。
B. Chiplet-assembly-based 成本模型
关于Chiplet的成本可以分成两种NRE和RE分别如下
NRENonrecurring engineering cost一次性开销包括体系结构、RTL设计、IP验证、物理设计、prototype、验证和掩模制造成本。RErecurring engineering costvolume-dependent非一次性开销包括晶圆制造的成本产率和工艺复杂性是决定制造成本的主要因素。
考虑到制程技术会随着时间增长逐渐成熟那yield也会随着时间提高这个学习公式如下 其中t指制程已投入使用年数 是由diea area缺陷密度和clustering factora共同决定的渐进yield。
现在考虑RE Cost即晶圆制造成本由die的数量Vd、晶圆成本Cw、yieldY和每个晶圆的die数量Ndie共同决定公式如下 当考虑到基于Chiplet assemblies的总成本最小化时我们使用以下目标函数 其中Va是应用程序a所需的系统数量。是Chiplet的组装/集成成本是Chiplet d的制造成本并使用第三个式子进行估算。是一种依赖于制程技术的NRE成本它包括物理设计、IP验证、原型、掩模集成本等。是一种与制程技术无关的NRE成本包括体系结构、RTL开发和验证等。当使用特定的微体系结构在两个不同的技术节点上构建芯片时被摊销但是每个技术节点的Chiplet都需要费用。
注意作者假设RE是晶圆制造的成本且产率和工艺复杂性是决定制造成本的主要因素。考虑到核心Chiplet和缓存Chiplet之间的IO通信增加了0.5mm2的面积开销。 5实验结果
实验配置benchmarks注意模拟器将将运行100M条指令以确保模拟器已经达到稳定状态然后运行30M条指令以获得更详细的性能数据
Chiplet MicroarchitectureChiplet数目从2-4时CPI Threshold从1.1到2时每个Chiplet的微体系结构设置如上图我没太懂的是论文中提到当Threshold1.1时Chiplet需要大于等于4才能work但是看论文的意思却只写了2个Chiplet我有些迷惑。
实验一在不同的技术节点上的标准化成本组件
为了更准确地估计Chiplet的成本作者还考虑了Logic和DRAM的cost difference一般考虑单个Chiplet时最多考虑corecache其中
Logic指的是逻辑电路它是用来实现计算机系统中的功能的电路包括控制电路、运算电路和存储电路等。SRAM是静态随机存取存储器它是一种高速存储器常用于制作CacheSRAM成本包括内存编译器许可证的费用以及工程师的费用根据算法部分的成本公式进行计算一些参数是参考以往论文来的但是我没有很懂这个结果说明了什么。
实验二不同系统大小和技术成熟度下Chiplet组装技术相对于SoC技术的成本效益在EDP阈值约束下以总成本最小化目标进行DSE操作。 其中NRE设计成本只考虑一个核心的副本相同的核心IP被复制多次并连接到互连IP上所产生的设计成本将大致与具有互连的单核系统相似。如图6所示基于Chiplet的组装比基于SoC的方法提供了巨大的成本效益。
当系统尺寸较小时SoC产率较好。然而在多核系统中随着系统尺寸的增加超过一定的die size后SoC产率根据其良率曲线公式迅速下降。此外Chiplet的良率基本不变但开发这些Chiplet的NRE成本随着系统规模的增长而摊销。虽然互连基板和Chiplet的组装成本随着系统的尺寸的增大而增加但它占总成本的比例较小。因此尽管系统集成成本略有增加但降低了每个Chiplet的总成本。当集成成本越高时SoC与Chiplet组装之间的差距就越小。事实上当系统尺寸较小时Chiplet组装可能比SoC更昂贵。随着技术的成熟SoC的成本会逐渐下降但集成成本下降空间不大。
实验三使用CPI约束来最小化EDP更多的Chiplet可以显著降低平均EDP。最初添加更多Chiplet的好处非常明显曲线下降速度非常快因为从Chiplet中选择的前几个系统针对的是广泛的工作负载类如内存绑定/计算绑定的应用程序。随着更多的Chiplet被添加新系统主要针对outlier workload从而导致增量比较缓慢。当CPI Threshold非常严格(小)时只有少数系统可供选择因此EDP很快就会饱和。但是对于更宽松(大)的CPI阈值需要七到八个Chiplet才能获得接近最优的EDP。
注意Outlier workload是指那些不属于正常工作负载的任务例如大量的数据处理、计算密集型任务或者其他非常耗时的任务。实验四在不同技术成熟度水平下EDP和总成本的tradeoff较低的EDP阈值要求更多的系统来最小化成本从而削减每个工作负载的设计空间使得可供选择的系统较少。这会导致over costume使得工作负载之间几乎没有系统共享。因此需要构建这些系统的不同Chiplet的数量增加从而导致NRE成本更高。随着EDP阈值的放宽优化开始选择较小的内核和较小的L2芯片块。总的来说芯片块和系统的数量减少在工作负载之间增加共享。增加共享有助于分摊NRE成本从而降低总成本。对于一个特定的总成本预算随着技术的成熟人们可以实现更好的整体EDP。因为技术逐渐成熟时可以以相同的总成本构建更多的Chiplet从而实现相同的目标性能。
实验五最小化Chiplet数量 V.S. 最小化总成本以最小化Chiplet数量为目标的优化并不一定会导致最小的总成本。如图8所示当EDP阈值放宽时Chiplet Minimization导致的Chiplet数量比Cost Minimization时更少。然而设计和制造的总成本仍然远远高于Cost Minimization时的目标。这是因为Chiplet Minimization选择了更少但更大的Chiplet 低良率和成本来满足所有工作负载的EDP阈值而Cost Minimization选择了更多更小更低成本的Chiplet 来构建多个系统每个Chiplet 片针对不同类型的工作负载。 6其他积累
什么是设计空间 指的是可以用来设计工作负载的可用资源包括计算能力、存储能力、网络能力等。
关于测试指标
CPI指令周期指数表示每条指令的平均执行时间可以用来比较不同处理器的性能EDP能耗密度它是一种衡量系统能耗和性能之间的比率用于衡量系统的能耗效率EDP越低说明能耗效率越低即能耗小性能高此时系统数量就多这样可以更好的分摊总成本从而最小化成本满足工作负载的需求EDAP功能耗密度百分比是系统能耗和性能之间的比率用于衡量系统的能耗效率系统供应商偏爱EDAP指标EDA2P能耗密度的平方也是系统能耗和性能之间的比率可以更准确地衡量系统的能耗效率。芯片供应商偏爱这个指标因为A2可以近似表示die的成本。
关于测试套件
SPEC2006是一个由Standard Performance Evaluation CorporationSPEC开发的基准测试用于衡量计算机系统性能。它包括了一系列的测试包括多种应用程序如数据库、视频编辑、游戏等以及多种操作系统如Linux、Windows等。EEMBC是Embedded Microprocessor Benchmark Consortium嵌入式微处理器基准测试联盟的简称是一个用于衡量嵌入式系统性能的基准测试。它包括了一系列的测试包括多种嵌入式处理器如ARM、MIPS等以及多种嵌入式操作系统如Linux、Android等。SPLASH-2是一个用于衡量超级计算机系统性能的基准测试由Stanford University开发。它包括了一系列的测试包括多种超级计算机如IBM Blue Gene、Cray XMT等以及多种操作系统如Linux、Unix等。NPB是一个用于衡量并行计算机系统性能的基准测试由NASA Ames Research Center开发。它包括了一系列的测试包括多种并行计算机如IBM Blue Gene、Cray XMT等以及多种操作系统如Linux、Unix等。三、Comments对文献的想法 强迫自己思考结合自己的学科 阅读体验不太好感觉写的略有些混乱我倾向于在分析图表的时候文字应该不要离图太远我看的时候明明已经在讲图八了又跳出去讲图六我自己读起来不太顺畅。在讲述方法时成本建模的部分和后面成本的分析是分开的一开始看会不明白这是一个chiplet assemble的问题测量的是性能为什么又考虑到成本最重要的是几个成本公式读起来关系有点跳脱还有后面的分析越看越糊涂……是我太菜了/(ㄒoㄒ)/~~里面还是涉及到很多基础知识比如提到的BEOL和FEOL等本菜菜是第一次见这是百度来的
BEOL层是指Back-End-of-Line层它是指晶圆上的最后一层它包括金属层和多层互连层。金属层是指晶圆上的金属层它用于连接晶圆上的元件。FEOL层是指Front-End-of-Line层它是指晶圆上的第一层它包括晶圆上的掩模层和多层互连层。
还有我觉得最让人迷惑的是几个关键指标我觉得没有说太清楚出现的频率又高。EDP/EDAP/DEA2P都是测试系统性能的指标没有给出公式难道是很常见的指标吗反正我没有百度到。逻辑分析我觉得对新手也不友好为什么EDP越低系统数目要越多workload的设计空间就越小诸如此类这样的问题有很多我也没看懂(′⌒)
四、Why:为什么看这篇文献 方便再次搜索
用于实验设计:
了解更多关于Chiplet设计空间探索的相关问题看能否将IntLP算法和毕设联系起来五、Summary:文献方向归纳 方便分类管理
Chiplet-Assembly-Based DSEDesign space exploration 整数线性规划 cost model