当前位置：首页 > news >正文

北京近期传染病情况厦门关键词优化seo

news 2025/12/11 0:21:21

北京近期传染病情况,厦门关键词优化seo,网站设计费用明细,安卓app在线生成文章目录前言1. LatencyPCIE 生产者消费则模型结论Flit 包PCIE/CXL.ioCXL.cace .mem总结 2. BandWidth常见开销CXL.IO Link efficiencyPCIe Link efficiencyCXL.IO bandwidthCXL.mem/.cache bandwidth 参考前言 CXL 规范里没有具体描述与PCIe 相比低延时高带宽的原因 .mem总结 2. BandWidth常见开销CXL.IO Link efficiencyPCIe Link efficiencyCXL.IO bandwidthCXL.mem/.cache bandwidth 参考前言 CXL 规范里没有具体描述与PCIe 相比低延时高带宽的原因一开始我也很不理解不过慢慢就有点轮廓了做一个总结尽量讲通俗一点欢迎指正。 1. Latency PCIE 生产者消费则模型在开始之前首先提一嘴 PCIE 的生产者消费者模型因为在使用 PCIE 设备的时候主机与设备通信比如网卡收发数据、显卡接受数据等进行具体的业务数据传输时为了维护数据的准确性必须是使用生产者消费者模型的。如上图右侧为主机左侧为设备如果主机想要获取设备某段内存的地址除非特殊设计将设备内存映射到BAR 空间主机侧可直接地址访问否则必须是设备将要读取的内存区域的数据 copy 到 DMA 传输内存缓冲区中然后启动 DMA 传输通过PCIE 控制器传输数据到主机侧相应的 DMA 缓冲区并通过中断或者 flag 通知主机传输完成主机收到完成信号后会开始操作将DMA 缓冲区的数据拷贝到应用程序缓冲区进行下一步数据处理。哪怕是主机读设备一个字节也是上面这个流程延迟的分布不仅在 PCIE 协议层而且主要分布在最少两次的内存拷贝中。所以我要将延迟分两部分介绍一部分是控制器到控制器的延迟一部分是站在应用程序的角度读写对端内存的延迟. 结论后面内容太杂所以先说结论以免越看越乱。CXL 低延迟的实现根据上面两部分分类一类是控制器到控制器的延迟主要是因为采用 FLIT 模式的包增加了少数据量的带宽简化了硬件设计取消了PCIE的ordering rule, access right check、DLLP等换句话说CXL 控制器与PCIe 控制器设计上就降低了很多 latency。第二类站在应用层角度上看延迟主要是因为 CXL 协议可以维护缓存一致性所以减少了内存 copy 的操作从而降低了整体延迟。 Flit 包在讲 Flit 包之前我们可以先看一下 PCIe 传输层协议包的格式如下图其中红色部分为 TLP 包格式分为 3 -4 DW 的头0 - 1024 DW 变长的数据负载以及最后 1DW 的CRC. 其他字节为数据链路层以及物理层额外添加的开销。不同于 TLP, CXL 采用 Flit 模式发送数据CXL.cache / mem flie 大小固定 528bit, 有2字节的CRC以及 4 slots 的16字节块。其中 A “Header” Slot is defined as one that carries a “Header” of link-layer specific information A “Generic” Slot can carry one or more request/response messages or a single 16B data chunk. The flit can be composed of a Header Slot and 3 Generic Slots or four 16B Data Chunks. 总结一下就是 CXL Flit 就是固定的 4块 16 字节的区域外加一个2字节CRC. 这 4 块区域每块都可以放请求响应包也可以放数据块头只能放在 slot0 中。举个例子如下设备到主机的 flit 包, 最上面 slot0 有头也有响应包其他的有请求包也有响应包最后一个slot 放的16字节数据然后最后2字节CRC. 使用 Flit 优点如下其携带的额外信息很多优势就在于当你出现高速数据传输的时携带数据的能力越强速率越高数据量越大这种flit模式下的低延迟高速率的优势就会越明显PCIe 6.0 引入了 FLIT 模式其中数据包以固定大小的流量控制单元组织而不是过去几代 PCIe 中的可变大小。引入 FLIT 模式的最初原因是纠错需要使用固定大小的数据包FLIT 模式还简化了控制器级别的数据管理从而提高了带宽效率、降低了延迟并缩小了控制器占用空间。对于固定大小的数据包不再需要在物理层对数据包进行成帧这为每个数据包节省了 4 字节FLIT 编码还消除了以前 PCIe 规范中的 128B/130B 编码和 DLLP数据链路层数据包开销从而显著提高了效率尤其是对于较小的数据包。 PCIE/CXL.io 首先借鉴一下其他公司的 PPT , PCIe 设备访问主机内存的数据流如下 PCIe 设备访问主机内存有两种情况一种是直接内存访问流向如上图还有一种是站在应用程序的角度需要内存拷贝至少两次如前面的生产者消费者模型。他们都用不到缓存但会都用到 IOMMU. PCIe Latency Breakdown 如下 PCIe 控制器到控制器为 50ns, IOMMU 根据不同的环境时间是变化的内存控制器读写内存需要 100ns. 整体一路大概 500ns, 来回很难打破 1us. 这是站在应用层角度有了第二次拷贝这个 latency 算进去。实际延时应该会更长。如下为 CXLIO 设备到主机内存的数据流向与 PCIe 基本相似不同的是CXL 控制器与 PCIe控制器还是有点差异的多了一个 ARB/MUX 动态多路复用器件。软件层面可以与 PCIe 复用。 CXL.io 的性能如下 IO 的吞吐量比 PCIe 还要差 6%, 因为CXL.io 协议就是封装了PCIe 的TLP, 在前面加了2字节 Protocol ID 以及后面增加了 2字节的 reserved bytes。增加了的 ARB/MUX 器件也会消耗 2 - 4 ns。如下图 CXL Flit 包的在 X8 的分布,每条 Lane 发送一个字节第一部分的橙色部分为封装的 PCIe 的包黄色部分为添加的 2 字节 Protocol ID, 最后有 2字节的 reserved bytes CXL.cace .mem 下图为 CXL.cache 设备访问主机内存的数据流向 .cache 协议可以让设备像访问本地内存一样访问主机内存设备CPU与主机 CPU 可以共同访问同一个地址的数据缓存一致性由主机侧的 Cache Home Agent 来维护。根据 MESI 协议看情况是否去访问实际内存。 .mem 则相反方向让主机使用缓存访问设备内存就像访问本地 DDR 内存一样。下图为 .cache 与 .mem 的好处主机和设备相互访问对方内存可以直接使用内存语义, load/store不用再使用生产者消费者模型使用中断或者 flag 通知对方也不用多次拷贝了设备侧可以同样使用主机页表那样主机进程和设备就可以访问同一块虚拟地址空间了下图为 CXL microarchitecture with CXL.$Mem measured latency. intel 控制器比标准PCIe PHY 做了如下延迟优化 bypassing the 128-/130-byte encodingbypassing the logic and serializing flops needed to supportbypassing the deskew buffer if the lane to lane skew is less than half the internal PHY logical clock periodadopting a predictive policy of processing entries from the elastic buffer (versus waiting for the clock domain synchronization handshake for every entry) 最终 PHY 到 PHY 之间有一个 15 - 19 ns 的延迟其中4ns 的差异是由参考时钟决定的depending on whether a common reference clock or independent reference clocks are deployed. 与前面 PCIe 的50 ns 对比是有时间节省的不过实际情况根据不同的IP, 可能会有更大的差距。这里需要注意的一点是最底层的模拟 PHYPCIe 与 CXL 使用的是同一个这个意味着对于RC与EP的模拟phy 到模拟 phy相同的数据量时间是一样的。 More Latency Savings with CXL.mem /.cache 及其他 The link layer and transaction layer paths have a low latency since they are natively flit based. This eliminates the higher latency in the PCIe/ CXL.io path due to the support for variable packet size, ordering rules, access rights checks, etc. saving latency due to simplified controller design.Break out of the PCIe ordering model Latency saving through out-of-order transfers, write completionsARB/MUX: CXL.Cache/Mem protocol muxing at the PHY level (versus higher level of the stack) helps deliver a low latency path for CXL.$Mem traffic.Coherence Bias Latency savings with optimized snoop traffic in Device Bias mode 其他的介绍开销的地方前两个由于使用 FLIT 模式传输PCIe 协议包耗时的逻辑取消了第 3 点是硬件期间 ARB/MUX 为协议选择低延迟路径还是硬件控制器IP 加速了最后一条是 CXL 协议的功能设备偏置有利于加速设备访问主机内存。下图为 CXL.cache/mem 延迟分布 CPU 访问内存以及 Cache 一致性操作CXL 协议层消耗 25 ns 设备侧应用层延迟以及内存访问延迟下图是一个 Type2 设备读主机内存的时间估计请求响应包一个来回共 25 25 50ns, 主机访问内存消耗 100ns 左右整体 150ns 左右外加设备侧应用消耗下图为写请求与响应一个来回写操作再携带数据发送一遍25 25 25 75 ns, 主机侧写内存消耗 100ns 左右总计 175ns左右。其他影响延迟的因素多处理器环境以及 snoop 的响应的缓存一致性管理增加延迟IOMMU 中的虚拟地址到物理地址的转换等也会有影响不过这是 PCIe 与 CXL 共同面临的问题。如下是 RAMBUS 公司设计的 CXL Controller IP 控制器与上层接口也使用了 Intel 低延迟的 CPI 接口控制器也使用了其他技术减少延迟。总结由上总结CXL 比 PCIe 延迟低的原因如下与PCIe相比CXL Flit 模式简化控制器设计控制器其他硬件设计降低延迟最少 50 ns- 25ns;Flit 模式增加了少数据量的带宽CXL 协议包降低了数据处理逻辑取消了排序规则以及DLLP等节省开销;CXL 协议功能取消了内存拷贝节省开销等 2. BandWidth 这里的带宽是指每秒传输的有效数据有效数据即读写的数据。前提X16 Gen5 在速率 32 GT/s 下原始带宽每个方向 64 GB/s 32 GT / s * 16 / 8bit。常见开销在 68-byte flit 模式下三种常见开销 128/130 0.9846 represents the sync HDR overhead (which can be reclaimed when sync HDR bypass is supported) 这里不是 128/130 编码, 是 Flit 每条Lane上的 2bit的 Sync Header01代表128bit前插入 Order set block, 10 表示该 block 为 data block 支持 Sync HDR bypass 的时候此开销可以取消 374/375 0.9973 represents the bandwidth loss due to SKP ordered sets for common clock (higher for other mode) SKP : 最多 375 字符插入 SKP 方式达到补偿时钟偏差的目的 PCIe 与 CXL 都有的开销 64/68 0.9412 representing the flit overhead (2 bytes each for protocol ID and flit CRC). CXL Flit 模式特有的前面 2字节 Protocol ID, 后面 2 字节 CRC FLit 包格式如下图CRC 画错了PROTID 与 CRC 之间应该是 4 个 slot 共 64字节下图也是 68B Flit 包由上知链路效率使用 HDR Flit 包 0.9846 * 0.9973 * 0.9412 0.9242 关闭 HDR Flit 包 0.9973 * 0.9412 0.9387 CXL.IO Link efficiency 68-byte flit 模式下假设DLLP 包损耗 2% .IO 链路层效率为使用 Sync HDR : 0.9242 * (1 - 0.02) 0.9055 关闭 Sync HDR : 0.9387 * (1 - 0.02) 0.9199 PCIe Link efficiency PCIe 不适用 flit 模式所以第三个开销没有另外两个开销 0.9846 * 0.9973 0.9819此外还有 2%的 DLLP 开销所以总开销为 0.982 * (1 - 0.02) 0.9624. 与 CXL.io 相比PCIe 链路层效率还上升了 6%主要在 Protocol ID 与 CRC 上。 CXL.IO bandwidth 计算带宽一般是 100% 读100%写50%读50%写三种情况这里就不一一分析了。只分析个简单的 100% 读。设 D 为数据负载单位 DW 双字 1 DW 4 字节。 IO 里面封装的 TLP 包 TLP 包头是 3-DW for completions and 4-DW for requests (read/write). An additional overhead of 2-DWs for framing and CRC is incurred per TLP with 68-byte flit (FT_CRC 2)这里可能是计算的 CXL3.0 256B Flit 的开销。带宽计算方式如下所以 1R0W 的结果为 0.9199 /6 * 64GB /s 9.812GB /s, 其他同理。 CXL.IO Bandwidth 结果如下 PCIe 与 CXL.IO 差不多从结果看少量数据效率低大量数据效率高所以对于大数据量来说, CXL 与 PCIe 相比提高不大不过对于小数据量的读写访问比如 8个字节来说优势则巨大。 CXL.mem/.cache bandwidth 主机读 Type 2 设备内存流程如下图主机读 Type 3 设备内存流程如下图主机读设备都是发送一个读请求只不过对于 Type2 设备会附加缓存状态信息Snoop SnpData, Type2 设备会返回 S2M DRS NDR, Type3 设备会只返回 S2M DRS这是 Type2 与 Type3 的重要区别此条信息值一万。 S2M DRS 是响应数据包NDR 是无数据响应用来指示主机缓存状态的此外都要外加一个缓存行大小的数据 64 字节。同样以 1R0W 为例计算带宽x reads, y writes, 以 slot 为单位有效数据占 4 slot. 在看下图 S2M DRS S2M NDR Flit 包 0 - 3 字节为头4 - 8 字节为 S2M DRS, 9 - 12 字节为 S2M NDR. 所以对于 Type3 来说S2M DRS 占半个 Slot. 由上可计算得到 S2M 使用的最大 slots 为 (x y) / 2 4x, 有效数据占 4x 则最终 bandwidth 为 LinkEfficiency * 4x / ((x y) / 2 4x) 0.9387 * 4 / (1/2 4) 0.8344, 0.8344 * 64GB/s 53.4 GB / s 其他 cache 与 mem bandwidth 计算公式如下图结果如下因为PCIe 的有效数据负载是可变的所以 1DW - 1024 DW 效率随着负载的增多在不断增大CXL 读写操作的字节长度是 64 字节读128字节的数据就是发送两个 S2M DRS 包所以一个方向的带宽是不变的。打完收工参考《Compute Express Link (CXL) Specification Revision 3.0》《An Introduction to the Compute Express LinkTM (CXLTM) Interconnect》《Compute Express Link (CXL): Enabling Heterogeneous Data-Centric Computing With Heterogeneous Memory Hierarchy》RAMBUS Company PPT

查看全文

http://www.dnsts.com.cn/news/144370.html