鄂州英文网站建设,竞价托管魏大帅,wordpress的aware主题,公众号制作用什么软件1.数据并行DP#xff08;朴素数据并行#xff0c;Zero数据并行之后补充#xff09; O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度#xff0c;故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l
优点…1.数据并行DP朴素数据并行Zero数据并行之后补充 O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l
优点运用简单效率高计算和通讯之间可以做异步。
缺点有时候单个GPU无法容纳下整个大模型做训练。
流水线并行PPGpipe O ( b ∗ s ∗ h ∗ l / k ) O(b*s*h*l/k) O(b∗s∗h∗l/k) 每个pp层之间发送中间变量大小和输入x相同大小为 b ∗ s ∗ h b*s*h b∗s∗h乘以正向和反向一共要传递的次数 2 ∗ ( l / k − 1 ) 2*(l/k-1) 2∗(l/k−1)得到上述大致的数量级
优点通讯量小数据无关。
缺点要保证模型能均匀切分否则会影响性能。需要用到重计算来支持更大的批量 b b b从而保证流水能发挥作用。反传之前需要等待所以微批量计算。
张量模型并行TMP O ( b ∗ s ∗ h ∗ l ) O(b*s*h*l) O(b∗s∗h∗l) MLP层第一个W1纵向切第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 O ( b ∗ s ∗ h ) O(b*s*h) O(b∗s∗h)不同是TMP发送量和模型Transformer层数成线性关系。
优点能切分很大的Transformer模型。
缺点通讯量大且通信一般只在节点内部的多卡通讯不做跨节点通讯。头数需要被GPU整除。
*一般而言 b ∗ s b*s b∗s略大于 h h h k k k是 l l l的1/10故一般而言通讯量TMPDPPP.在实际的工程中一般TMP和PP都在节点内通讯只有数据并行会做跨节点通讯。