当前位置: 首页 > news >正文

鄂州英文网站建设竞价托管魏大帅

鄂州英文网站建设,竞价托管魏大帅,wordpress的aware主题,公众号制作用什么软件1.数据并行DP#xff08;朴素数据并行#xff0c;Zero数据并行之后补充#xff09; O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度#xff0c;故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点…1.数据并行DP朴素数据并行Zero数据并行之后补充 O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点运用简单效率高计算和通讯之间可以做异步。 缺点有时候单个GPU无法容纳下整个大模型做训练。 流水线并行PPGpipe O ( b ∗ s ∗ h ∗ l / k ) O(b*s*h*l/k) O(b∗s∗h∗l/k) 每个pp层之间发送中间变量大小和输入x相同大小为 b ∗ s ∗ h b*s*h b∗s∗h乘以正向和反向一共要传递的次数 2 ∗ ( l / k − 1 ) 2*(l/k-1) 2∗(l/k−1)得到上述大致的数量级 优点通讯量小数据无关。 缺点要保证模型能均匀切分否则会影响性能。需要用到重计算来支持更大的批量 b b b从而保证流水能发挥作用。反传之前需要等待所以微批量计算。 张量模型并行TMP O ( b ∗ s ∗ h ∗ l ) O(b*s*h*l) O(b∗s∗h∗l) MLP层第一个W1纵向切第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 O ( b ∗ s ∗ h ) O(b*s*h) O(b∗s∗h)不同是TMP发送量和模型Transformer层数成线性关系。 优点能切分很大的Transformer模型。 缺点通讯量大且通信一般只在节点内部的多卡通讯不做跨节点通讯。头数需要被GPU整除。 *一般而言 b ∗ s b*s b∗s略大于 h h h k k k是 l l l的1/10故一般而言通讯量TMPDPPP.在实际的工程中一般TMP和PP都在节点内通讯只有数据并行会做跨节点通讯。
http://www.dnsts.com.cn/news/11875.html

相关文章:

  • 杭州如何设计公司网站做模板的软件
  • 怎么样申请网站域名深圳宝安中心区
  • 孝感做网站xgsh遵义网站搭建公司哪家好
  • 录音录像手表网站wordpress 拓展
  • 哪个网站可以做照片分享标杆建设网站
  • 大连模板网站制作费用陵园网站建设价格
  • 找建设网站咋建网站
  • 请详细说明网站开发流程及原则昆明做整站优化
  • 精美网站设计欣赏网站建设常出现的问题
  • 网站图标ico 设置专业微网站建设公司首选公司哪家好
  • 网站维护的协议开发一个个人网站
  • 高端设计网站制作中国政务网站建设绩效评估
  • 在线玩网页游戏h5网站大全商城开发平台
  • 太原制作响应式网站刘强东自己做网站
  • 新网站seo优化山东建设厅网站 高英
  • 磁县邯郸网站建设广西上林县住房城乡建设网站
  • dw软件怎么用安徽优化推广
  • 昊客网络惠州市企业网站seo点击软件
  • 网站开发发展现状上海热门事件
  • 做海报哪个网站好无锡高端网站建设开发
  • 三明购物网站开发设计网站左侧边栏导航代码
  • 关于网站建设的工作总结网站建设广告背景图
  • 网站变app热门图片素材
  • 深圳网站建设推广论坛html演示网站
  • 上市企业网站建设phpcms 多语言网站
  • 岳池建设局网站网站建设捌金手指专业5
  • 广东网站建设微信商城运营中国企业排名100强
  • 国外的设计网站app吗wordpress使用html5
  • 网站备案取名wordpress 4.7.1
  • 找简历的网站外网怎样访问自己做的网站