游戏传奇首页
游戏我的天下首页
最好看的新闻,最实用的信息
05月03日 12.0°C-14.6°C
澳元 : 人民币=4.74
悉尼
今日澳洲app下载
登录 注册

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行

2022-03-21 来源: cnBeta 原文链接 评论0条

访问购买页面:

京东NVIDIA系列商品汇总

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 1

架构基于Cambricon MLUarch03,支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算,峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

该卡采用7nm制造工艺,集成48GB LPDDR5内存,内存带宽614.4GB/s,PCIe 4.0 x16系统接口,整卡最大训练功耗250W,全高全长双插槽设计,系统被动散热。

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 2

单卡架构图

通过MLU-Link多芯互联技术,提供卡内、卡间互联功能,并专门设计了MLU-Link桥接卡,可实现4张加速卡为一组、8颗思元370芯片全互联。

每张加速卡通讯吞吐性能200GB/s,带宽为PCIe 4.0的大约3.1倍,可高效执行多芯多卡训练、分布式推理任务。

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 3

4卡桥接

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 4

单机8卡部署配置

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 5

4卡桥接拓扑

根据官方数据,Cambricon NeuWare SDK实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当。

多卡加速,借助MLU-Link多芯互联技术、Cambricon NeuWare CNCL通讯库的优化,8卡环境下达到更优的并行加速比,YOLOv3、Transformer、BERT、ResNet101训练任务中,8卡并行平均性能达350W RTX GPU的155%。

寒武纪未透露对比的NVIDIA 350W RTX GPU是哪一款,从规格来看,350W功耗的目前只有RTX 3090、RTX 3080 Ti。

当然,一个是专用AI加速卡,一个是GPU通用游戏卡,其实没有太大可比性。

MLU370-X8产品定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式,同时与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 6

单卡性能对比

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 7

8卡性能对比

性能1.55倍于NV 350W RTX 寒武纪发布全新AI训练GPU:8卡并行 - 8

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: info@sydneytoday.com 商业合作: business@sydneytoday.com网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:news@sydneytoday.com

友情链接: 华人找房 到家 今日支付Umall今日优选