琴智科技

产品及技术

产品技术介绍

思元290系列智能加速卡

思元290系列智能加速卡寒武纪首颗AI训练芯片

寒武纪思元290芯片,采用创新性的MLUv02扩展架构,使用台积电7nm先进制程工艺制造,在一颗芯片上集成了高达460亿的晶体管。芯片具备多项关键性技术创新, MLU-Link™多芯互联技术,提供高带宽多链接的互连解决方案;HBM2内存提供AI训练中所需的高内存带宽;vMLU帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助AI计算应对性能、效率、扩展性、可靠性等多样化的挑战。

核心优势

寒武纪MLUv02扩展架构

寒武纪MLUv02扩展架构

思元290基于MLUv02架构进行了多项扩展,实现峰值算力提升4倍、缓存带宽提高12倍、芯片间通讯带宽提高19倍。新架构采用7nm制程,可提供更高性能功耗比,以及多MLU系统的扩展能力。

寒武纪MLU-Link™多芯互联技术

寒武纪MLU-Link™多芯互联技术

MLU-Link™多芯互联技术,首发于寒武纪思元290芯片,总带宽高达600GB/s,支持思元芯片间互联和跨系统互联,可实现计算中心级纵向扩展,满足超大型AI模型训练的需要。

寒武纪vMLU虚拟化解决方案

寒武纪vMLU虚拟化解决方案

寒武纪虚拟化技术vMLU,支持在思元290上实现4个相互隔离的AI计算实例,每个实例独占计算、内存和编解码资源,在虚拟化环境下仍可保持不低于90%的极高效率,帮助客户充分利用硬件资源。

寒武纪Neuware端云一体软件栈

寒武纪Neuware端云一体软件栈

寒武纪Neuware软件栈采用端云一体架构,支持寒武纪全系列产品共享同样的软件接口和完备生态,可方便地进行AI应用的开发,迁移和调优,轻松实现云端开发训练模型,终端部署应用。

自适应精度训练

自适应精度训练

思元290采用寒武纪自适应精度训练方法。自适应精度训练可自适应调整深度学习模型不同层、不同数据类型的量化参数,同时量化参数调整周期也是自适应的,可在保证精度要求的基础上提高能效比。

高带宽内存

高带宽内存

思元290承载了32G高带宽内存(HBM2),单芯片内存带宽高达1.23TB/秒,是思元270芯片的 12倍,有效解决传统加速器芯片内存带宽瓶颈问题,为用户提供更高的模型训练速度。

应用领域

思元270与思元290理论峰值性能对比

理论峰值性能对比

MLU290-M5

MLU290-M5

MLU290-M5智能加速卡搭载寒武纪首颗训练芯片思元290,采用台积电7nm先进制程工艺,采用MLUv02扩展架构,集成了高达460亿的晶体管。MLU290-M5智能加速卡采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link™芯片间互联技术,在350W的最大散热功耗下提供AI算力高达1024TOPS,全面支持AI训练、推理或混合型人工智能计算加速任务。

产品规格

思元290-M5 产品规格
产品名称 MLU290-M5
核心架构 Cambricon MLUv02 Extended
制程工艺 7nm
最大AI算力 1024 TOPS (INT4)
自适应精度训练算力 512 TOPS (INT8)
256 TOPS (INT16)
64 TOPS (CINT32)
计算精度支持 CINT32, INT16, INT8, INT4, FP32, FP16
DirectCV™视频解码 128 Streams 全高清视频
DirectCV™图片解码 3200 Frames/s 全高清图片
内存类型 HBM2高带宽内存
内存容量 32GB
内存位宽 4096 bit
内存带宽 1228 GB/s
系统接口 x16 PCIe 4.0
MLU-Link™接口 6 Ports, 48 Lanes, 50 Gbps
MLU-Link™带宽 聚合带宽600GB/s Bi-direction
vMLU实例 4个
最大热功耗 350W
形态 OAM (54V)
尺寸 102mm x 165mm
含散热器重量 1470g

 

联系我们