首页 - 国内时事 - 快豹,再一次验证!华为面向AI年代的智能无损数据中心网络功能全面抢先,萧瑟

快豹,再一次验证!华为面向AI年代的智能无损数据中心网络功能全面抢先,萧瑟

发布时间:2019-05-05  分类:国内时事  作者:admin  浏览:244

什么样的快递物流会被用户认可?毫无疑问,一个不丢包裹、没有暴力分拣、送货速度快的企业会成为用户的首选。

假如咱们把快递物流所发挥的效果放到数据中心看,那么相同,一个零丢包、低时延、高吞吐的网络更显得十分重要!

众所周知,数据中心有“三大件”:核算、存储和网络。存储首要用于存储事务使用的各类数据,核算从存储设备获取数据并对数据进行处理。网络则建立了核算和存储资源的通道,它是一条高速路、国道仍是省道直接影响了数据中心的运转功率


所以,业界的一切网络厂商都在竭尽全力建好这条运送数据的“物流通道”。例如RDMA的呈现,便是新式网络的成功探究,它能够完结事务使用直接拜访网卡而不需经过CPU内核,然后减少时延又进步CPU利用率。

可是RDMA便是那条最佳的“物流”吗?尽管它有比较TCP/IP的许多长处,但也存在一个很大的缺陷:对网络丢包反常灵敏。传统以太网0.1%的丢包,会导致RDMA协议处理才能下降50%,从而使得现在越来越热的AI练习的核算才能下降50%。

其完结行网络存在网络丢包和时延的对立点,独自处理某一个问题并不难,难点在于一起处理这两个问题,怎么找到这个“跷跷板”的平衡点需求立异的技能。

这项立异技能被华为霸占,其提出的CloudFabric智简数据中心网络面向AI年代的子计划AI Fabric智能无损数据中心网络处理计划,初次处理了网络传输耗时和简单丢掉数据这个两难的问题

近来,AI Fabric所体现的立异与价值得到世界威望测验组织Tolly Group的认可,在其进行的比照测验验证成果标明,华为AI Fabric由CloudEngine系列数据中心交流机组网,比较业界其他干流厂商的组网计划,功能体现杰出,优于Tolly进行的比照测验验证的思科平等款型交流机的相同组网

详细从高功能核算、人工智能/机器学习和分布式存储三大典型使用场景来看,Tolly对华为AI Fabric处理⽅案进⾏了功能评价,并与思科Nexus交流机组⽹功能进⾏了比照。华为和思科的⽅案均根据RDMA over Converged Ethernet(RoCEv2)。在一切三大场景中,华为AI Fabric处理计划的功能均优于思科。

AI练习功率比照高于27%

首先以大热的人工智能来说,在深度学习的AI练习模型中,为了满意处理海量非结构化数据的要求,核算单元从CPU开展到了GPU,存储介质从HDD机械硬盘演进到了SSD闪存盘,它们的功能均进步了100倍以上。但是,网络通讯时延却成为全体功能进步的瓶颈。

即便逐步鼓起的RDMA网络,好像前文所说,也没有有用处理这个难题。

Tolly测验验证华为AI Fabric智能无损数据中心网络能够完美地处理此问题。经过苛刻测验,在服务器经过AI算法深度学习辨认图片的100Gbps时,AI Fabric能够彻底做到0丢包,使得GPU每秒能够学习辨认478个图片,这个成果高出思科27%。测验成果如下图所示:



通讯时延比照缩短30%

其次以高功能核算来看,因为HPC体系的MPI AllReduce模型常常导致网络中传输的数据量会瞬间撑爆网络管道。也便是网络会周期性迸发多打一的Incast流量,瞬间超越网络设备的承受才能,形成拥塞和丢包。

传统以太网为了避免数据丢掉,会把这些数据放入缓存行列排队,并重复不断地从头传送,大大延伸了网络传输时刻,从而导致核算使命完结时刻也被延伸。怎么平衡好网络丢包和时延成为令人头痛的难题。

Tolly测验验证华为AI Fabric能够很好地处理这个问题。高功能核算一般会把使命分解成8字节或许16字节的子使命。此刻,AI Fabric不只没有丢包,而且完结一次All Reduce核算使命的时刻比思科缩短了30%。测验成果如下图所示:



分布式存储IOPS功能比照高于30%

终究再从分布式存储来看,好像前文屡次表述,存储介质从HDD到SSD,介质拜访时延缩短了100多倍,但是传统以太网的通讯时延上升到存储处理时刻的50%以上。

通讯时延大,存储拜访I/O端口的时刻就长,每秒能够拜访的I/O端口数就少,存储拜访I/O端口的IOPS功能就会遭到严峻限制,数据的实时存储也就无法完结。怎么下降网络时延从而进步存储IOPS功能成为极大应战。

Tolly测验再次验证,AI Fabric能够很好地使存储介质的IOPS功能发挥到极致。测验成果标明,相同的存储介质,布置AI Fabric后存储的IOPS功能比较思科进步了30%以上。测验成果如下图所示:



AI Fabric为何能做到“更快、更高、更强”?

其实此前,华为AI Fabric现已经过世界威望第三方独立测验组织EANTC的数据中心高功能测验,此次Tolly测验再一次标明,AI Fabric使数据中心“大脑”处理速度(HPC高功能核算)更快了,比以思科为代表的业界尖端水平进步了30%;“回忆”才能(存储IOPS)更高了,比照进步30%;“认知”才能(分布式AI练习)更强了,比照进步27%。

假如要问,AI Fabric为何能做到“更快、更高、更强”?这就不得不提到其所具有的几大关键技能:华为初次给CloudEngine数据中心交流机装上了才智的“芯”,并首创了iLossless智能无损算法,完结守时收集流量特征和动态基线智能调整,终究带来0丢包、低时延、高吞吐的极致网络功能。



无论是硬件上的“芯”晋级,仍是软件算法上的打破,这些技能立异得以让华为AI Fabric智能无损数据中心网络处理计划功能体现杰出。

而且,华为AI Fabric在互联网和金融范畴已有了成功实践。它让某互联网巨子无人驾驶使用的核算功率进步了40%,让招行存储的IOPS功能进步了20%。以数据说话,能够想见AI Fabric一定会招引越来越多的企业选用。

新的机会,AI Fabric正在引领数据中心迈向智能无损网络,推进企业加快迈向AI年代!