单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?

单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?

浪潮百度联合发布SR-AI整机柜服务器

前段时间,浪潮与百度联合发布了面向智慧计算的创新产品——SR-AI整机柜服务器。这款产品符合最新的天蝎2.5标准,是全球首个采用PCIe Fabric互联架构设计的AI方案,为更大规模数据集和深层神经网络领域,提供更强性能的AI计算平台。

单节点16卡、单物理集群64卡的超高密扩展能力,512TFlops的性能,ns级的延迟等性能参数都让人眼前一亮。但是或许你还有些疑问,为什么要设计如此强大的AI计算设备?能够给我带来什么样的价值?这么大的功率密度下能保证稳定性么?本文就尝试解答你的这些疑惑。

从人工智能的兴衰看计算力的重要性

1950 年,著名的图灵测试诞生,按照艾伦·图灵的定义:如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。图灵还预言了创造出具有真正智能的机器的可能性。紧接着西洋跳棋程序和国际象棋程序相继诞生,人工智能游戏也被当着衡量人工智能进展的标准之一。

但是随着更多人工智能相关的投入,人们发现AI却没有按照预想的结果发展,由于计算机性能的瓶颈、计算复杂性的指数级增长、数据量缺失等问题,一些难题看上去好像完全找不到答案。人工智能也因此进入了低潮。

而这些问题进入21世纪才开始被逐步解决。2012年,吴恩达和Jeff Dean带领的Google Brain研究小组用1000台服务器(包含2000颗CPU、16000多个处理核心),建造了一个由10亿多个连接点构成的神经网络,从1000万张YouTube截图对这个神经网络进行训练,经由了10天时间的运转,让它认出了猫。由此可见,随着互联网数据中心的计算集群和计算能力大增,越来越多的AI应用得以实现。但其中还可以看到另外一个问题,训练一个模型使用了1000台服务器的集群,因此这是互联网巨头才能玩得起的“土豪游戏”。

单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?


谷歌和斯坦福AI实验室识别猫所需要的性能对比

然而,在谷歌实验的第二年(2013年)斯坦福大学AI实验室用3台GPU服务器,12颗GPU就达到了同样的性能。GPU服务器所具备的超强并行计算能力开始被人工智能公司所重视,并由此开启了AI的大爆发。后面发生的事,大家就很熟悉了,AlphaGo战胜李世石、百度无人车路测成功···

在这些AI应用的背后是不断发展的计算平台,从单机单卡、到单机多卡、到多机多卡集群,计算密度也从2卡、4卡提升到更高的8卡。但人工智能应用对计算力的需求似乎永无止境,单机8卡的GPU服务器也不能满足单一超大规模模型的训练,而多服务器集群也因为跨节点通信的延迟导致效率损耗严重。

因此,更高的单机点计算密度,更大规模、更低延迟的计算集群,成为人工智能应用的一致诉求。近日,浪潮发布的单节点16卡、单物理集群64卡的SR-AI整机柜就成了备受期待的AI计算利器。

64块GPU卡的物理计算集群是如何炼成的

传统的GPU服务器通常为2卡、4卡最多8卡,每个节点空间和PCI-E资源有限,所能挂在的GPU设备的数量也较少。因此在训练复杂模型时,需要通过网络和相关控制软件组成一个GPU计算集群。但不同节点所挂载的GPU卡间通信,是需要走外部的网络,这样会有很高的延迟。

单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?


浪潮SR-AI整机柜服务器的计算模块

反观浪潮SR-AI整机柜服务器,这是全球首个采用PCIe Fabric互联架构设计的产品。采用了完全颠覆式的架构,GPU和CPU物理解耦,使二者可灵活扩展。SR-AI整机柜中的GPU Box中仅包含16块GPU卡以及相关的主板,通过线缆的连接到PCIe Switch中,再经由Switch连接到前端的计算节点,由此组成一套完整的GPU计算系统。而PCIe Switch可以挂接4个GPU Box,也就是说单个GPU计算系统可以最大可扩展64块GPU,计算能力飙升至512TFlops以上。

更重要的是,这套系统中的64块GPU卡间的通信全部通过PCIE协议,不需要PCIE到TCP/IP协议的转化,因此延迟将会大大降低。下面就来看看浪潮SR-AI整机柜到底能够降低多少延迟。

延迟可降低50%以上,达到ns级

用户喜欢...

2018年人工智能还有这五大棘手问题待攻克

在所有关于杀手机器人的高调宣传下,2017年在人工智能方面取得了一些显著的进步。例如,今年初名为Libratus(冷扑大...


机器换人趋势不可阻挡 人类该如何应对

11月30日消息,目前,世界上的许多国家都在被一个问题困扰——如何照看越来越多的老人。看护机器人是一款专门为...


厨电产品的科技化 让更多年轻人走进厨房

印象中的厨房从来不是一个受欢迎的地方。弥漫呛鼻的油烟、脏兮兮的厨房、被熏得不知是眼泪还是汗水的脸庞,作...


首款真正的无人驾驶汽车上路行驶

无人驾驶技术可能是最具颠覆性且炒作最多的新技术之一,无人驾驶汽车是大型汽车制造商与科技企业之间一场竞赛...


微软推NExT计划:用人工智能来发现治疗癌症的方法

今年早些时候,微软推出了一项新的医疗保健计划 NExT,这是一项旨在将人工智能、健康研究和行业合作伙伴的专业知...


AI人工智能+汽车,会有怎样的反应?

鱼AIUI是飞鱼2.0系统的大脑,通过应用人工智能集大成技术,深度打通汽车本地服务及互联网在线内容服务,为用户带...


AI上升为国家战略 机器人赋予科技新生命

互联网的发展构建了地球村,人工智能的发展正在点亮智慧地球村。作为新一轮科技革命和产业变革的核心驱动力,...


科目二将成浮云!国产机器人两分钟帮你搞定停车

近日,台州中心医院引入一台康复治疗的机器人,专门用作上肢康复使用。它让艰难的康复锻炼变得有趣起来,来做...


服务机器人何时从“智障玩伴”变“智能助手”?

与发那科在中国市场的销量相比,美国市场的表现就有些相形见绌了——据统计,仅去年一年,中国国内就购买了9万...


“人工智能+自动驾驶”渐入深入融合阶段

10月17日,丰田汽车公司对外表示,将于2020年左右开始测试自己的自动驾驶电动车,这种电动车将会使用人工智能技术...


机器人和人工智能在软件测试行业竟如此重要

在移动应用程序大行其道的今天,我们也看到机器人技术和人工智能的应用,特别是在软件测试中。我们有足够的理...


使用人工智能技术研发癌症新药 癌症真的有救了?

美国国家癌症研究所估计有十分之四的美国人可能会在某一时刻被诊断出癌症。33%的癌症患者寿命不会超过5年,这让...


豪威科技OmniVision推出突破性夜鹰Nyxel?近红外技术,可灵活适用于多种夜视及机器视觉应用

高科技处理工艺成功提高量子效率从而实现更好图像质量,长距离图像捕获,减少光源功耗需求。此项技术成功使用...


蓝芯科技高勇:赋予机器人“视觉”实现智慧物流

五年前,电商巨头亚马逊以7.75亿美元拿下了仓储机器人公司Kiva,将“自动化仓储”推上了风口。随着资本和资源的涌...


机器人与人工智能成了这一技术时代的新趋势

伴随着人机交互、机器学习、模式识别等人工智能技术的提升,机器人与人工智能成了这一技术时代的新趋势。...


蓝牙、虹膜、指纹 当门锁也搭上这些黑科技会发生什么

在“更加安全”比拼上,智能锁自带蜂鸣报警器、可视对讲等功能,并在开启方式上做了很多互联网+的创新,比如...