评论网 发表于 2018-8-21 10:57:33

铁流:曙光和寒武纪联手研发全球首款采用神经元计算的...

  10月24日,2017中科曙光智能峰会在青岛盛大开幕。包括中国工程院原常务副院长、院士潘云鹤,中国工程院院士、曙光公司董事长李国杰、中国工程院院士潘德炉在内的一大批专家和企业界代表参加大会。在大会上,曙光发布了全球首款在推理应用上采用神经元计算的服务器产品;以及能够快速释放计算能力的人工智能管理平台SothisAI。那么,这款搭载了20片寒武纪芯片的服务器有何独到之处呢?人工智能管理平台SothisAI又用怎样的用武之地?我们邀请了曙光公司副总裁沙超群为大家答疑解惑。

  问:作为服务器厂商,曙光为何这么重视人工智能?

  沙超群:了解曙光的朋友们都知道,曙光这家公司从李院士和历军总裁创立之初,我们专注于计算,在过去的高性能计算、云计算、大数据处理等通用计算,我们都是专注在计算领域,别得也干不了,计算我们干得还不错。今年国务院也印发了我国人工智能的发展规划,人工智能技术是信息产业发展的新方向,也是我们曙光所从事的高性能计算机发展的未来新的应用领域。曙光在未来大型计算机的研发和应用过程中,人工智能也一定是最重要的发展方向。

  问:曙光已经有哪些应用和产品?

  沙超群:曙光在过去几年当中,高度重视人工智能技术和产品发展。我们已经在一些超级计算机的应用方面,大量采用了人工智能的技术。比如新疆的云计算中心通过超级计算机进行实时视频图像的分析和处理,以便为平安城市等带来社会效益。同时,曙光的百城百行云计算发展计划当中,城市数据已经经过了近十年的积累,形成了比较大规模的数据量。在曙光的发布会上,我们公布了三款产品,分别是“PHANERON”推理专用服务器、曙光的X860-LE全浸没式液冷的AI训练专用服务器和曙光人工智能管理平台SothisAI。

  在2016年数据中国加速计划的会议上,曙光和寒武纪签约了战略合作,经过一年的时间,两个研发团队研发出了一款“PHANERON”推理专用服务器,这是世界首款在推理应用上采用神经元计算的服务器产品,这个名字的意思大概是这样的,是取自“显生宙”的词头,象征着采用神经元进行在线推理计算。

  问:这款“PHANERON”推理专用服务器有什么特别之处么?

  沙超群:这样一款产品在4U空间中部署20个人工智能前端推理模块,能够为推理提供强大的计算支持,单位节点峰值推理计算能力达到120TFlops,还通过提高密度来降低总体服务器的部署数量,可显著降低项目总体投资。今天推理用的在线服务器产品,由于它的应用模式,大概一台机器可以顶上20台通用的服务器产品,也就是1:20,大家可以想象在成本空间的节约上,优势非常大。

  其实更让我个人兴奋的不是这款产品,而是计划明年年底推出PHANERON2这个产品,性能提升5-6倍,那时候一台这样的服务器可以顶上100台通用的服务器产品。

  问:能介绍下曙光的X860-LE全浸没式液冷的AI训练专用服务器么?

  沙超群:在机器学习方面,我们由于需要大量图片深度分析,最早从提供2U,到现在是8U,一个2U的设备空间基本没有办法解决散热。数据中心42U可以放20台这样的设备,功耗是60千瓦,大概在一个柜子里面,500瓦的电炉子,可以放120个电炉子。风冷解决方案对该量级的散热问题已经束手无策。

  曙光的X860-LE全浸没式液冷的AI训练专用服务器就是专门解决能耗和噪音的问题,我们把它浸没在液体当中,通过蒸发把热量带走。这个产品有两个特点:第一个是业界最高密度的GPU的训练平台。它是世界上PUE最低的训练的服务器产品,它的PUE能到1.02。刚刚谈到了噪音的问题,这个系统是零噪音。回到PUE的问题,今天我们的数据中心大概PUE会在1.6-2.0,我们这个产品的PUE是1.02。大概算一下,一个300瓦的GPU,在制冷方面的能耗节约大概180瓦,如果现在PUE是1.6的话,一个GPU每年省电是1200元。今天很多客户这种GPU的采购已经是2万片-3万片,仅仅在这一块的节能就是巨大的,同时也节约了大概两三千万的运营费用。

  问:曙光开发人工智能管理平台SothisAI的目的是什么?

  沙超群:曙光开发人工智能管理平台SothisAI,做这个平台有两个目标:第一个目标是让AI尽量简单化。今天做AI计算的时候,需要做大量硬件异构的配置,需要研究不同的框架,不同的框架里要部署不同的软件,还要进入大量的数据进行训练,这个过程当中非常复杂,非常难用。我们的想法是让它简单化,容易化,调动自动化,只需要简单配比就可以初步使用AI平台来计算。我们希望用户用完以后说“这就是AI,不是那么难”,这就是我们的名字为什么起SothisAI的原因。第二个目标就是支持更多的生态发挥好更好的性能。

  问:人工智能管理平台SothisAI有何独到之处?

  沙超群:曙光构建的人工智能平台,包括硬件,软件和服务等方面。

  硬件计算平台能支持CPU,GPU,FPGA,ASIC等不同类型的芯片,面相训练和推理不同的应用场景做了全面覆盖和优化,在硬件的平台的制冷散热方面,已经能够支持浸没液冷等先进技术,走在了业界前列。

  在软件方面,曙光投入了很大精力,面向不同芯片优化函数库等基础软件环境,相比通用软件环境有显著的性能提升。库的优化会大大提升我们的计算力。针对吸收矩阵、重力矩阵,针对DNN、CNN等做了很多优化,大部分的性能测试中采用我们的库,性能可以提升20%-30%。

  曙光也提供人工智能管理平台软件,能整合曙光优化的性能函数库,支持Caffe,TensorFlow等主流的深度学习框架,以云的方式提供使用接口,可以简化人工智能环境的部署和运维,简化业务的使用流程,也利用在高性能计算领域积累的经验,优化底层硬件资源的调度效率,这个平台软件也在和传统高性能计算和大数据技术进行整合,最终能提供一个超融合的先进计算平台,在这方面也是领先业界的。
页: [1]
查看完整版本: 铁流:曙光和寒武纪联手研发全球首款采用神经元计算的...