2019年伊始,当华为重磅发布ARM处理器芯片鲲鹏920时,即意味着基于ARM的华为TaiShan系列服务器将肩负着新的重要使命。
作为华为布局全栈全场景的智能计算平台的重要一部分,ARM平台意在华为为做大计算领域空间,满足企业异构计算需求而生。
然而当多个图谋ARM服务器领域的“前辈”折戟沉沙时,华为这个后来者又如何在ARM数据中心阴影中走出一条光明之路?既然决心投入于此,当初定的小目标又实现了几何?
说得现实点,至今为止,华为到底构建了怎样的ARM计算解决方案能力?被客户接受的程度是什么?在那个关键的生态问题上,华为的ARM“朋友圈”又是什么样子?
在日前于福州召开的华为生态伙伴大会上,这些问题我们得以解开。
总之来说,答案超出预料。
长期的ARM创“芯“战略
谋定而后动!实际上,华为在ARM架构处理器领域的探索已经超过了15年。
早在2004年,华为就与ARM公司开展合作,启动基于ARM架构相关芯片的开发,涵盖智能终端、通信、存储、服务器等各个领域。2009年,华为推出智能手机处理器K3,也就是麒麟芯片的前身,如今麒麟芯片已经把手机带入智慧时代。2014年华为推出存储型处理器Hi1610。2016年华为推出鲲鹏916服务器处理器。直至今年重磅发布的鲲鹏920。
一步一个脚印,华为在ARM创“芯”之路上走得异常坚实而坚决。
如果说初期ARM处理器产品是华为面向数据中心存储、计算领域的试水之作。那么鲲鹏916的推出和鲲鹏920的横空出世,则是要真正应验“鲲鹏凌云、泰山聚势“,其是把TaiShan服务器全面带向数据中心的重磅产品。
从最初的产品能用,到匹配业界中端水平、覆盖主流应用场景,再到业界领先的制程和技术,华为鲲鹏处理器在竞争力维度实现了跟随、持平到超越的步伐。
不妨再来看看鲲鹏920的实力:
- 高性能处理器内核:如果说处理器是服务器的核心,那么内核则是核心中的核心。基于华为在芯片研发的长期积累,鲲鹏920处理器内核实现自主设计,同频单线程性能相比前一代提升45%,满足高性能应用场景和对数据安全有要求的特定场景。
- 高集成度:鲲鹏920处理器采用业界领先的7nm先进工艺,集成最多64核,并支持最高3.0G Hz的工作主频,实现极致的多核架构和低时延表现,满足高并发、低时延应用的计算需求。此外,鲲鹏920处理器还集成了南桥、网卡和SAS控制器等功能,节省了服务器系统能耗并提升了系统PCIe扩展能力。
- 高吞吐能力:鲲鹏920处理器业界率先支持8通道内存控制器和PCIe 4.0,相比业界,内存带宽提升46%,IO速率提升66%。这些数据吞吐能力的提升对于CAE仿真、气象仿真和基因分析等HPC应用场景非常关键。
- 硬件加速引擎:除了上述提到的一系列芯片功能的集成,鲲鹏处理器还集成了数据加密/解密、压缩/解压缩、EC(Erasure Code)纠删码、数据校验等硬件加速引擎,能够替代处理器的指令计算,极大提升数据处理效率,并提升数据安全。
面向未来,华为甚至已经开始着手规划未来五年的鲲鹏处理器产品,在数据中心领域ARM产品的投入决心可见一斑。
构建五大TaiShan ARM应用场景解决方案
如果说鲲鹏处理器体现的是华为长远的战略输出,那么基于鲲鹏处理器和TaiShan服务器的ARM解决方案则是聚势而为。
对于在什么场景下能够发挥鲲鹏处理器的技术优势,并为客户带来什么样的实际价值,华为明显是做了深度思考。基于自身强大的硬件和工程创新能力,华为从芯片、服务器整机,到系统全方位地构建解决方案能力。
具体策略方面,华为明显是有的放矢,并不打算全面开花,而是结合实际情况,聚焦大数据、分布式存储、ARM原生、HPC和Web等五大应用场景,为客户提供最优的计算解决方案,帮助实现高效能计算和降低数据中心TCO。下面以华为打造的前三大TaiShan ARM解决方案举例:
1 TaiShan大数据场景
目前大数据的主流计算框架是分布式计算模型MapReduce,它的原理是将大数据量切分成多个独立的、较小的数据集,从而实现对大数据量的分布式处理。
如果能在一个计算节点上提升多个任务或独立Task进程的并发能力,则能够有效提升大数据计算性能和效率。
鲲鹏的多核计算架构则完美匹配这种多线程、高并发的典型业务模型。为此,华为在构建TaiShan大数据解决方案时,主要从以下几方面开展研究:
- 优化大数据组件的数据处理流程,提升计算并行度。
- 充分发挥TaiShan领先的内存能力,优化内存设置和系统Cache预取。
- 优化大数据开发工具包JDK(Java Development Kit),提升ARM平台运行效率。
- 利用鲲鹏920处理器内置的加密、压缩、EC等硬件加速引擎,提升大数据性能。
对比TPC benchmark测试,华为TaiShan大数据方案相比传统方案能够提升30%性能。
2 TaiShan分布式存储场景
分布式存储将数据分散存储在多台独立的服务器存储硬盘上,集群中的节点之间会有大量数据和管理信息的交互、输出,节点的并发处理能力对集群的整体性能影响很大。鲲鹏多核架构的特性则可以有效地解决单个节点并发处理能力不足的问题,提升整个集群的整体性能。
华为TaiShan分布式存储解决方案主要进行了如下优化措施:
- 针对HDD、NVMe SSD等不同类型的硬盘采取匹配的处理器核配置策略,确保一个或多个物理的处理器核支持单个数据硬盘,避免进程切换,提升性能。
- OSD节点的空闲CPU核运行RGW业务,无需部署独立的RGW节点,提升单位节点的处理器核使用率。
- 利用鲲鹏920处理器内置的一系列硬件加速引擎,提升整体存储性能。
华为TaiShan 分布式存储解决方案,相对于传统解决方案,在全NVMe SSD热数据场景下,整体性能提升10%以上;在NVMe SSD与HDD混合型的温数据场景下,能减少10%的服务器数量;在全HDD冷数据应用场景,集群能耗低10%以上。
3 TaiShan ARM原生场景
由于市场上超过80%的移动应用是基于ARM指令集的安卓应用,因此,安卓应用与ARM服务器属于原生同构。安卓应用与ARM服务器天然兼容,无需移植即可直接运行,而且运行过程中无指令翻译环节,性能无损失,相比传统方案最高能够提升3倍性能。
ARM云手机则是ARM原生应用的典型场景之一,通过在ARM服务器上运用虚拟化仿真技术,为用户提供基于云的仿真手机服务。它能够完美解决终端测试、移动娱乐和移动办公场景下的性能体验、维护管理,以及数据安全的相关需求。当前面向不同行业的应用需求,主要有三种ARM云手机类型:
- 面向互联网行业的托管型云手机,满足移动APP开发的手机自动化仿真测试。
- 面向游戏行业的游戏型云手机,提供免安装、支持即点即玩的高性能云手机服务。
- 面向企业的办公型云手机,提供数据不落地的云手机办公解决方案。
基于TaiShan服务器的云手机方案
那么,TaiShan ARM云手机解决方案又该如何构建?简单理解,它有点类似于移动端的VDI(虚拟桌面),需要云端硬件层、云端软件层等端到端的解决方案。
基于华为云的ARM云手机服务已经构建了一整套的ARM原生解决方案能力,包括硬件层以TaiShan服务器为核心,并使能各类异构资源(GPU、内存)、加速单元资源。软件层包括固件、操作系统和安卓仿真环境。云端和用户设备间传输指令流,图像在手机侧渲染,可以提供更高的帧速率、减小带宽消耗和网络延时。
总结来说,华为选择了ARM计算擅长的应用场景进行解决方案能力的构建,这对于开拓一个全新的市场尤为重要。以点带面,让客户看到ARM计算的独特价值才能获得更大的机会。
华为TaiShan的成功突破
华为发布的三大ARM计算解决方案在企业用户侧已经得到了应用,并且是成功的。
例如某平安城市ARM架构大数据分析平台项目,成功部署了1000+台TaiShan服务器,是目前国内规模最大的ARM架构大数据集群。支持10类大数据集群,集群性能完全满足设计要求,系统运行稳定。
成功部署只是基础,更重要的是可以看到,基于鲲鹏处理器的高效能和高集成度优势,TaiShan服务器整机功耗相比传统服务器有明显的能耗优势。在该项目的实际部署情况中, TaiShan服务器充分利用机柜供电能力,实现单机柜能够部署多30%的计算节点,集群减少23%的部署机柜数量,降低了20%的集群能耗,给客户带来整体TCO降低10~20%的显著价值。
在分布式存储方面,也获得了某银行的成功应用。其采用华为TaiShan服务器成功构建了银行业第一个PB级容量的ARM架构分布式存储集群。由于是银行业首次应用ARM架构服务器,银行首先从自身积累了大量经验的开源分布式存储系统切入,定期跟踪服务器内部运行指标和监测金融业务系统的运行稳定情况,并与华为团队通过大量系统级测试和优化工作,有效验证了TaiShan服务器应用在各项金融业务场景中的可行性。
与同等配置和存储容量的传统集群相比,TaiShan集群的整体功耗降低20%以上,能够有效提升整体数据中心的资源部署密度及利用率。迄今为止,该集群平稳运行,达到了银行设计预期的业务性能目标,有效地支持了生产数据的实时存储和备份。
在云手机服务上,基于TaiShan ARM服务器的云手机服务,帮助华为内部研发团队进行移动应用开发的手机自动化仿真测试,摆脱对真机的依赖,研发团队的相关验证工作可以提前3个月完成,极大加速了新产品的研发进度。
事实上,云手机服务已经在国外游戏厂商得到商业实践,在整个行业内也已经处于验证和部署的前期,随着此类应用服务模式的普及甚至爆发,也必将给华为TaiShan带来巨大的机会。
说到这,不妨再来用一个数据侧面验证下华为TaiShan的市场情况。据了解,当前基于ARM架构的TaiShan相关产品已经实现在运营商、金融、政府、制造、互联网等行业的部署与应用,2018年的应用规模数已经突破了2万台/套,实现了规模化应用的市场检验,也反馈出市场对于华为TaiShan服务器产品的接受度。可以说,华为TaiShan已经形成突破。
TaiShan的生态之花
当然,从突破到深化,从一点到整面,还缺不了一项十分重要的工作—生态。好的计算硬件平台还需要好的生态体系来支撑,如何将TaiShan服务器的创“芯“能力转化成面向客户的计算解决方案,生态建设尤为关键。
在产业生态领域,华为有着这样的规划:从硬件、基础软件和应用三个层面持续推进ARM产业合作,计划通过3到5年的时间,协同ARM产业组织,打造完备的TaiShan产业生态。
其实,目前TaiShan的生态合作已经取得较大进展,生态体系已经相对比较完善。这体现在四个维度的使能方面:
- 基础硬件使能:支持兼容业界主流的存储硬盘、网卡和FPGA等硬件板卡或加速部件产品;
- 基础软件使能:支持覆盖国内外的业界主流操作系统、大数据、软件定义存储,以及数据库、虚拟化、云平台和Web的基础软件;
- 行业应用使能:华为联合行业伙伴,构建TaiShan行业解决方案,目前已经在金融、政府、电力、运营商和平安城市等行业实现应用使能;
- 产业标准化使能:华为积极深度地参与GCC、Linaro、OEHI等ARM产业组织工作,与产业链伙伴携手制定并推出基于ARM的服务器合规计划ServerReady,同时也已经成为Linaro生态组织的核心成员。
当然,在生态建设上,基于ARM架构的华为TaiShan要想一口吃成胖子也不可能。殊不知,即使如x86这样强大的存在,英特尔也在持续不遗余力地投入在生态完善上。所以,迎接ARM计算的是一条长长的生态之路。
好在华为有着其擅长的生态基因,这在华为2011年进入企业业务的发展历程中可以看出。在华为中国生态伙伴上,华为还重磅启动了智能计算生态联盟,这预示着华为智能计算在AI产业和ARM服务器产业的生态建设日趋完善。以“技术+生态”双轮驱动的模式,华为正在携手产业链的所有合作伙伴开出繁茂的ARM生态之花。