『计算』

DevRun Live第二场,“攻城狮”们,到你们“追剧”时间了

原本是一场线下狂欢,现在成了云上盛宴。

也好,这正中“攻城狮”们的气质:“能用技术解决的问题就不去跑断腿”。否则还会因为挤不进会场而闷闷不乐,或者因为中意的两场技术沙龙时间冲突而抓耳挠腮。

现在好了,华为全球开发者年度顶级旗舰活动——华为开发者大会2020(Cloud)搬到线上,并于3月27日-28日进行直播。AI、鲲鹏、昇腾、数据库、区块链、云原生、5G……百余场技术议题齐分享。不用抢座位、不用戴口罩、不用怕错过任何一个感兴趣的话题,HDC.Cloud丰盛的技术“大餐”满足你所有胃口。

并且,作为HDC.Cloud的拓展和补充,华为还推出了“DevRun Live”开发者沙龙专栏,同样以直播的形式分享前沿科技和应用实践。百场技术专题每周与开发者们见面,据介绍,华为已将“DevRun Live”安排满了一整年,干货满满任君“采撷”。

话说,受全球新冠肺炎疫情的影响,多个国外重量级IT公司纷纷宣布取消技术大会或开发者活动,是否在线上开展大多也并无明确表态。但是,一个优秀的“攻城狮”有什么共同的特质?那就是对技术的执着和学习热情。这么看来,华为的做法着实做出了表率,有了“DevRun Live”,也就到了开发者们的“追剧”时间了。

上周,首场“DevRun Live”开发者沙龙直播已于2月28日举行,今天迎来“DevRun Live”的第二场,围绕昇腾与开源话题展开,我们来看看“大狮”们都讲了什么?

如何在人形机器人上实现实时的动作识别与智能交互

众所周知,围绕计算机视觉的人体动作识别与智能交互在当下已得到广泛应用,例如智能服务机器人、医学临床诊断、体感游戏等领域,并且有着广阔的市场前景,当然也就成为开发者们研究和学习的热点。

今天“DevRun Live”的首个议题就是围绕如何在人形机器人上实现实时的动作识别与智能交互展开。要实现这这一AI特性的机器视觉解决方案,离不开一个低功耗、小型化、高算力的推理处理器,去保障AI算法在近端的有效实现,从而加速人工智能产品在用户端的成功落地。

来自全爱科技有限公司的首席技术官徐俊分享了全爱科技基于华为Atlas人工智能计算平台共同打造的机器视觉平台解决方案。该平台设计采用华为Atlas 200,基于昇腾310 AI处理器,使用极致高效计算低功耗AI SoC。实现最高功耗仅30W,6.5V-17V的宽电压输入,并且可采用锂电池供电,具备超小体积的特点,可广泛应用于光学工业检测、智能机器人、智能车、智能安防、航空航天、导航等行业领域。

为何选择Atlas 200?徐俊指出,一般说来,机器人动作识别系统包含三大子系统,例如模型构建子系统、实时动作识别子系统、机器人动作模仿子系统等,又涉及特征提取、关键点置信度和节点亲和度向量计算等关键技术,这背后需要一款专门为图像识别、视频处理、推理计算及机器学习设计的高性能、低功耗AI芯片提供支撑。作为一款高性能的AI智能计算模块,Atlas 200集成了昇腾310 AI处理器,芯片内置2个AI core,可支持128位宽的LPDDR4X,可实现最大16TOPS(INT8)的计算能力,是全爱科技进行机器人实时动作识别与智能交互设计的最佳之选。

此外,全爱科技机器视觉平台还采用华为Mind Studio优化模型部署和管理,提速底层开发。模型转换支持Caffe、Tensorflow等主流框架,网络模型可模块化搭建,图形化结果仿真,可支持多种可视化结果显示。易于调用和部署,方便客户零基础上手。

单机如何实现384路极致高密视频实时分析

智慧交通、平安城市等建设带来了视频应用的爆发,众所周知,视频产生的数据量是巨大的。随之而来,这让视频存储难、分析难、平台整合难等挑战日益突出。

如何应对挑战?来自格灵深瞳信息技术有限公司的首席技术官邓亚峰进行了第二个议题分享——单机如何实现384路极致高密视频实时分析。提升视觉计算系统运算效率的方式涉及硬件平台的选择、基于硬件平台的软件优化,以及基于网络结构改进的加速策略等。这其中极致算法的打磨是基础,而选择一个能够与之匹配的AI算力尤为关键,其能力包括是否尽可能减少CPU计算、内存大小、图像处理能力、视频编解码能力、图像编解码能力、总线IO能力等等。

大规模的计算能力能够有效加速深度学习网络的探索、评估和优化等方面的性能,从而支撑和解决大规模问题。在此背后,华为Atlas 300 AI加速卡能够发挥关键作用。Atlas 300 AI加速卡采用全新的达芬奇架构,提供业界领先的性能与能效比。它能够实现单卡64T FLOPS INT8的超强算力,并支持JPEG和视频硬件编解码,提升图片和视频类应用性能。并且在低时延方面,满足了特征匹配场景内存需求。

格林深瞳选择华为Atlas并与华为一道基于Atlas 300进行推理优化,最终实现了基于昇腾+鲲鹏的Atlas 800 AI服务器支持384路视频全目标结构化能力,这一成果也达到了业内的领先水平。如何做到的?

邓亚峰分享了三个层面的重点优化过程:

  • 系统调度:干预非实时任务调度以提高实时任务(如视频解码)线程的调度效率;将视频积压做到7帧/路。
  • 推理流水线优化:满Batch执行,提高推理引擎利用效率;小模型、大batch数,大模型、小batch数;每路视频积压帧数小于15。
  • 内存优化:针对大页内存特性优化的内存池,实现16路人脸内存占用仅2.4G左右;共享图片缓存池,不进行任何图片拷贝;基于LayerMap的Tensor划分,实现推理引擎的推理只申请一次内存;相比Tensor独立申请,极端情况下内存申请耗时从24ms降至0.1ms。

这之后得到的优化结果也很明显,实现单卡支持48路视频结构化以及64路人脸识别,结合格林深瞳全目标结构化算法,最终实现单机可提供384路极致高密视频实时分析,以超高性能和低成本为企业客户提供超强视频解析性能。

如何构建基于Arm64的开源云平台

Arm64架构在企业市场逐步走向成熟。越来越多的开发者期望在Arm64环境中运行Kubernetes集群,但是目前很难获得到合适的资源。第三个议题,Linaro云基础设施Tech Lead赵帅详述了Arm64开源云平台的基本结构,以及Kubernetes as a service的技术实现细节和Arm64开源云平台未来的发展方向。

作为业界第一个基于Arm64服务器的开发者云平台,Linaro Developer Cloud于2016年3月正式发布,可以为开发者和用户提供Kubernetes服务以及IaaS服务。它利用OpenStack作为基础设施层,Kubernetes 服务完全构建在OpenStack层之上。同时,Kubernetes集群需要通过Cloud provider组件,调用来自OpenStack层所提供的诸如认证、存储、负载均衡等服务为自身提供网络存储认证的能力。所有的这些服务,完全运行在开源的Arm64平台之上。

Linaro Developer Cloud作为一个开源云,提供给了广大开发者基于Arm64架构进行项目开发的平台,感兴趣的小伙伴可以去注册申请使用,免费的。

好了,这就是今天“DevRun Live”技术沙龙的三场主要议题,如果错过的小伙伴可以前往HDC.Cloud官网观看回看。当然,接下来还有全年无休的一系列技术分享,有必要说的是,参与直播更有惊喜,不限与大神实时互动、答疑解惑,还可以赚取码豆兑好礼,都是符合“攻城狮”气质的定制好物。

最后再预告下华为开发者大会2020(Cloud)将于3月27日-28日线上直播举行,大会旨在搭建一个全球性的交流和实践平台,开放华为30年积累的ICT技术和能力,以“鲲鹏+昇腾”硬核双引擎,为开发者提供澎湃动力,改变世界,变不可能为可能。

我们期待与你共创计算未来,在一起,梦飞扬!

VMware的新生态

上一篇

华为“懂你” 是温暖、是爱、更是一种专业

下一篇

你也可能喜欢

热门标签

微信扫一扫

微信扫一扫