FPGA助力工业AI应用

  作者:祝维豪 时间:2019-11-29来源:电子产品世界

  祝维豪 (《电子产品世界》编辑,北京 100036)

  1 工业AI为FPGA和SoC带来机会

  1.1 工业AI的技术挑战给工业带来的变化

  机器人、工业监控等领域是工业AI的重要应用。其技术挑战体现在很多方面。首先是AI技术本身,因为AI技术是基于算法之上的技术延伸。AI技术的算法迭代很快,不断地演进,因此,在边缘AI技术的应用过程中会产生更多需求,针对不同技术领域的不同需求,AI本身会进行不同方向的技术演进。如何通过升级硬件与软件适应快速变化的AI算法,是目前所面临的的一大技术挑战。

微信截图_20191202162711.png

  还有是关于AI开发工具,因为算法的多变性与快速迭代,如何做到开发工具的普适性与提升开发工具的应用性,是目前AI开发工具所面临的难题。

  边缘AI在工业的应用上,由于涉及到边缘与云端的相互结合,那么必须考虑的问题便是网络传输带宽的问题。由于以往在工业领域,边缘设备的数据量没有那么大,现在由于视觉技术的引入,导致传输数据量暴涨,这样一来,如何在保证工业实时性的同时提升网络带宽,实现与云端的实时互联,就成为严峻的挑战。

  在机器人领域,因为机器人技术本身涉及到视觉与控制的结合,包括视觉控制器与3D视觉传感器的融合,智能避障以及机械臂抓取规划等都是机器人领域AI技术的主要场景需求与技术挑战。

  再有是在工业领域,由于工业控制对于延时十分敏感,往往需要毫秒级的实时准确度,对于边缘设备的传输效率要求很高。

  另外在工业器件的安全性上,由于采用云端互联的模式,那么就必然存在着被攻击的危险,如何最大限度地保障工业设备本身的安全性与传输过程中的数据安全性,是目前所有厂商需要攻克的问题。

  最后一个就是工业领域本身场景相对恶劣,且对设备器件的功耗要求非常高。由于我们不可能在嵌入式端使用CPU/GPU这类高功耗的器件,所以工业设备的能效比问题也是目前的一大技术挑战。

  1.2 赛灵思的解决方案

  赛灵思(Xilinx)的SoC产品由于采用了异构的方式,包含了硬件的单元,软件上也可以依赖于这些硬核的单元进行升级。无论是在传统意义上的逻辑侧,还是Arm的驱动与OS,都可以支持远程升级。

  赛灵思下一代的Versal™ ACAP(自适应计算加速平台)搭载了AI引擎,使整个平台所面向的编程语言更加灵活,支持包括C语言在内的多种编程语言。通过ACAP,在未来去做算法的迭代更新会更加便捷。

  在软件工具方面,赛灵思发布了Vitis统一软件平台,将Edge(边缘)端和云端进行了整合。Vitis可以在众多应用程序中启用高度优化的特定领域加速器,从Amazon AWS的云数据中心部署到执行复杂任务的机器学习和智能边缘设备,都可以使用Vitis。

  万物互联时代对于数据传输有着更高的要求,在这个领域,赛灵思做了很多的参考案例,包括与AWS的IoT的合作实例。通过结合电机控制,将电机控制的数据与AWS的云进行互联,将云端的数据下发,同时进行数据加速。在安全方面还做了与云端的互联认证等。

  2 FPGA用于AI的优势

  1.1 工业AI的技术挑战

  Achronix目前关注的重点主要放在数据中心中的机器学习上。然而,随着工业应用领域中人工智能(AI)的兴起,处理将需要向边缘迁移,以减少延迟并实现网络流量最小化。机器学习(ML)处理的特征随着处理向边缘迁移而改变;通常情况下,计算更多地侧重于推理,而不是训练,尽管这并没有将增强学习和边缘训练等新模式出现排除在外。功耗在边缘受到更多限制,每瓦的性能通常是一种比原始性能更有用的衡量指标。

微信截图_20191202162749.png

  数字格式也能够被量化以提高处理效率,其中浮点数将被优化浮点数(例如bfloat16或块浮点数)或整数计算所取代。此外,数据中心里的训练和推理可以依靠巨大批量处理来提高计算效率;对更少聚合流量和边缘推理的更低延迟的需要可以缩小处理批量的规模,直到理想的一个大小。这种情况不太适用于某些类型的处理器结构,而更好的应对方案是采用优化的处理单元阵列或可重新编程逻辑。此外,为具有大量权重应用的网络提供支持这一需求驱动了对片内/片外存储器的层次结构和对高速片外存储器(GDDR6或HBM2)的需求。

  边缘处理的另一个特点是,因为接近大量的传感器而推动了接口无处不在。不仅需要诸如CAN、PCIe、JESD204等多种接口,而且这些接口可以根据应用或产品的类别进行更改。此外,多个数据流需要被组合和操作,以便能够去适应处理需求。这些数据包提取、传感器融合和位操作任务非常适合FPGA可以按位和按字节处理的灵活路由架构。此外,当需要一个新的传感器接口或应用发生变化时,就可以编译一个新的FPGA布局并将其下载到设备上以支持新需求,从而提供一个无缝的升级路径。

  2.2 Achronix的解决方案

  尽管FPGA可以用于通用加速,但仍可以调整其架构以最大限度地提高性能,同时降低成本和功耗;这也正是Achronix在其独立Speedster7t FPGA器件以及Speedcore嵌入式FPGA中都在做的。Speedster7t可被用于多样化的部署中来实现数据加速,包括Achronix最近宣布的与BittWare合作开发的PCIe加速卡。Speedcore嵌入式FPGA可以被集成在一个机器学习(ML)系统级芯片(SoC)中,并且通常在将数据馈送到专用的矩阵处理引擎之前就实现灵活的输入输出(I/O)、数据提取、传感器融合和预处理任务。

  Achronix在3个关键领域进行了创新,提高了机器学习的性能。

  1)需要将大量数据传送到芯片上:高性能接口。

  2)需要在芯片内移动数据:高效的数据转移。

  3)需要以有限的成本和功耗去处理数据:高效计算。

  本文来源于科技期刊《电子产品世界》2019年第12期第13页,欢迎您写论文时引用,并注明出处。

关键词: 201912 工业AI 赛灵思 Xilinx SoC产品 Arm

加入微信
获取电子行业最新资讯
搜索微信公众号:电子产品世界

或用微信扫描左侧二维码

相关文章


用户评论

请文明上网,做现代文明人
验证码:
查看电脑版