(转)中国信通院:工业互联网环境下工业算力发展现状与趋势分析
文章转自【边缘计算产业联盟ECC】
★ 中国信息通信研究院 付韬,张恒升,王哲
摘要:随着工业互联网的发展,我国企业工业算力架构逐步建设成完整的“云边端”三级架构,算力呈现出多种状态,以生产应用的业务流为纽带,算网一体化管控正逐步形成系统性的解决方案。现有工业算力存在算力描述、算力计价、确定性等方面的不足,给IT网络和OT网络融合带来了一定阻碍。本文梳理了工业互联网背景下的工业算力发展现状和工业算力架构,分析国内工业算力的发展趋势和方向。
一、背景
随着国家对数字化、信息化领域基础设施的不断投入,我国形成了以5G、SD-WAN等为代表的高质量工厂外网,以确定性网络、工业以太网等为代表的高质量工厂内网。大带宽、低时延的网络能够更好地支撑工厂中各业务间的协同与优化,能够更加统一地整合资源,形成生产任务的全流程精细管控能力。在此过程中,随着工业应用种类增多、协同过程复杂度上升、数据处理和交换密度增大,工业算力与网络的密切程度不断提升,促进整个工厂的算力架构呈现出新的发展趋势。
算力的存在呈现出多种形态,既有面向公司生产业务的工业云算力,也有实现车间级赋能的边缘算力,还有工业终端上不断提升的本地算力。以生产应用的业务流为纽带,算网一体化管控正逐步形成系统性的解决方案。然而,现有工业算力存在算力描述、算力计价、确定性等方面的不足,给IT网络和OT网络融合带来了一定阻碍。本文梳理了工业互联网背景下的工业算力发展现状和工业算力架构,分析了国内工业算力的发展趋势和方向。
二、工业算力的发展现状
2.1 工业算力的概念
工业算力是计算机设备或计算/数据中心处理工业计算需求的能力,是指在工厂生产环境中计算能力的总和,它支撑工厂各级信息系统完成数据采集、数据分析、控制信息等活动。工业算力以计算机技术、网络技术、大数据技术等多种途径实现生产过程的数字化、智能化和高效化,全面赋能工厂全流程环节。工业算力并不是算力在工厂场景中的简单应用,它需要结合工厂生产任务的高度实时性需求进行精确资源调度,在算力部署、算力分配、算网融合、算力计费等方面存在差别。近年来,国内工业算力蓬勃发展,呈现出“算力稳步提升、联系尚不密切”的特征。目前,工业算力由“云-边-端”三级构成,企业级工业云主要进行数据规模大的离线运算,优化生产流程和工艺参数。工业云进行工业大数据分析,挖掘生产过程中的瓶颈和问题,提高生产效率和产品质量。车间级边缘计算主要进行数据密度大的实时处理,通过复杂算法实现智能生产、检测、智能控制、智能维护等工作。工业终端主要是数据的产生者和执行者,近些年来本地算力也获得了一定增长,可以实现智能算法并有限度地共享算力。以下是国内工业算力发展的几个关键特征:
(1)工业算力规模持续增长:随着数字化转型的深入推进,国内企业对算力的需求持续增长。各类企业纷纷加大投入,通过建设企业内数据中心提升算力规模,以满足日益复杂和精细化的生产需求。
(2)算力分布分散、聚合度较弱:与移动通信运营商的算力网络资源池不同,工业算力呈现出分层、分域的部署现状,算力协同主要发生在临级算力设施之间。这主要是由于缺乏通用的算力开放机制,无法跨层、跨域地精确度量、评估和调用算力资源。受限于工厂生产活动的实时性要求,跨域算力借用往往存在不稳定性和较低的效能。
(3)工业算力不具备确定性:工业算力已广泛应用于智能制造、智慧能源、智能交通等领域,很多企业尝试通过应用工业算力技术,实现对生产过程的实时监控和优化,提高生产效率和产品质量。但是,边缘计算和云计算都不能够依据严格的确定性指标进行调度,导致IT服务实时性和OT生产应用实时性存在巨大差距,严重阻碍了工业算力的应用与推广。
(4)应用通用性较差:目前很多厂商的应用与终端设备依赖性过强,导致只能划分专用资源给应用。这一方面降低了算力的利用率,另一方面维护起来更加复杂,导致算力的开放能力降低。
2.2 我国工业算力典型模式
边缘算力:多个计算能力较弱的工业终端,将计算任务或数据迁移到邻近的边缘计算设备,实现数采、分析、检测、控制等功能。其具体形式包括两种,一种是工厂本地边缘计算设备如边缘一体机、服务器、网关等,另一种是运营商租借给工厂的移动边缘计算节点(MEC)。
云化服务:云化服务是将云资源池以容器或虚机的形式划分出来,远程为工业产线提供应用服务。它的优势在于灵活重新配置、成本较低和软件故障恢复快。
群智算力:是指在缺乏边缘计算和云计算资源时,利用多个生产设备的本地计算能力,通常在存在计算依赖或数据依赖的若干个设备之间,调整任务分配,使得整个设备集群的计算任务都能够在实时性要求的范围内完成。
算力协同:该模式充分利用了边缘计算的实时性和云计算的大量资源,可以逐级部署计算任务,在计算能力和实时性之间取得折中。
2.3 工业算力挑战
工业算力在发展过程中遇到了多方面的挑战,性能方面主要是受工业生产活动实时性制约,功能方面主要是受算力设备通用性的影响,主要包括以下几个方面:
(1)缺乏统一标准化的算力描述:算力描述本身是当前的热点研究方向,在算力网络、云计算等场景中都需要对算力进行抽象。在多个数据中心形成资源池的背景下,算力的度量、类型、分配状态等情况十分复杂,由CPU、GPU、TPU、DPU等聚合而成的异构性算力需要统一的结构化描述语言。工业算力描述与外网算力描述具有一定的共性部分,但还要考虑设备类型和部署位置,需要扩展算力描述数据结构,形成面向行业和网络结构的工业算力描述。
(2)缺乏工业专用的算力计价:一是运营商租用算力的精确计费,以MEC节点算力为代表,费用由边缘计算基站数量、性能、服务和使用时长决定。二是面向中小企业的公共算力计费,在该场景下多个企业共用园区的云边算力,需要精确测算各企业提交的任务所使用的算力。
(3)算力开放能力较弱:算力供给粒度从大到小可以分为专用设备、容器/虚拟机、任务、时间片,从充分利用算力资源的角度,应该尽可能进行小粒度的调度。使用专用设备来保障某些工业任务,其他任务无法共用处理能力,就会造成最大的浪费。目前最常见的方式是为边缘任务分配专用的容器,这也是由于现有方案的终端应用和边缘应用都和厂商紧密耦合,资源在被大粒度分配后,就无法再给其他任务开发算力。未来为了实现确定性计算,必须要实现任务和时间片粒度的算力开放,需要形成细粒度的算力调用协议和接口。设计并研发通用算力服务,形成面向行业的、可复用共享的通用算力应用。各级工业智能终端可依据标准化参数调用工业算力设施的算力服务。
(4)算网确定性:在很多应用与网络协同研究中,算力与网络正在联系得越来越紧密。目前国内众多研究机构对面向应用的确定性技术开展了研究,如中国信息通信研究院提出了面向应用的确定性(AoD)研究,该研究针对工厂网络或园区网络实现离散资源的统一调度,编排具有一系列确定性执行环节的确定性服务,满足用户的顶层需求;北京交通大学提出了广义确定性的概念,从理论角度分析了在多要素、网络异构、复杂数据流场景下的确定性保障问题,该工作更侧重于理论研究与模型设计;网络通信与安全紫金山实验室则提出了算网操作系统的概念,提出了算力网络中的多应用协同调度问题的解决方法,不过该方案对于算力仅实现尽力而为的调度,更适用于数据中心的非实时计算任务。确定性算力网络是使用确定性网络的算力系统,缺乏对算力确定性调度,因此本报告认为其本质是“算力+确定性网络”,更适合运营商的服务场景,不强调算力提供过程的确定性,追求尽可能高的服务性能。国外方面,IETF成立了CATS(Computing-Aware Traffic Steering)工作组,旨在研究网络主动感知服务客户端和服务站点并提供端到端路由。为了实现基于计算感知和网络感知的路由决策,需要全面感知网边端信息。目前CATS工作组在计算和网络信息的分类和感知方面已经做了一些工作,包括架构、场景、协议、路由机制等。随着CATS工作的进一步开展,将通过算网一体化的确定性实现应用服务链的精确执行。
(5)多资源协同能力:工业算力架构中,各种资源依据算法进行调度,需要对算力、网络、存储、能耗等综合决策,以适应工业生产在高效、节能、服务质量方面的多目标优化。
为了克服这些挑战,需要多方共同努力,打通工业算力的业务、数据,加强算力开放协议设计、工业算力标准制定等方面的工作,形成满足工业需求的算力供给能力。
三、工业算力架构
工业算力架构由决策层、管控层和执行层构成,如图1所示。在目前的应用场景中,其主要实现了边端精密协同和云边精密协同。
决策层算力是集中式的算力资源中心,一般以工业云的形式存在,目前运行在工业云的计算任务实时性相对较弱。工业云具有大数据分析与决策能力,输入输出的数据密度与价值极大。在很多制造业企业中,工业云运行工业模型训练、确定性全局管控、流程优化等计算密集型应用,一般以较长的周期将训练好的模型更新到边缘计算设施。工业算力综合管控平台将实现算网一体化管控,通过统一信息模型打通各类设备的监测接口和管控接口,通过对确定性服务的维护,确保生产流程中算网控制的闭环。
管控层算力是由靠近生产线的智能计算设备组成,实时性能够满足工业应用需求。这些设备具有推理与决策的计算能力,数据密度与价值较高,可以实现计算能力开放、数据挖掘、虚拟化、任务迁移等功能。目前边缘侧的算力开放程度主要受限于应用和工业终端的绑定,通过实现通用服务和标准化的算法,可以进一步提升边缘计算的通用性和利用率。
执行层算力是工业现场的本地算力,实时性最强,计算能力相对较弱,数据密度与价值较低,可以实现数据采集、控制逻辑、本地训练等任务。传统工业设备如传感器只能执行简单的任务,未来能够实现算力协同的主要是具有一定自有算力的智能终端,相对较少的计算能力用于产生数据、任务迁移、数据保护等方面。
边端精密协同主要是工业边缘算力为各种智能终端处理专用计算任务,实现多维数据处理、图像识别、定位信息处理、控制决策等功能,两者通过满足工业高性能通信需求的确定性网络互联。
云边协同主要是针对云平台和边缘计算的特点,将计算任务进行差异化部署,在分布式训练中,可以将汇总的模型部署在工业云平台,在工业边缘算力部署局部模型。两者在更新频率、预测精度、工业算法等方面都可以按需配置。
四、工业算力发展趋势
(1)算力伴随业务自由聚合
传统工业网络中的数据主要是监测数据和控制数据,监测数据是通过摄像头、传感器、工控机等产生的原始生产数据,控制数据是控制产线设备生产的操作数据。工业互联网设施在“端-边-云”架构中逐级处理这两类数据。
随着行业需求和工业应用的种类越来越多,在工业智能终端之间、工厂算力设施和运营商MEC之间都会发生算力的聚合,来提供因地制宜的算力服务。这主要是在矿山、港口、供热等领域,除了企业生产园区之外,还有大量的移动设备活动区域。这就需要设备就近组成集群,实现更快的任务分发和结果汇聚。
(2)确定性算力保障
在工业场景中,工业边缘算力与工业云平台的计算过程也会影响工业终端的执行,所以如果想让IT设施深度参与OT生产过程,就必须保障算力的确定性。算力的确定性与前文提到的算力粒度相关,针对时间敏感计算任务进行强制保障的算力
粒度越细小,则计算任务的确定性越强,当给每个确定性任务隔离出充足的计算单元时间片时,其计算时延和抖动就是精确可控的。在保障算力的确定性后,就可以针对确定性任务的需求指标,分解成算、网指标,从而保障任务全流程确定性。
(3)分布式训练的应用
工业中数据采集和设备控制的算力开销是基本稳定的资源开销,未来大部分动态变化的工业算力是用于工业模型训练和优化。分布式训练将工业模型分割,按照规模和实时性需求部署在工业算力架构各层,需要根据算力部署拓扑、算力规模、模型分割等因素决定分布式训练的中心节点、更新频率、机器学习算法等配置。目前很多企业只是在集团侧进行模型优化,在边缘侧进行模型部署,随着机器学习应用越来越多,可以形成工业模型分割更加灵活的方案,使得整个企业中算力可以针对工业模型的细粒度高灵活动态部署与优化。
(4)群体智能算力
边缘计算是工业终端算力不足时的必要补充,随着芯片成本进一步下降,工业智能终端的计算、存储性能都将进一步提升。在作业范围比较大的行业,例如矿山、港口、供热等行业,整个网络中既有企业内部网络,也有扩散到有线网之外的作业区。此时,就需要工业智能终端就近组成算力集群,通过群体智能算力进行跟生产活动强相关的计算任务,并通过对计算任务拆分、子任务迁移、计算结果汇总的过程,得到预期的决策结果。
(5)基于MEC的智能园区
工业算力是实现智能生产的重要支撑,它已经描绘了美好的愿景。然而,这也导致了建设工业算力体系的成本不是中小企业能够负担的昂贵开支。从国家发展的角度来看,可以将工业算力中的决策层设到工业园区,由政府出资建设并形成服务能力。由运营商将MEC基站租赁给企业,中小企业只需要采购智能工业终端即可。该方案具有三大优势:一是增强了工业算力的共享,提升了算力基础设施的利用率;二是形成了可复用的工业模型,有利于优秀解决方案的推广;三是降低了中小企业应用新技术的工业算力设施建设和运维成本。
五、总结
我国工业算力已经有了长足发展,但还存在相对松散、标准化程度低等问题,本文在总结工业算力架构及挑战的基础上,提出了未来工业算力发展的重点方向。下一步我们将以标准化工作为重点,在工业算力描述、调用接口、工业算力南北向协议等方面凝聚产业界共识,最终通过工业算力的进步促进算网一体化与扁平化发展。