针对汽车供应链各参与方之间存在信息连接不畅通导致上下游各物资匹配、生产制造以及物流运输等要素之间联系的割裂,以及汽车供应链链上企业在数据安全隐私保护与数据高效应用难平衡的现状,研究报告提出以联邦学习为基础、区块链技术与差分隐私算法等理论为支撑,构建基于区块链的联邦可信学习框架,有效识别并抵御攻击者的投毒攻击,并通过隐私保护方法实现对参与方本地数据的隐私保护,最终将联邦学习等理论技术在汽车供应链数据安全领域进行实践探索,促进传统方法对链上数据进行集中式处理与分析存在安全风险的解决,实现项目成效。
一、背景
(一)数据安全隐私保护日趋重要
随着信息与智能技术的高速发展,数据已经成为一种重要的资源,互联网与物联网设备产生的数据呈现出爆炸式增长态势。国际数据公司(International Data Corporation,IDC)的全球数据规模预测显示,到2025年,全球数据可达175泽字节(Zetta byte,ZB),其中数据交互用户将从2018年的50亿增至60亿。数据已经成为一种新的、更为重要和有效的生产要素。例如,以机器学习为代表的新一代人工智能技术通常需要大量数据来训练理想模型,以期提高智能系统的性能与效率。
然而,数据在发挥重要作用的同时,数据安全与隐私保护已成为发展大数据生态及相关数字经济的关键问题,数据的采集与使用也将关系到个人安全与国家安全。国内外对于数据隐私保护的法律法规也日趋严格:2018年,欧盟发布《通用数据保护条例》(General data protection regulation,GDPR);2021年,中国相继发布《数据安全法》和《个人信息保护法》。这些法律法规虽然有助于保护数据安全和隐私,但同时也在一定程度上限制了数据流通和价值创造,迫使数据由于安全隐私或地理位置等因素而散落在互不连通的数据孤岛中。因此,在保障隐私和安全的前提下,如何促进数据流通与共享、增进机构间的协同与合作效率,是目前学术界和产业界普遍关注的问题。
(二)兼顾数据高效应用与隐私保护存在困难
在实际生活的数据应用过程中,理论上来讲,一个组织可以先收集海量数据并将数据存放在高性能服务器上以支撑其在后续模型训练中的数据应用。然而,真实情况是,即便该组织拥有大量的计算资源,但是往往难以实现收集海量数据。因为数据被分散在各个组织内部,而一个组织内的本地数据又难以完成有效的深度学习模型训练,这也就导致各个组织间形成了数据孤岛,给数据的高效应用尤其是在模型的训练、支撑人工智能发展等方面带来困难。
在集中数据资源上,实际面临的困难主要有两个:第一,个体/企业自身越来越重视自身的隐私数据,国家也出台了许多关于隐私数据的法律法规,使得组织之间不再能随意共享包含个体隐私的数据,这为数据的共享带来困难。第二,深度学习对于数据的需求通常是大规模且高质量的,而数据往往分布在不同的组织或客户端之间,这带来巨大的跨组织的数据汇聚通信成本;此外,由于数据异构等问题,集中后的数据整合同样会产生大量的资源消耗。因此在现实生活中,如何在隐私数据不出本地的前提下,实现多方合作完成模型训练成为了重点问题。
(三)推动汽车供应链数据安全隐私管理具有极大现实意义
汽车供应链的数据安全问题是当前汽车行业面临的一个重要挑战。随着汽车向智能化、网联化方向发展,汽车数据的安全问题日益凸显,涉及从设计、生产等的供应链全流程到汽车投入使用的全生命周期。汽车供应链数据的安全保护不光影响车企本身的生产运营,同时影响供应链链上企业、售后企业、车主等的相关利益,其安全和隐私保护成为各角色共同关注的问题。
在汽车供应链数据安全应用和隐私保护方面,主要问题涉及三大方面。一是汽车供应链体系复杂;汽车供应链涉及众多环节和不同分工的参与者,使得数据安全管理难度增大。以主机厂为核心的数据应用和安全治理,需要供应链全链条全角色共同推动全产业链的信息安全能力建设,其推动管理难度大,也使得信息安全治理更为复杂。二是汽车供应链内外部交互多,数据安全管理影响数据应用效率:汽车供应链从产到销有多个企业、多个环节参与,很难做到数据链条贯穿,导致协同效率低;市场、需求的变化难以快速传导至企业的设计、研发端。同时,汽车行业数字化转型的切入点众多,信息系统、采购管理、仓储物流等各环节常常由不同服务商实施项目,导致彼此之间数据无法互动,形成管理的“信息孤岛”;如此种种,要求汽车供应链数据安全保护要降低对数据效率影响,保证供应链已有信息链条的畅通无阻。三是汽车供应链数据安全治理复杂:汽车供应链的信息安全治理不仅涉及技术层面,还包括车企及其供应链、供应商、售后链条各角色,以及在供应链管理、数据安全在汽车行业相关法律等多个方面。在复杂的供应链体系中,确保信息安全治理的有效性和一致性是一项艰巨的任务。
针对汽车供应链各参与方之间存在的信息壁垒、缺失的信用连接等现状,考虑到汽车供应链在数据安全管理的困难,以此带来供应链上下游各物资匹配、生产制造以及物流运输等要素之间联系的割裂,基于汽车供应链数据安全隐私保护同时保障数据高效应用具有极大现实意义。
二、技术现状
(一)联邦学习
面对当下数据安全隐私需求与现状,以及数据应用的实际困难,由Google的AI团队提出的联邦学习具备解决上述问题的基础能力。联邦学习是一种分布式机器学习框架,可利用多个边缘设备的原始数据在本地进行模型训练,而不需要将原始数据发送到中央服务器上。由于不需要离开设备进行训练,这种方法可以有效解决传统机器学习中的数据孤岛问题,同时也能够避免数据泄漏和隐私问题。此外,联邦学习可以在解决边缘设备内数据量小且质量差的问题同时能够节约一定计算和存储资源。
联邦学习的构成为一个可信的中央服务器及多个拥有原始数据的参与方。首先由任务发布方或中央服务器提供一个初始模型,并下发给各个参与训练的参与方。参与方在本地利用原始数据进行模型训练,而后将训练好的模型上传至服务器。接着由服务器对所有的模型依据特定聚合规则进行聚合,从而得到这一轮次的全局模型。最后全局模型被下发到各个参与方进行下一轮训练,直到达到指定训练轮次或模型效果符合预期则停止训练。联邦学习使得多方数据在不共享条件下进行协同训练成为可能,既保护了隐私同时又避免了过多地消耗通信资源。
然而,在实际应用场景中联邦学习同样面临着诸多挑战,比如第三方服务器的信任问题、系统中潜在的攻击者的问题,都已然严重制约了联邦学习的广泛应用和发展。因此,研究团队引入区块链技术,利用其不可篡改和可追溯的结构特点,进一步完善方法。
(二)区块链
区块链是一种去中心化的分布式数据库技术,它是由一系列区块组成的链式结构,其核心概念就是区块和链。在本次研究中,主要应用到区块链去中心化和不可篡改等特性:第一,在区块链中,每个区块都会包含多个交易记录和前一区块的哈希值,每个交易记录都会被加密并存储,并且区块间两两链接,形成一条可以不断延伸的链式结构。链式设计可以让区块链具有不可篡改和可追溯的特点,因此,如果有恶意用户试图篡改链式结构中其中任何一处交易,那么该区块的哈希值将会改变,同时前后区块的链接也会随之断开,这也就代表着所有区块链网络中的节点都会意识到交易数据被恶意篡改。
第二,区块链的去中心化和分权化,此特点同样为区块链技术带来较高的安全性。在区块链中没有中心化的组织存在,其每个节点都有机会参与到网络的区块生成、交易验证和数据处理,单一的节点或组织没有修改数据或进行打包上链的权力,这使得区块链的数据传递更加可信,因为节点之间的数据需要保持一致性,所以需要相互验证交易数据,也就降低了单一节点被攻击的风险。此外,若存在攻击者试图攻击整个区块链网络,那么攻击者必须控制网络中的大多数节点才能破坏区块链的安全性,因此,区块链相较于传统的中心化系统具有较高的公平性和安全性。
三、基于区块链的联邦可信学习框架研究
基于当下数据应用高效的要求、数据安全隐私保护的重要性,面对联邦学习面临的全局模型被恶意破坏、本地数据被潜在恶意分析者获取的难点,以及为保障优化后的方法具备足够的数据保护能力和其本身的稳定性,研究团队提出基于区块链的联邦可信学习框架,通过设计相应的区块链存储结构和节点权限分配机制,有效识别并抵御攻击者的投毒攻击,结合基于声望的激励机制与权重保护机制,并通过隐私保护方法实现对参与方本地数据的隐私保护,提高模型训练精度,提升学习框架的稳定性。整体研究思路及基于区块链的联邦可信学习框架如下:

图1 研究思路及基于区块链的联邦可信学习框架
(一)由区块链代替了传统联邦学习中的中央服务器保护数据隐私
针对中心服务器不可靠以及单点故障的问题,在框架主体结构设计上选择用区块链代替传统中央服务器,由区块链完成对全局模型的上传及分发工作。但是在基于区块链的联邦学习结构中依然无法避免可能存在的恶意参与方对全局模型发起攻击,在传统中心化联邦学习中可以依靠设定特定的聚合策略来检测异常模型,而在去中心化的联邦学习中缺少了可信的中央服务器,所以更加难以检测恶意参与方的攻击行为,全局模型也就更加容易受到破坏。因此提出了由区块链代替了传统联邦学习中的中央服务器保护数据隐私的方法,设计了特定的模型验证方案和区块存储结构,识别并抵御攻击者的投毒攻击尤其是女巫攻击,从而解决攻击者对模型或数据发起攻击的问题,同时采用对区块链节点设计采用自适应数据通信及单点计算调配机制,以减少通信总时耗,稳定系统运行效率。
首先采用Fabric联盟链代替了传统联邦学习中的中央服务器,使结构具备节点准入机制,以此防止外部参与者的恶意数据窃取,并以此进入模型训练环境而影响全局模型,同时设计去中心化区块链结构并引入避免框架出现单点故障等问题的解决方法以提高系统运算准确率和运行效率。
参与方在模型训练过程中会与区块链进行迭代交互,作为外部节点申请加入联邦学习系统参与模型训练,完成模型的上传、聚合、分发等任务分工;符合条件的外部节点加入联邦学习系统参与模型训练,所有被授权准入训练过程的参与方作为训练节点有权限查询或发布本地信息包含本地模型到框架结构中。
同时,利用区块链智能合约机制设计并应用了模型评分与聚合方法:参与方需要在训练过程中完成验证和评估彼此的本地模型、验证结果上传与存储等任务。区块链上存储当前轮次的全部本地模型、举报信息和评分结果后,会自动执行智能合约,排序并统计评分较高的本地模型进行聚合,以此来提高全局模型精度。
最后,在本次研究框架中完成对区块链存储结构与对节点动态权限设计:在存储结构中,根据存储数据类型的不同将区块划分为本地模型区块,验证及评分区块和全局模型区块三种,分别依次完成(1)用户在本地完成一轮模型训练后上传本地模型到区块链结构中(2)存储参与方上传信息并记录该参与方,让智能合约完成收集与统计验证结果,依次计算与判定本地模型当前轮次是否为无效模型,以便后续聚合和权限分配(3)存储每一轮次聚合得到的全局模型,根据本地模型区块和验证及评分区块定位异常的参与方行为。最终通过结构的流转和方法的设计保护信息隐私、提高框架运行效率。
(二)以基于声望的激励机制与权重保护机制契合供应链异步特性优化联邦学习框架
在供应链数据管理及安全隐私保护的应用场景下,各个环节、节点或参与者之间在操作和响应上存在信息处理、操作执行或响应时间等的非同步性或非即时性,使得区块链在供应链数据管理的应用上模型之间会产生较大差异,在聚合时进行平均聚合往往不能取得较好的模型精度;同时因为供应链各方所拥有的数据量和带宽大小不一致导致节点计算不同频,因此设计基于声望的激励机制与权重分配机制,并采用基于性能优先的异构计算节点交互策略,根据节点性能评估设计权重与激励数值,进而依据权重进行加权聚合,以激励机制约束参与方的行为,让用户通过积极的行为获得更多的奖励,以此来解决数据异构问题进而优化供应链异步特性对数据隐私的影响,并提升框架中节点运算效率,解决更多贴近于实际应用场景的可信安全问题。
具体而言,在激励机制中,参与方在训练前提交押金获得声望,并在训练过程中可根据模型精度获得相应声望,此外也可根据举报或被举报更新其声望。具体来说,在本机制中诚实的行为将会被奖励,参与方在验证阶段可举报异常模型,举报成功则会获得奖励,同时扣除部分被举报者的声望,以此来保证参与方的积极行为,确保全局模型的准确性。在模型训练过程中,参与方在验证阶段通过本地数据和模型对其余参与方模型进行验证并报告,而后智能合约根据模型精度和积极行为分配声望,依据本节提出聚合权重分配方法,参与方的声望值不仅代表了其在联邦学习中的诚实表现,还反映出其模型质量和数据贡献,通过结合模型评分和声望值为参与方分配聚合权重,可以降低非独立同分布特性所造成的负面影响,提升全局模型泛化能力。
综合考虑模型评分和参与方累积声望进行权重分配,有助于提高全局模型的精度,并保证系统鲁棒性。同时,这一方法具有较高的安全性和可靠性,在计算权重时综合考虑参与方从训练开始到当前轮次的累积声望,这可以降低低质量模型对全局模型的影响。此外,此方法从任务发布方的视角实现了公平性,其确保高质量模型和诚实参与方对全局模型的影响度,进而提升训练效果。
(三)引入差分隐私计算方法防止模型受到攻击从而保证系统隐私性
在前述结构的研究基础上,针对通过获取参与方在区块链上存储的本地模型窃取数据的系统攻击方式,进一步在框架中加入基于区块链的联邦学习隐私保护方法,通过引入差分隐私机制为参与方的本地模型加噪,从而防止模型受到攻击,进而提升系统鲁棒性。
在本次研究中提出的隐私保护方法,首先进行噪声添加。参与方在完成本地训练得到模型后,可根据自身隐私需求和风险承受能力添加噪声进入本地模型中,确保其模型在区块链上不能被攻击者恢复原始数据或数据分布。对于隐私统计部分,在验证阶段后,智能合约首先对各个正常模型进行评分,接着根据参与方发送的隐私参数分别计算隐私损失,评估每个参与方在当前轮次为保护隐私所付出的数据可用性的代价。随后,智能合约综合考虑模型评分、隐私损失以及累积声望值计算参与方当前轮次的聚合权重。最后依据每个参与方的权重加权聚合得到全局模型。因为噪声参数设定具有较大灵活性,使得本方法在数据应用效率和隐私安全保护上能够自主有效调节。而后,在区块链结构中的智能合约针对收到的本地模型及严整结构进行参与者累加隐私统计,由于前述的噪声值添加,隐私统计过程中同样考虑权重分配和隐私损失的平衡性。
本节所提出的差分隐私的引入,为框架整体提供了保护数据隐私的和可追溯计算的架构。在综合考虑参与方隐私损失、模型评分和权重分配的同时,兼顾了全局模型精度,实现在保护用户模型隐私的情况下,维持系统较好准确度的训练效果。
四、重庆长安汽车智能制造供应链平台实践案例
结合基于区块链的联邦可信学习框架(以下简称:联邦学习框架)前述研究内容,结合重庆长安汽车智能制造供应链平台实践场景,于重庆长安股份有限公司供应链某工厂上落地实践,推动框架在实践中的应用成效。
(一)需求分析
本次实践案例落地重庆长安股份有限公司供应链上某工厂,该工厂对其供应链全流程已有信息化管理手段,但仍存在诸多难点有待持续克服。供应链上多角色信息交互难,在整体产业链上的销售与计划协同、计划与生产协同、物流与发运协同等环节,由于部分供应商不具备数字化仓储物流管理能力或信息化水平较低,同时双方平台接口标准不一致无法对接、数据安全保护和隐私泄露等问题带来数据协作不及时,使得双方在供应链信息同步上存在种种不便,造成供应链协作效率低下。另一方面,在新能源汽车迅猛发展的冲击下,带来汽车市场需求波动大、变化快,为应对需求波动,企业需加强市场预测和数据分析能力,在信息数据输入端和传输中提升对应能力,使企业及时掌握市场变化趋势和消费者需求变化,以建立灵活的供应链体系,提高供应链的弹性和适应性。具体需求分析如下图:

图2 长安某工厂供应链管理需求分析
(二)建设内容
1.建设目标
实践中,我方项目团队应用联邦学习框架,在利用平台高效对接数据的同时,提供了对数据安全隐私的有效手段。在实践单位中,应用基于工业大数据平台建设数字化的汽车产业链端到端的网络协同制造集成系统,围绕销售与计划协同、计划与生产协同、物流与发运协同等进行功能设计,同时针对数据安全隐私需求保护数据高效与安全的在供应链各环节上进行流转。打通客户端到端全业务流程,从客户订单创建开始到客户提车,全过程可视化和状态跟踪,实现客户订单透明交期预计与答复;打通供应商端与工厂端的数据传递通道,通过系统获取供应商产能信息,建立供应商产能基础数据管理。通过供应商产能数据、在途库存、中储库存、工厂库存与生产计划需求进行算法推演,对供需缺口进行预警,驱动业务改善。实现计划进度监控、订单发运监控、客户订单进度监控、库房容量监控、效率分析展示等功能,提升产业链用户业务协同效率。整体建设思路如下图:

图3 基于区块链的联邦可信学习框架的平台建设思路
2.平台建设内容
基于客户需求,结合联邦学习框架的数据安全隐私保护体系,支撑数据的安全、高效传输、管理与数据权限管理等基础功能的应用(具体如下图红框处),建设智能制造供应链协同管理平台,平台架构如下:

图4 平台架构图
平台建设内容具体如下:
基于区块链的联邦可信学习框架的数据安全隐私保护体系的数据管理
联邦学习框架在数据安全与隐私保护的功能实现上,实现如下关键的平台功能,主要围绕数据加密、安全传输、可信验证、数据防篡改以及隐私保护等方面展开,具体包括但不限于以下几点:
1.数据加密
在数据被发送到联邦学习框架之前,首先进行加密处理,同时对数据进行去标识化处理,移除或替换能够识别个体身份的信息,以确保在传输和存储过程中即使数据被截获也无法被轻易解密,从而保护数据的机密性,减少数据泄露的风险。
2.数据防篡改
平台基于联邦学习框架应用区块链的共识机制、加密哈希技术及密码相关原理,利用数据记录到链上或是使得相关区块发生变化或是难以被篡改或删除的特点,保护确保数据在传输和存储过程中的安全性,从而保证了数据的完整性和可信度。
3.安全传输
在联邦学习框架中,数据或模型参数的传输通过区块链进行加密和验证,确保数据在传输过程中的安全性和完整性。同时利用区块链的智能合约技术,实现对数据传输和模型训练的自动验证,确保所有参与方都遵守既定的协议和规则。
4.隐私保护
在联邦学习过程中,通过噪声添加相关部分的研究模型来模糊数据,以防止个体信息的泄露,保护用户隐私。
5.恶意检测
通过区块链的分布式验证和智能合约技术,可以识别和剔除恶意的数据投毒行为,确保模型训练的准确性和可靠性。同时进行检测和防范恶意模型,防止其在联邦学习过程中对全局模型造成损害。
销售与计划协同
销售需求与生产资源匹配:销售需求与制造资源智能匹配,形成月天计划,指导工厂和销售按节拍生成、启票。
客户订单快速匹配资源:支持客户需求能在系统上查询厂端资源情况,进行资源匹配。或通过常规变更/插单申请满足需求的方式,更快响应市场需求。
客户订单交期答复:打通客户端到端全业务流程,从客户订单创建开始到客户提车,全过程可视化和状态跟踪,实现客户订单透明交期预计与答复。

图5 计划协同相关功能界面截图
计划与生产协同
升级全球计划平台:形成销售、制造、供应的协同作战统一指令,推进资源精准化匹配;
构建同步计划体系:实现生产计划与物料计划、物流计划的联动匹配,实现精准交付。
建立供应商产能数据库:打通供应商端与工厂端的数据传递通道,通过平台获取供应商产能信息,建立供应商产能基础数据管理。
供需缺口预警:通过供应商产能数据、在途库存、中储库存、工厂库存与生产计划需求进行算法推演,对供需缺口进行预警,驱动业务改善。

图6 生产协同相关功能界面截图

图7 生产质量相关功能界面截图
物流与发运协同
供应链库存透明:从零件维度拉通物流与发运协同信息,将零件从供应商库存、在途量、中储库存、工厂存量进行实时透明。
中储/供应商收发存WMS功能:面向无法进行接口及服务传输的供应商及承运商使用,完善物流与发运协同数据的接入。
整车发运计划智能管理:通过规则引擎,实现整车发运规则与发运线路自动匹配,提升发运效率。
整车发运全过程透明:实现计划进度监控、订单发运监控、客户订单进度监控、库房容量监控、效率分析展示。

图8 供应商配送流程全过程透明示意图

图9 采购订单相关功能界面截图
(三)应用成效
本方案目前已经在长安汽车供应链上某工厂实施落地,通过项目实施,打造开放式、产业化的网络协同制造共享云服务平台,并形成可复制借鉴的应用示范体系,助力企业的400多家供应商/物流服务商提供供应链库存数据接入标准,及5000多个零件进行库存推演,实现供需缺口预警。同时,以创新服务模式打破行业现行管理体制机制以及行业运行弊端,推动需求侧与供给侧改革,优化汽车产业聚集区域资源配置,拓宽制造需求满足路径,降低制造成本,提升制造效率,促进汽车行业绿色智能化发展。此外,项目的实施与应用示范,将充分释放社会智力资源价值,培育一大批优秀的网络协同制造管理、技术研发与应用人才,促进“互联网+”先进制造新兴业态的衍生。
五、总结与展望
本次研究报告,在汽车供应链面向敏捷、灵活的变革背景下,面对数据信息传输、共享与安全隐私保护的需求和痛点,针对联邦学习框架研究面对的关键问题,提出了解决方案并在相关实践中得以验证,为汽车供应链在供应链上下游协同困难、数据主权不明晰、数据安全与数据高效应用兼顾难等问题提供了解决思路。
后续,该研究框架仍可从降低模型训练次数以确保本地模型安全性、区块链安全等方面,从区块链节点结构设计以减少通信耗时与平衡节点计算速度方面,从供应链多方参与的制造业分布式决策场景下的可信安全的决策效率的进一步提升方面,进一步完善框架结构,为汽车供应链数据安全隐私保护与数据应用提供更为可靠的方法路径。
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。