如今人工智能火爆。不过,在工业领域中,特别在工业运营技术(OT)系统中,似乎像有人形容的那样“叫好不叫座”,运用AI真取得实效的不算很多。目前可用的人工智能解决方案的实施,呈现了两个主要问题:人工智能输出的不可预测性和性能波动。这极大阻碍着工业人工智能在生产过程中的推广应用。
1、工业 AI 在生产过程应用的困惑
工业AI在生产过程应用的困惑,原因应该是多方面的。
其中一个深层次的原因是人工智能系统,尤其是基于机器学习的系统(如AI智能体),
本质上是概率性的;而传统的OT控制系统(如PLC、DCS和SCADA),为了实现最长的正常运行时间,严格按确定性属性设计,并提供预期的稳定行为。显然,
工业人工智能与公开可用的大模型存在同样的问题是,目前的人工智能算法在设计上与OT技术系统的逻辑不相匹配。
另外一个原因是数据困境。主要问题出在工业数据存在噪声、非结构化或不完整。传感器可能会丢失读数,工业通信协议可能只能提供简洁的或二进制数据,并且无法保证诸如组件故障或质量缺陷等事件的“真实标签”。用此类数据训练人工智能无法获得准确的输出。
还有一个问题是性能波动。当前的人工智能解决方案存在输出不可预测和性能波动等问题,这使得企业在关键流程中对其使用有所顾虑。这是由于人工智能在工业流程中的独特性质所致。工业人工智能的内在价值(同时也是弱点)在于它被设计用来模仿员工。与人类员工非常相似,需要花费时间用必要的知识对人工智能进行训练,以避免错误和偏差。当人工智能系统标记异常或建议调整工艺参数时,为了便于判断,工程师会要求了解原因。然而与具有清晰逻辑规则的传统算法不同,机器学习模型的推理在逻辑上可能存在缺陷。
另一个不能回避的挑战是,工业企业中存在大量使用了30多年的资产,根本无法承担大规模“拆除并更换”的成本。解决如何将大量既有的OT资产(控制系统、仪器仪表等)与当今强大的新型OT及IT赋能的AI、数据分析解决方案连接的问题,在不影响系统可用性的前提下提升业务绩效,这需要我们思考如何将原有OT系统与现代OT系统及IT系统相结合,从而使这些IT系统可通过AI、数据分析、云计算、边缘计算、数字孪生和网络安全等技术,对现有的大量系统赋能。
总之,将人工智能集成到OT系统中存在诸多挑战。这些挑战涵盖从技术问题(不可预测的行为、数据问题、计算能力不足、与原有系统集成)到人和组织因素(信任、技能差距、法规遵从性)等各个方面。幸运的是,我们已经看到企业正在积累相关经验,并建立一套最佳实践来应对这些问题。本文后续内容将探讨一些现有的策略,这些策略可以降低风险并简化在工业环境中采用人工智能的流程。
2、降低工业环境中人工智能应用风险的策略
从小规模且安全的方式入手是实施新的技术策略的最佳选择。与其期望新的人工智能模型助力关键流程,不如首先将其应用于非关键领域或作为咨询工具。例如,人工智能可先用于分析历史数据并提供见解(例如建议维护窗口或标记低效率情况),而不具备直接影响运营的能力。这使得经验丰富的操作人员能在持续监督输出结果的基础上,可以提供反馈并优化模型。
只有当人工智能在这种只读角色中被证明具有足够的可靠性时,才应逐步将其引入闭环控制。在测试平台或沙盒环境中利用数字孪生或其他模拟环境开展试点项目必不可少。所谓沙盒环境是一种模拟真实系统的隔离测试环境,其核心特点是隔离性和安全性。在沙盒中运行的操作不会对外部的真实系统、数据或网络造成影响,即使测试对象存在漏洞、病毒或错误,也只会局限在沙盒内部,避免引发实际损失。总之,AI不能直接进入生产实际,必须现在隔离的虚拟/半虚拟环境中先进性试点验证。
运用AI对生产过程的部分环节进行控制,必须经历以下四个阶段:1.离线分析;2.决策支持;3.有人工监督的自动化;4.对经过选择并有充分理解的任务进行自主控制(参阅图1)。
通过分阶段实施与工具链支撑,AI系统可逐步从“实验性验证”过渡到“生产级应用”,同时确保技术可控性与业务价值的平衡。这是AI真正落地于生产实际的四阶段递进的闯关流程;也是为AI落地提供的一套“风险控制框架”,先在安全的虚拟环境作试验,再通过“由离线到在线,由辅助到自主“的四阶段递进,让AI逐步适应真实场景,最终只在可控任务中实现自主控制。这种方法论不仅适用于工业领域,也可扩展至医疗、交通等对安全性要求极高的场景,为AI规模化落地提供系统性保障。
图1 工业AI应用的四阶段递进方法论
进一步展开四阶段递进的讨论。
离线分析就是AI“纸上谈兵”阶段。通过数字孪生技术构建物理系统的虚拟映射,实现数据闭环验证和算法预训练。用历史数据(而非实时生产数据)让AI学习规律(比如分析过去1年的设备故障数据,找出预警特征),不接触真实系统,只做数据层面的模型训练和验证。
决策支持是AI“提建议”阶段,核心是建立可信交互机制,通过人机协作的渐进式赋能,让AI从“建议者”逐步过渡为“协作者”。在此阶段接入实时数据,但不直接控制生产流程。AI分析设备数据后,弹出“针对性措施”的提示,但最终决策权仍在专业操作人员手中,以验证AI建议的准确性。
监督式自动化阶段是AI“半自动阶段”,需构建干预容错机制,确保AI在预设范围内自主决策,同时保留紧急接管能力。AI可以自动执行操作(比如调整设备参数),但由专业操作人员实时监控,一旦发现AI操作异常立即干预,以验证其自动化操作的稳定性。
对经过选择并有充分理解的任务进行自主控制是AI“独立干活”阶段,需严格限定应用边界,优先选择高结构化、低风险场景。针对“已充分理解、风险可控”的特定任务(譬如固定流程的产品质检、标准化的仓储分拣),让AI完全自主控制。前提是前3个阶段已验证无误,确保AI在这些任务中不会出现问题。
3、构建“概率性感知-确定性执行”框架
传统的工业控制系统的确定性与人工智能(尤其是机器学习)的概率性之间的本质差异,
确实是工业领域应用AI的核心挑战。为了保障生产安全、运行和产率稳定,前者追求如PLC的逻辑控制、PID的闭环调节的“输入-输出”的精确可控;而后者依赖数据驱动的概率推断,其输出天然带有不确定性。如何在工业控制系统中将两者融合,关键在于:构建“概率性感知-确定性执行”的框架,通过分层设计、机制约束和技术协同,
让AI的灵活性服务于工业控制的确定性,构成一个完整的、可实施的方法论。以下讨论实现的具体途径与方法。
工业AI应用分层的三层架构三层架构由辅助决策层(AI)、中间转换层(桥梁)以及核心控制层(传统控制)构成,参阅图2。采用分层架构的核心出发点是将概率性环节与确定性环节加以隔离,通过合理的层级划分,平衡AI的概率性输出与执行环节对确定性的严格要求,避免不确定性带来的风险。通过“决策-执行”分层的方式,将AI的概率性限制在非核心决策层,核心控制层保持固有的确定性,避免不确定性直接渗透到执行环节。如果将这个框架与工业标准模型(如ISA-95)结合,可以将辅助决策层视作处于ISA-95的监控优化层(L3/L4),而核心控制层视作处于ISA-95的实时控制层(L1)。辅助决策层由AI主导,AI负责感知、预测或优化建议(概率性输出),例如,基于振动数据预测轴承故障概率给出“未来2小时故障概率90%”;基于能耗数据推荐生产参数调整方案(“调整温度至180℃可降低能耗5%,置信度85%”)。核心控制层(确定性主导)由传统工业控制系统(如PLC、DCS)执行明确指令,仅接受“是/否”、“执行/不执行”等确定性信号。中间转换层将AI的概率性输出转化为确定性指令,作为连接两者的桥梁,通过预设规则(如阈值判断)或专家系统,将AI的概率性输出转化为核心控制层可执行的确定性指令,实现“概率分析”到“确定动作”的转化。例如:设定阈值规则(“当故障概率≥90%时,触发停机检查”),或通过专家系统将AI建议转化为标准化操作流程(SOP)。
图2 工业 AI 应用分层的三层架构
辅助决策层其功能是数据驱动的感知与优化,其定位是位于监控与优化层(L3/L4),不直接介入实时控制(L1)。AI任务类型包括预测性维护;工艺参数优化(基于历史数据和实时工况,推荐能提升效率、降低能耗、稳定质量的最优参数设定值);异常检测(识别控制系统难以察觉的、缓慢发生的或新模式的生产过程异常);视觉质检(判断产品是否存在缺陷,并给出置信度)等。
辅助决策层的输出形式主要是概率、置信度、建议值。例如“产品A缺陷概率92%”,“建议将反应釜压力设定值从1.2MPa提升至1.25MPa,预期收率提升2%,置信度80%”。中间转换层其功能是安全保障与决策固化,这是整个架构的“智能安全阀”,是确保可靠性的关键。除了预设规则和专家系统,还可以引入更现代的机制,例如确定性规则引擎;阈值判断(这是最核心、最可靠的方法,例如“IF故障概率≥90%THEN发送‘停机’指令至PLC”);多条件仲裁,以综合多个AI模型和传统信号的结果(如“IFAI视觉缺陷置信度>95%AND传统传感器厚度检测超标,THEN触发剔除”);人机协同决策(进行高不确定性处理:当AI建议的置信度处于中间范围如60%-85%,系统不自动执行,而是将“AI建议+置信度+支撑数据”推送给操作员,由操作人员做最终判断。这既是安全措施,也是积累人工决策数据以优化AI的过程);安全冗余与边界检查,即转换层发出的任何指令,在送达执行层前,必须经过一轮物理极限和工艺安全边界检查(如AI建议将温度升至180℃,但系统规则限定最高不能超过175℃,则指令会被修正或拦截并报警)。
核心控制层其功能是确定性与高可靠性执行,其定位是基本控制层和过程控制层(L1/L2),由PLC、DCS、安全仪表系统(SIS)等担当。其核心原则:1)指令单一化只接受明确的、不可拆分最小操作的指令,如SetPoint=180.0,DO_Alarm=ON。2)周期性执行严格按预设扫描周期运行,保证实时性。3)最高优先级传统安全联锁(如急停按钮、超压报警)必须具有超越AI建议的最高中断优先级。
在“架构分层”基础上,如果再融入“机制约束”和“技术协同”,可以使其更为完善。机制约束是为了给AI套上“缰绳”。具体的方法包括可解释性与可信度,持续学习与模型漂移监控,以及安全冗余与降级策略。可解释性与可信度要求AI模型(尤其是深度学习)不能是“黑箱”。需要提供决策依据,例如,对于视觉检测缺陷,应能高亮出图像中导致判断为缺陷的区域。在技术上使用可解释AI(XAI)技术,如LIME、SHAP,让操作人员和工程师理解“为什么”,从而建立对AI的信任。
持续学习与模型漂移监控,应对工业过程会随时间变化以及AI模型性能会“漂移”下降的挑战。为此需要从机制上建立模型性能的在线监控系统。当发现模型预测准确率持续低于某个阈值时,自动报警,触发模型的再训练和更新流程。其关键是模型的更新必须经过严格的离线测试和审批,绝不能在生产系统中“自动”更新。安全冗余与降级策略,其设计必须预设AI系统失效的应对方案。一旦AI服务宕机或输出异常,系统应能无缝切换到基于传统规则的备用模式,或人工操作模式,保证生产不中断。这就是“安全降级”原则。
技术协同使融合成为可能。运用数字孪生作为测试和验证AI算法的“安全沙盒”,在新的AI控制策略应用到实体产线前,先在数字孪生模型中进行大量仿真测试,验证其有效性和安全性,可大幅降低现场风险。边缘-云端协同计算,通过在边缘侧部署轻量级、低延迟的AI模型,负责需要快速响应的异常检测和指令下发;而在云端进行复杂的、非实时的大数据分析和模型训练,将训练好的新模型下发至边缘侧。
工业AI应用的成功之路不在于用AI取代传统的确定性控制,而在于构建一个以确定性控制为“筋骨”、以AI智能为“大脑”的协同系统。通过清晰的分层架构将概率性活动限制在安全边界内,再辅以严格的机制约束和先进的技术工具,最终让AI的“不确定性”为我们所用,转化为更高层次的、可预期的“确定性”收益——即更高效的运行、更低的成本和更安全的生产。
4、湖仓一体——工业人工智能应用的统?的数据摄取和存储架构
Lakehouse(湖仓一体)架构是一种融合了数据湖(DataLake)和数据仓库(DataWarehouse)优势的新型数据管理架构,旨在解决传统数据湖和数据仓库各自的局限性。Lakehouse既能让企业像数据湖一样低成本存储海量多类型数据,又能像数据仓库一样高效进行结构化分析,减少了数据在两者间迁移的成本和复杂性。湖仓一体数据架构是目前有效实施工业人工智能最合适的数据摄取和存储架构模型。湖仓一体(见图3)结合了三个重要组成部分:用于管理数据持久性的存储层;用于处理查询和处理任务的计算层;用于控制元数据和模式定义的目录。湖仓一体模型将通常需要多个数据湖才能实现的功能整合到单个工作流程中,使企业能够针对单一的数据源执行分析和人工智能驱动的工作负载。
图3 湖仓一体的数据架构(图源:IEB 网站)
其核心特点包括:1)统一存储与计算:基于低成本的对象存储存储原始数据(结构化、半结构化、非结构化),同时支持类似数据仓库的结构化查询和事务能力。
2)克服数据湖缺乏事务性的问题,确保多用户并发操作时的数据一致性,适合数据更新、删除等场景。进行schema管理,即支持类似数据仓库的schema定义和演进,既保留数据湖的灵活性,又能提供结构化数据的治理能力。
3)支持多样化计算:可对接SQL分析、机器学习、流处理等多种计算引擎,满足从BI报表到AI建模的全场景需求。
湖仓一体架构在诸如亚马逊S3、微软Azure数据湖存储或谷歌云存储等云平台上存储大量数据。每月每太字节的成本约为20-23美元,这比传统存储系统的价格便宜得多。总之,湖仓一体提供了一种高效且低成本的方式来存储多年的性能指标数据,使企业能够进行更准确的分析并获得更好的长期结果。
5、企业成功实施工业人工智能项目的结构化方法
成功实施工业人工智能项目必须采用结构化方法,强调采用整体战略来应对技术、组织和运营方面的挑战。概括来说有以下8点举措。
1.项目需要明确与业务需求一致的、可衡量的目标,将人工智能计划与特定的痛点相结合,如质量控制瓶颈或供应链效率低下问题。
2.构建强大的数据基础,实施相关框架以规范数据相关流程,包括:1)聚合和组织数据,将各种来源的原始数据集中起来,构建强大的数据基础,确保模型能够获取高质量、有上下文的输入数据。通过使用数据湖或湖仓一体将来现有系统、物联网传感器和ERP平台的原始数据集中,并便于使用。2)在数据治理上狠下功夫,实施标准化方法收集数据、标记数据,并确保数据安全。3)利用边缘计算,在本地处理关键数据,以减少延迟并提高实时响应能力。
3.采用分阶段、迭代的方法。先进低风险的试点项目(如视觉检测或预测性维护),在扩大规模之前验证投资回报率。接着快速试错并学习,使用敏捷方法,根据反馈进行迭代。持续更新并以用户为中心进行改进。一旦价值验证成功,将解决方案集成到更广泛的工作流程中逐步扩大规模。
4.选择合适的技术平台:选择可扩展的解决方案,优先考虑人工智能系统与现有基础设施的互操作性,以减少对供应商的依赖。利用生成式人工智能模拟生产场景并优化设计。
5.促进跨职能协作:组建多学科团队,包括数据科学家、工业工程师和一线工人,将技术和运营专业知识结合起来。通过开展人工智能素养培训项目来解决文化阻力问题,并建立治理框架,明确人工智能伦理、合规和风险管理方面的角色和职责。
6.投资基础设施和技能:进行原有系统升级以支持人工智能工作负载。培养内部专业知识,对员工进行数据工程和其他相关领域的培训,并利用与供应商和初创企业的合作关系获取专业知识。
7.监控、迭代和优化:跟踪关键指标,如整体设备效率OEE和平均修复时间MTTR,以衡量人工智能的影响。持续重新训练模型以应对模型漂移问题,并采用云财务运营(FinOps)实践来监控人工智能成本并优化资源分配。
8.拥抱符合伦理且安全的人工智能:实施网络安全协议以降低风险,使用可解释的人工智能确保透明度,并将公平性和问责制融入人工智能开发中,以营造符合伦理的文化氛围。
6、结束语
工业AI在生产过程中的落地,从来不是技术的单向突进,而是概率性智能与确定性控制的协同进化。从四阶段递进的风险管控到“概率性感知-确定性执行”的分层架构,从湖仓一体的数据底座到跨职能协同的实施方法,破解“叫好不叫座”的困局,核心在于打破技术壁垒与认知鸿沟——既不迷信AI的全能性,也不固守传统控制的边界。当AI的灵活洞察被规范在安全框架内,当既有资产与新兴技术实现无缝衔接,工业AI终将从实验室走向生产线,从辅助工具升级为价值引擎。这条路虽需循序渐进的探索,但随着技术体系的完善与实践经验的积累,工业AI必将为流程工业和离散制造业注入更高效、更安全、更可持续的发展动能,推动智能制造从概念走向坚实落地。
本文为e-works原创投稿文章,未经e-works书面许可,任何人不得复制、转载、摘编等任何方式进行使用。如已是e-works授权合作伙伴,应在授权范围内使用。e-works内容合作伙伴申请热线:editor@e-works.net.cn tel:027-87592219/20/21。