清华大学软件学院副教授邓仰东：工业人工智能--数据驱动预测式维护

　　2019年7月14日，由中国新一代IT产业推进联盟指导，CIO时代学院、中国电子科技集团公司第十五研究所计算机质检中心主办，全国高校大数据教育联盟、章鱼大数据、万山数据协办的"第八届中国大数据应用论坛暨中国电科15所大数据应用论坛"在京隆重开幕。清华大学软件学院副教授邓仰东在论坛上发表了题为《工业人工智能--数据驱动预测式维护》的主题演讲，以下为演讲实录：

　　清华大学软件学院副教授邓仰东

　　大家好！非常高兴有机会跟大家汇报一下我们过去五六年在工业大数据方面的一些工作。将人工智能应用到工业数据里，然后找到工业大数据领域的应用。从另一个角度看，要真正解决问题，需要理解工业数据场景、理解业务流程，把这个工作做好。

　　人工智能的伟大时代

　　今天我们生活在一个伟大的时代，人工智能正在从各个方面、各位方位深入的改变着我们的生活。

　　比如图像处理，今天以深度神经网络为代表的图像识别程序已经在图像识别、物体检测方面达到甚至能超过人的精度。又比如图像识别，人的错误率大概是5%左右，深度学习已经达到3.8%的错误率，比人要精准的多。

　　人工智能在图像方面的应用

　　事实上，深度学习真正进入我们生活是从大家都知道的AlphaGo在围棋比赛上击败了人类世界冠军这件事开始的。之后去年在德国扑克比赛上，人工智能也打败了人类世界冠军。今年在计算机游戏方面，如5对5这种团体网络游戏上面，人工智能也达到了超过人类的表现。

　　在医疗领域，人工智能应用的已经很多了。中国现在还没有人工智能医疗牌照发出，而美国已经有若干个牌照发出了，人工智能已经在很多医疗领域能够打败具有行医资格的医生。

　　为什么研究"工业人工智能？"

　　我们先看为什么研究"工业人工智能"？人工智能是一个非常热的词汇，那么工业和人工智能本来是不相关的领域，其实从经济角度来看实际上有两方面因素：

　　一方面，AI在近些年的深度革命。第一是数据，全社会数字化程度不断提高，有足够的数据去训练很强大的模型；第二是算力，云+边缘计算+GPU，这样一些硬件的出现，使计算能力真正能够训练深度神经网络；第三是算法，深度神经网络和很多其他方面的AI算法，今天达到了非常好的效果。所以这些技术的提出以及融合，使得我们可以利用信息技术，来改变很多我们人类生活或者工作的现状。

　　从另一方面，也就是工业角度来看，发达国家现在的问题是，它们的产业价值密度大、价值高，但是制造业存在空心化的情况。首先制造业就业不足，所以现在发达国家的重点是重新在制造业领域占据主导地位。而那些已经占据高端制造业主导地位的国家，像德国、日本，希望继续保持它的领先地位。从这个角度讲，它希望通过数据发现工业价值，来提高工业价值的密度。

　　而发展中国家，以中国为代表，我们的制造业已经是规模很大，但是价值密度很低。我们提供了就业，但是价值密度低并且而整体效果差。从这个角度讲，我们需要利用工业人工智能、工业数据来提高我们的效率。其实不管发达国家还是发展中国家其实都有这种需求，利用人工智能技术获得数据，来提高整个产业价值密度。所以中国提出中国制造2025，我们一方面要为工业2.0、3.0补课，另一方面我们希望通过中国制造2025提高数据创造价值能力，从而在高端制造业、整个制造业里成为制造强国。而美国它希望在中国重塑制造业，获得整个制造业的领先地位。而德国、日本希望在高端制造业继续保持领先地位。而英国是要解决空心化问题。所以说全世界各国都希望利用人工智能来提高工业领域的效率和创造价值的能力。

　　什么是人工智能？

　　智能其实是人适应环境的能力。环境是不断变化的，我们自身也在不断变化，我们能否通过调整自身的行为、理解和推理能力来更好的适应社会。达尔文他认为进化过程实际上就是智力的进化过程。智力进化过程实际上是适应环境这种能力变化的过程。从这个角度讲，智力其实很大程度上是一种整体的能力，它可以能够理解、认知世界，同时能够把这种认知的结果进行智慧决策而改变这个世界。

　　人工智能不是说事先编好程序去做这件事，而是通过数据、历史学习这些方法能够达到适应环境的能力。它这种活动过程、活动能力、解决问题的能力不是通过编程事先写死的，而是通过学习获得的。

　　目前看来，人工智能分成三大流派：第一派是符号派，是最早的一批人工智能学者，他们主要是从逻辑推理角度来解决人工智能问题；第二派是联结主义，主要是仿生，即人工神经网络、深度神经网络。目前看来联结派效果是比较好的；第三派是行为主义，主要是通过控制人和世界的交互达到人工智能的效果。人工智能其实分成很多领域，机器学习只是人工智能领域之一，而深度学习又是其他领域，所以机器学习和深度学习不能代表所有的人工智能。

　　人工智能全景图

　　这里面人类已经解决了一些问题如视觉、语音识别、自动驾驶、翻译等。事实上我们还有更高等的任务要去完成，比如说最高等的科学发现、写书、艺术、电影，这其实是很多人希望人工智能最终能够解决的问题，这也是是人类最高智力的体现。

　　什么是工业人工智能？

　　工业人工智能这个领域已经非常宽广。包括三大方面：

　　第一，互联网+制造。它不完全是智能性的东西，更偏重连接和互联。比如工业互联网和物联网，它强调的不是分析出什么，而是把数据能够获取、采集并进行信息的流通和共享。严格来讲，它是工业大数据的一个领域，而不是人工智能的领域，但是它解决了数据来源的问题。

　　第二，智能制造，就是制造过程智能化，如流程物流、数字化自动化控制等等，这方面是从制造角度采用人工智能方法。

　　第三，人工智能+制造，我本人关注的是AI预测式优化这块，通过数据、历史挖掘产品制造过程内在规律和内在问题，通过这些现象对整个工业过程进行预测，根据预测结果进行决策。这块是数据驱动的预测式优化决策是我们比较关心的内容。

　　工业人工智能的经典场景有哪些？

　　工业人工智能的典型应用场景有哪些？个人认为分五方面：

　　第一方面是数字化研发。比如说制药、化工、材料研发等方面都可以利用人工智能做研发。以前药物实验成本非常高、周期也长，我们可以通过数字化和人工智能的方法做实验，甚至找到新的化学结构。数字孪是指在制造和设计过程中对整个系统进行数字化建模，数字化建模的好处是我们可以轻易的隔离开不同的部分，然后对一部分进行实验。

　　第二方面是生产制造。从生产制造角度，我们可以通过人工智能方法改变整个生产效率，柔性制造其实很简单，我们今天的个人需求是千变万化的，我们希望产品能够满足不同人的需求。比如小米有各种各样的定制，海尔有各种各样的产品需求分析，通过一个共同工厂机制实现不同流程和虚拟制造，可以让一个工厂的固定流水线实现不同制造功能。其实做的最好的是英特尔，英特尔生产线和生产过程都不改变，它利用一个工艺生产CPU。因为工艺过程中有随机性，造成有些芯片性能比较好、有些芯片性能比较差、有的芯片上四个核只有两个核工作。而英特尔完全不用修改工艺流程，筛选出比较好的芯片卖个比较高的价钱，比较差的芯片卖个比较便宜的价钱，其实本质也是柔性制造，只不过他完全用刚性的工艺来进行制造。而今天柔性制造更多是说从自发角度设计工业流程、发现内在需求，使它适应不同的需求，这是流程制造。

　　第三方面是质量管控。质量管控既包括产品本身的质量管控。这里面的工业人工智能应用是最成熟的。比如说奥迪用图像方法去检查焊接和板材质量。有很多纺织厂用图像的方法来检查纺织品的质量，邹鹏程博士其实他们做了很多这方面的工作。比较复杂的是说工艺流程本身的优化，比如说我们之前跟奇瑞做的合作，在焊接过程有很多人类因素就会导致整个车体结构的变化，那能不能通过人工智能的手段，通过对焊接参数本身的数据分析，预测通过焊接对整个结构进行预测，这就是质量管控的过程。

　　第四方面是供应管理。它是指整个供应链通过人工智能来优化，这里面会预测配件寿命，从而调整库存管理、供应链供应过程和效率。

　　第五方面是运营维护，也是和我工作最相关的。比如说航空、航天、轨道交通、电网等。我希望对工业装备进行建模，这个模型可以是设备或数据驱动建模，更多的是联合建模。建模之后我可以根据工况历史条件去推测装备本身未来的变化趋势从而各种优化决策。比如说什么时候去修、是不是有潜在故障、维修时机、维修间隔等等，从而提高整个运行效率。

　　工业人工智能布局

　　这是工业人工智能布局。横轴是说工业人工智能应用的范围，如产品、设备、工艺、流程等，也可以是整个产业领域。纵轴是分析的深度，它可以是描述性的，也可以是诊断性的，比如这里面发生了什么问题，也可以是将来的问题在哪，需要理解整个运行过程内在规律。我们比较关注的是预测式维护，就是通过装备本身的理解和数据预测做到预测式维护，也就是说在这个没有坏的时候我就可以发现潜在故障，从而得到最佳的维修时机和方式。

　　预测式维护

　　预测式维护很简单，最早在第二次世界大战之前，那时候工业装备基本上不做维护，基本上坏了之后再去修。二战之后我们发现如果采用定期维修的机制，整个飞机出勤率会变的很好，所以当时出现了定期修或者计划修的体制。逐渐发展到现在，我们需要采用预测修或者预防修的方法。实际上机器是按照一定规律来设计的，机器本身有它的运行规律，经过我们二三十年的研究证明，这种规律完全可以预测。从这个角度讲，现在我们要做的是不要非得等故障出现才修，而是在比较早期、在故障没有发生的时候，我们通过机器本身的数据特征，来发现潜在的故障，然后进行故障处理，这是预测式维护。

　　预测维护雷达图

　　上图是预测维护的雷达图，有各种各样的因素、各种各样的技术条件。目前看整个人工智能的产业大概是80亿美元的产值，这张图人工智能十个最挣钱领域，第一个是量化金融，通过人工智能预测股票很短时间的走势，长期预测是不行的。第二是安防，以图像为基础的安防技术。第三是医疗。第四是预测式维护。实际上就是数据驱动的预测式维护。大家认为在未来十年二十年间它会是最重要的，因为世界自动化协会已经发现全球每年因为机器故障带来的损失超过6000亿美元。麦肯锡报告也指出全球93%的制造和运维企业认为其维护过程效率不高。比如说铁总这个问题非常突出。像我们中国动车组是非常先进的，但是现场工人跟我说，他们实际上是用世界上最原始的技术维护世界上最先进的装备。在中国这种问题是非常突出的。我们认为如果通过工业人工智能技术的引入，应该能带来巨大的提高效率、降低成本的机会。

　　另一方面，机遇和挑战是共存的。比如GE Predix是着名的工业人工智能、工业数据分析的平台。GE已经在白皮书中指出，目前看工业人工智能的开展并不是那么容易，全球大概只有3%的工业人工智能数据能够得到标注，不到1%的真正能够得到处理。

　　目前工业人工智能做的最好的一个应用案例是美国的F-35战斗机。它从设计之初就采用了预测式维护，但是它们有一个专业的词叫"预测式健康管理"，实际上就是预测维护的意思。它是美军的三个军种共同准备的一个飞机，从设计一开始就考虑预测式维护，大概1/7的成本就花在预测式维护上，他建立了世界上最复杂的针对单个装备的故障库以及相应的后勤管理系统。F-35没有所谓的不可呈现故障，也没有间歇性故障，它可以做到在故障发生前进行故障预测，并且对整个故障链采取行动。

　　带来的效果是什么呢？F-35战斗机的整个维护人员比F-16战斗机减少40%，维保费用减少50%以上。另外，F-35战斗机和F-16战斗机是整个北约国家所共同使用的飞机，所以他们对比是有意义的。总体上来看F-35战斗机远远贵于F-16战斗机，F-35战斗机单架成本是1亿美元，F-16大概是2000万左右。但是全生命周期的费用F-35要远低于F-16，相当于F-16的1/4。所以这是预测式管理的一个巨大的胜利。这个工作相对来说其实是容易的，因为从设计一开始就要求全部供应商都采用预测式维修，进行质量建模和算法研发，但是在实际民营工业中这个条件经常是不具备的，所以仍然会有巨大的困难需要我们去解决。

　　预测式维护的挑战

　　第一个挑战，工业装备有个特点，就是运行环境极其复杂恶劣，而这种环境复杂性在设计过程中未见得一定能够得到捕捉。比如说中国动车运行在吐鲁番盆地，运行在寒带地区、热带地区，这些东西设计时当然有一定维度，但是不见得能够捕捉到所有的情况。而列车本身的状态严重依赖于工况和环境条件，有很多情况是设计数据不足以覆盖的。此外，还有一些因为数据使用的瓶颈，比如说设计数据在中车集团、应用数据在铁总，双方共享之间有些瓶颈。造成了你即使知道这个设计，你也不一定完全理解它在特定环境下故障表现情况。

　　第二个挑战，工业装备和传统人工智能、互联网应用不太一样，它需要很多领域知识才能得到理解。一个火车在检修过程有300多项检修内容，这些检修内容都有一定流程，需要一个流程管理起来，每一步产生什么作用要结合整个业务来分析，不是简单的从输入到输出的过程，而是要把AI真正嵌入到整个工业过程当中。另一方面，人工智能数据科学家很难理解每一个工业领域，而工业领域很多人也很难理解数据科学，他们有时候会把AI当成魔术，认为只要给你一堆数据，什么都可以获得。也有人会认为，你这个是不行的。事实上，这两种极端都不对。这个过程需要领域专家和数据专家结合，不断深入理解整个过程才能达到效果。

　　第三个挑战，工业故障有个典型特点，我们都说工业大数据，事实上我们关心的是故障数据，尤其是对运维密集型行业而言。比如说动车，我们总是关心它的故障，它正常运行我们倒不太关心。但是从故障角度看，其实它是有小数据特点的。工业大数据，大部分数据都是正常运行数据，这个价值密度是很低的，而真正发生故障的东西是我们所关心的。因为动车出故障很少，动车组一般一年也就七八次重大故障，所谓重大故障不是出轨这种恶性故障。它发生故障之后效果可能很恶劣，但是故障次数确实是很少的。那么一辆动车组它的故障种类有6000种，这些故障都有可能发生，不存在典型的80、20规律。我们关心的数据其实是有小样本特征，而整个故障有长尾特征，这是一个难点。我们都说AI是数据驱动的，数据驱动需要数据，结果你拿到数据发现大部分数据其实是没有价值的，而真正有价值的数据又很难获得，这是一个最大的难点。

　　有什么样的方法去解决问题？工业人工智能实际上从预测式维护角度来看基本就是四个问题：感知、诊断、预测、知识发现。

　　从预测式维护角度看工业人工智能的四个问题

　　1、感知

　　感知其实就是综合数据采集。工业数据采集经常很多和人工智能在一块的，不是简单的传感器直接采数据，而是把很多感知和传感器嵌到一块，这才是智慧感知的状态。从我们经验来看一般来说现在的工业装备数字化程度是比较高的，所以本身就可以采集一些数据。此外，一些重点装备我们会根据它的特点来增加一些新的采集设备。

　　再比如火车、飞机一旦投入使用再加装新传感器是很困难的，那怎么检测新的故障形态呢？会有非介入传感器，有声感的、图像的，不用装在里面，而是放在设备旁边就可以用了。此外，对设备维护过程这些数据也需要进行采集。这方面国内现在做的还比较差。

　　动车组案例

　　这个是动车组的例子。这个例子是盹睡检测，是对驾驶员的行为监控。我们知道开火车本身是件比较枯燥的工作，因为火车没有方向盘，火车驾驶员基本就是换挡位，有七个加速挡，七个减速挡，还有一个溜车挡。所以司机在驾驶过程中非常容易睡着，你坐在那也不动方向盘，非常容易睡着。但是司机一旦睡着是很危险的，像动车如果开在350公里时速的时候，要3.5公里才能停下，只有司机在这个距离上才能准确判断前方是不是有危险，所以司机是不能睡着。所以火车上一般会有一个按纽，司机必须一分钟拍一下按纽来证明他没有睡着。但司机经过长期工作之后，他就学会了一边睡一边拍按纽，因此就要给他进行更深入的监控，例如姿态监测，我们从侧后方加一个摄象头去看司机他在干什么，是不是有在说话什么的，这是智能传感的手段。

　　2、诊断与知识发现

　　诊断是为了了解机械状态。诊断时得知道机器的原理，但是很多时候是自主集成，我们很多装备是从国外进口，不完全了解机器内部状态。我们可以通过知识发现重建知识图谱，建好和数据驱动方法联合在一块，把整个知识穿起来。比如机车故障案例，异常情况发生时我们做自动故障推理，找出故障原因以及故障可能波及的部件。然说故障已经发生了，但是我们能做到自动推理，不需要工程师进行现场推理，也是提高整个自动化的过程。

　　3、预测

　　故障和状态预测难度在于故障数据少。我们一般办法是说利用正常数据训练一个正常模型，就是我知道它正常运行应该是怎么样的。然后实际数据进来之后，我用实际数据相关性和正常数据相关性进行比对，这时候如果存在差距，我认为可能存在潜在故障，我可以进行一系列相应的处理，这是基本的手段。

　　上海地铁实际案例

　　上图是上海地铁实际案例，这是去年上海地铁17号线（02号车）轴承断裂的故障，没有出轨，但是火车紧急停车了。这一故障我们发现这是10月12号发生的故障，我们在10月1号其实能够通过数据的相关性准确地进行预测。

　　设备与工作环境的预测

　　上图是对整个工业过程、设备寿命的预测。这里面是剩余寿命预测技术，根据历史数据算机器还能运行多久。还有风力预测，比如说发电时会预测什么时候会有多大的风力。

　　还有一些合作案例，在做一些重要部件的寿命预测，里面会使用深度神经网络技术，结合卷积神经网络，利用时间特征、空间特征，预测结果可以超过90%以上。

　　总结

　　中国是制造大国，但不是制造强国。我们国家在制造业上的优势成本优势，而且对成本优势的依赖程度甚至比印度还高。我们已经是工业大国，怎么变的更强，这是需要通过工业数据解决的问题。我们国家现在能耗效率比世界平均水平低一半左右，我们用22%多的能耗生产了全世界11%左右的GDP，所以我们能耗比是比较低的。但另一方面中国制造业的数据是特别分布的，所以如果能够利用这些数据一定能使中国制造业更强，给世界做出更大贡献，为我们子孙创造更多的价值。