来自 社会 1970-01-01 08:00 的文章

摘要: 目前,制造业机器设备和传感器采集了大量时间序列数据,能够为实现智慧工厂提供故障诊断、需求预测、产品优化等方面的决策支持。工业大数据分析的合理性和可靠性对数据质量提出较高要求,然而机器采集的原始数据中往往混有许多错误。基于此,结合实际制造业数据质量问题现状,本文研究并开发了一个制造业时序数据清洗系统:Cleanits. 该系统实现了对三种严重的制造业时序数据质量问题的检测和修复,有效地提高制造业大数据的质量及其可用性。

关键词: 工业大数据;时序建模分析;数据管理;数据挖掘;机器学习.

数十年来,随着工业化和现代化进程的推进,我国制造业持续快速发展. 在新一轮科技技术创新革命面前,中国制造业也得到了新的发展机遇. 智能制造是工业大数据的载体和产生来源,也是工业大数据形成的数据产品最终的应用场景和目标. 工业互联网的智能工厂是智能制造的核心,包括了现代化工业制造生产线传感器设备、制造装置监视器等多个智能化子系统,实现对生产整体运行状态和运行环境的实时记录和感知,已经积累并正在产生大量的工业时序数据.

由于制造系统中存在产品质量缺陷、精度缺失、设备故障、加工失效、性能下降、外部环境突变等或显性、或隐性的异常问题,数据质量管理和数据清洗是实现精益生产和智能制造的重要的具体任务,也是工业大数据分析中的重要研究问题. 如果工业产生中的异常、故障、危机情况不能及时地被有效识别,将导致生产环境存在隐性安全隐患,很可能给整个智能工厂系统造成重大经济损失. 目前,在高维时间序列数据中的复杂数据质量问题也逐渐引起重视, 而工业大数据具有大体量、多源异构性强、连续采样、价值密度低、动态性强等特点,这为工业大数据的数据质量管理问题带来了难度和挑战. 已有工作未能实现对多维序列的相关性信息的挖掘和利用,大量错判、漏判的情况导致数据清洗方法性能的降低.

基于此,本文开发了一个制造业时序数据清洗系统. 本文的主要贡献总结如下:

(1) 本文提出了Cleanits——制造业时序数据清洗系统,该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。

(2) 本文提出了工业大数据中高维时间序列上的错列问题的检测与修复算法。该研究首次形式化定义了高维工业时序数据中的一种严重的不一致问题,并提出一个较为完备的解决方案。

(3) 本文提出基于相关性分析的多维时间序列数据异常检测方法,在训练过程中有效挖掘各个维度上序列的相关关系,实现了对异常数据的精准定位和识别,从而提高了异常检测方法的准确度和效率,实现了对于模式多样、工况多变的工业时序数据的智能化、全面化的异常检测.

(4) 通过在真实的工业时序数据集上的开展实验,本文验证了系统的有效性和高效性.且通过页面截图展示介绍了本文所提出的系统具有有效性、用户友好交互性等优点。

1. 系统概述

1.1 课题来源

本系统的课题来源于以下项目:

(1) 国家重点研发计划课题《面向高端制造领域的大数据管理系统》中《数据驱动的高端制造大数据管理系统的工具研制》子课题,课题编号:2016YFB1000703.

(2) 《面向浙江省制造业的大数据分析理论与关键技术研究》,NSFC-浙江两化融合联合基金,项目编号:U1509216.

1.2 系统功能介绍

本文提出的Cleanits——制造业时序数据清洗系统,主要包括五个模块,如图1所示,其中包括三个数据清洗模块:

(1) 缺失值填充模块 实现对序列中的不完整数据和不精确数据的有效识别和清洗。

(2) 不一致数据清洗模块 实现对多维时间序列中的错列问题的有效检测识别和修复。

(3) 异常数据清洗模块 实现对数据进行异常检测,分为异常点检测和模式异常区间检测两个部分。利用基于统计和基于学习模型的算法对异常数据进行清洗。

以及两个功能的模块:

(4) 指标分析模块 实现对序列统计指标的分析、基于工况的子序列模式识别、序列相关性分析和时间开销计算功能。

(5) 用户交互模块 实现带标签数据样本读取、领域知识(约束)读取、参数设置、以及清洗模式选择功能。 

1.3 系统特点

在智能制造领域,全面、完备、可靠的工业大数据清洗系统已经成为目前一项迫切的需求。针对制造业大数据的特点,以及产业的数据质量管理需求,本文提出的Cleanits系统有以下特点:

(1) 工业有效性: 对于三类严重的工业数据质量问题:序列片段缺失、序列区间错位、异常序列区间,实现了有效的检测和修复。

热门文章