企业网站php源码,亚马逊书店购书官网,网站搜索框代码怎么做,深圳建立网站公司文章目录 day15特定数据类型的算法工业分析中的数据预处理工况划分数据缺失时间数据不连续强噪声大惯性系统趋势项消除 day15
今天是第15天#xff0c;昨日是针对最优化算法、规则推理算法、系统辨识算法进行了阐述#xff0c;今日主要是针对其他算法中的特定数据类型的算法… 文章目录 day15特定数据类型的算法工业分析中的数据预处理工况划分数据缺失时间数据不连续强噪声大惯性系统趋势项消除 day15
今天是第15天昨日是针对最优化算法、规则推理算法、系统辨识算法进行了阐述今日主要是针对其他算法中的特定数据类型的算法、以及开启讨论工业算法分析的章节第六章工业分析中的典型处理方法
特定数据类型的算法
这块主要是针对文本数据、图像数据、时空数据的数据方法做了阐述很多地方只是粗浅一带而过所以我这边只是贴了一张图以后有涉猎到再慢慢研究毕竟是很大的方法类别.
文本数据类的不同研究任务 图像数据的任务分类 时空分析技术组成 工业分析中的数据预处理
工况划分
不同工况的设备和系统运行规律、变量分布差异很大因此对于工况划分是很多工业分析课题的前置条件通常会有如下3种策略
一次性分割策略可采用Autoplait算法进行分割分组分割的策略根据业务语义形成若干变量组对于每个组做时序分割然后对这些分割短进行聚类最后对多个组的类别进行组合 在单变量时序分割中可以采用PELT算法按照均值/方差变化分成若干段也可采用SAX、PAA、PLA等时序再表征算法 聚类合并策略对每个时刻点的向量进行聚类标记t时刻对于的类别根据类别时序进行自然分割
需要注意时间序列分割算法通常是基于统计量比如PELT算法根据均值、方差的变化进行切分、局部结构例如PLA用分段线性模型去逼近原序列、局部动力学模型例如AR模型的稳定性进行显性分割或者建立全局的生成式或者建立全局的生成式概率模型例如Autoplait用两层HMM模型进行隐性分割体现在隐含的状态类别变量上
数据缺失
数据量充足的情况下对于存在缺失值的记录可以采用过滤的方式
相对平稳的指标可以采用线性插值、多项式插值或者建立自回归模型如ARIMA模型的方式填充
在中等规模数据量的情形下可以采用回归建模的方法用其他变量去预测存在缺失的变量
时间数据不连续
在探索性建模阶段应当遵循“大数原则”尽快掌握技术的可实现度但是在部署的版本一定要有严谨、鲁棒且明确的处理方法以保证模型的可用性有时候也可从领域知识的角度去发现和处理ANOVA等统计方法也可检测统计分布的改变
强噪声
对于毛刺型的噪声可以使用中值滤波、STL分解等鲁棒性方法对于平稳性高噪声采用线性滤波对于区间内有界但杂乱的信号可以采用LOESS等局部线性拟合方法
大惯性系统
很多温场、流场存在很大的惯性也就是当前点和上一点的差异接近噪声用动力学模型建模诸如lstm、状态方程时如果不加处理因为其共线性导致其效果不佳此时放大尺度是一种通常的处理方法也就是增加粒度
趋势项消除
趋势项常常反映了外部调整或环境变化不是工业对象本身的规律需要滤除。另外很多分析算法需要信号是平稳的至少不存在趋势。趋势项的消除可采用STL分解、小波分析等算法。下图a是原始数据b是消除趋势后的时序