深圳网站优化排名,wordpress 301插件,seo公司怎样,山东建设和城乡建设厅注册中心网站首页#x1f506; 文章首发于我的个人博客#xff1a;欢迎大佬们来逛逛 文章目录 数据预处理数据变换数据清洗缺失值处理异常值处理 数据预处理 数据变换
常见的数据变换的方式#xff1a;通过某些简单的函数进行数据变换。 x ′ x 2 x ′ x x ′ log ( x ) ∇ f ( x k )… 文章首发于我的个人博客欢迎大佬们来逛逛 文章目录 数据预处理数据变换数据清洗缺失值处理异常值处理 数据预处理 数据变换
常见的数据变换的方式通过某些简单的函数进行数据变换。 x ′ x 2 x ′ x x ′ log ( x ) ∇ f ( x k ) f ( x k 1 ) − f ( x k ) \begin{aligned}x^{\prime}x^2 \\\begin{aligned}x^{\prime}\sqrt{x}\end{aligned} \\x\log(x) \\\nabla f\left(x_{k})\right.f(x_{k1})-f(x_k) \end{aligned} ∇f(xk)x′x2x′x x′log(x)f(xk1)−f(xk)
数据指标的一致化处理 极小型极大型中间型区间型 数据指标的无量纲化处理 零 - 均值规范化也叫做标准差规范化经过处理后的数据平均值为 0标准差为1。 x ‾ \overline x x 为原数据的均值 σ \sigma σ 为标准差。 x ∗ x − x ‾ σ x^*\frac{x-\overline{x}}\sigma x∗σx−x 极值差法又叫最小 - 最大规范化离差标准化将数据映射到 [ 0 , 1 ] [0,1] [0,1] 之间。 x ∗ x − m i n m a x − m i n x^*\frac{x-min}{max-min} x∗max−minx−min 功效系数法就是上一步极值差法然后加了一个偏移量 c c c 使得最后结果落于 [ c , c n ] [c,cn] [c,cn] 中
数据变换的应用方式数据的标准化目的是为了消除指标之间的量纲和大小不一的影响需要进行数据标准化处理。
因此可以将数据按照比例进行缩放使之落入一个据标准化处理将数据按照比例进行缩放使之落入一个特定的区域从而进行综合分析。如将工资收入属性值映射到[-11]或者[01]之间。
function data1mfunc_calculate(data,zhibiao_label)% 指标的正向化处理 1 2 极大型3 4 5 极小型6 单点最优7 区间最优if isa(data,double)for i1:length(zhibiao_label)if (zhibiao_label(i)1)data1(:,i)zheng1(data(:,i));elseif (zhibiao_label(i)2)data1(:,i)zheng2(data(:,i));elseif (zhibiao_label(i)3)data1(:,i)fu3(data(:,i));elseif (zhibiao_label(i)4)data1(:,i)fu4(data(:,i));elseif (zhibiao_label(i)5)data1(:,i)fu5(data(:,i));elseif (zhibiao_label(i)6)prompt 这是单点最优请输入单点最优值 ;a input(prompt);data1(:,i)qu6(data(:,i),a);elseif (zhibiao_label(i)7)prompt 这是区间最优请输入单点最区间如[5,10] ;aainput(prompt);data1(:,i)qu7(data(:,i),aa(1),aa(2));endendelseif isa(data,cell)% data2data;for j1:length(data)data2data{j};if size(zhibiao_label,1)1zhibiao_label1repmat(zhibiao_label,3,1);elsezhibiao_label1zhibiao_label;endfor i1:length(zhibiao_label1(j,:))if (zhibiao_label(i)1)data1{j}(:,i)zheng1(data2(:,i));elseif (zhibiao_label(i)2)data1{j}(:,i)zheng2(data2(:,i));elseif (zhibiao_label(i)3)data1{j}(:,i)fu3(data2(:,i));elseif (zhibiao_label(i)4)data1{j}(:,i)fu4(data2(:,i));elseif (zhibiao_label(i)5)data1{j}(:,i)fu5(data2(:,i));elseif (zhibiao_label(i)6)prompt 这是单点最优请输入单点最优值 ;a input(prompt);data1{j}(:,i)qu6(data2(:,i),a);elseif (zhibiao_label(i)7)prompt 这是区间最优请输入单点最区间如[5,10] ;aainput(prompt);data1{j}(:,i)qu7(data2(:,i),aa(1),aa(2));endendendendendfunction datazheng1(data1)%正向指标1% 填1的时候选择data(data1-min(data1))./(max(data1)-min(data1));endfunction datazheng2(data1)%正向指标2% 填2的时候选择datadata1;endfunction datafu3(data1)%负向指标1% 填3的时候选择data(max(data1)-data1)./(max(data1)-min(data1));endfunction datafu4(data1)%负向指标2% 填4的时候选择data(max(data1)-data1);endfunction datafu5(data1)%负向指标3% 填5的时候选择data1./(max(abs(data1))data1);endfunction dataqu6(data1,a)%某点最优% 填6的时候选择data1./(abs(data1-a)/max(abs(data1-a)));endfunction dataqu7(data1,a,b)%区间指标1% 填7的时候选择for i1:length(data1)if(data1(i)a)(data1(i)b)data(i)1;elseif (data1(i)a)data(i)data1(i)/a;elseif (data1(i)b)data(i)b/data1(i);endend
end数据清洗
缺失值处理
对于缺失值的三种处理方法不处理删除数据数据插补。
数据插补的方法
均值/中位数/众数插补使用固定值插补最近邻插补即在记录中找到与缺失样本最接近的样本的该属性插补可以通过计算对象间的欧式距离衡量。回归方法插补根据已有数据和与其有关的其他变量的数据建立拟合模型来预测缺失值插值法插补推荐常用的插值法有很多主要有拉格朗日插值法、牛顿插值法。 对于缺失值处理我们需要分情况讨论。 如果某个变量或某个样本缺失了 70%以上的数据那么此时对数据进行填补的话会引入更多的噪声反而会降低模型的性能故此时一般直接将该变量或样本删除 如果缺失的不多我们可以考虑对缺失值进行填补。 matlab API
ismissing 或者 isnan 返回一个与输入矩阵同形状的01矩阵1表示此位置是缺失值。rmmissing直接删除缺失值所在的行列第二个参数 1 表示行2表示列。fillmissing填补缺失值。 常数填充constant 插值法常见的插值方法如下 移动窗口填充法该方法的思想是在缺失值前后开一个“窗口”用“窗口”内 的数据的均值或中位数进行填充。
代码实现
clc;clear;
% 数据的预处理
load(带缺少数据.mat);data data_nan;
%% 缺失值处理
% 判断矩阵中是否存在nan值返回一个同形状的0-1矩阵1表示此位置是nan
nan_mat isnan(data);
%% 直接删除空值所在的行:1
data1 rmmissing(data); %默认为1行
%% 直接删除空值所在的列:2
data2 rmmissing(data,2);%% 填充缺失值插值
% 1. 常量填充缺失值
data3 fillmissing(data,constant,999);
%% 2. 上一个或者下一个非空值
data4 fillmissing(data,previous); % next 表示以下一个非空值填充
%% 3. 最邻近的非空值
data5 fillmissing(data,nearest);
%% 4. 三次样条插值
data6 fillmissing(data,spline); % phcip 保持三次样条插值
%% 5. 窗口填补法
data7 fillmissing(data,movmean,8,1); % movean 窗口长度为 window 的移动均值; movmedian:移动中位数异常值处理
正态分布3σ原则总体符合正态分布例如人口数据、测量误差、生产加工质量、考试成绩等。 计算均值 μ 和标准差 σ 。判断每个数据值是否在μ-3σ,μ3σ) 内不在则为异常值.异常值可以转换为 nan 值然后再进行上一步的缺失值处理。 画箱线图下四分位数Q1是排第25%的数值上四分位数Q3是排第75%的数值。四分位距IQR Q3-Q1也就是排名第75%的减去第25%的数值正态分布类似设置个合理区间在区间外的就是异常值。一般设[Q1−1.5IQR, Q31.5IQR]内为正常值。