诸城哪有做公司网站和的,广东省app开发公司,企业信息门户,百度app制作网站对数据的预处理#xff1a;
(a)、调整数据的方差#xff1b;
(b)、标准化#xff1a;将数据标准化为具有零均值和单位方差#xff1b;#xff08;均值方差归一化(Standardization)#xff09;
(c)、最值归一化#xff0c;也称为离差标准化#xff0c;是对原始数据的…对数据的预处理
(a)、调整数据的方差
(b)、标准化将数据标准化为具有零均值和单位方差均值方差归一化(Standardization)
(c)、最值归一化也称为离差标准化是对原始数据的线性变换使结果值映射到[0 , 1]之间
(a)、调整数据的方差 均方差标准差
方差的定义是离平均值的平方距离的平均。 (b)、标准化
也称为均值归一化(mean normaliztion) 给予原始数据的均值mean和标准差standard deviation进行数据的标准化。经过处理的数据符合标准正态分布即均值为0标准差为1。转化函数为 虽然该方法在无量纲化过程中利用了所有的数据信息但是该方法在无量纲化后不仅使得转换后的各变量均值相同且标准差也相同即无量纲化的同时还消除了各变量在变异程度上的差异从而转换后的各变量在聚类分析中的重要性程度是同等看待的。 (c)、最值归一化
也称为离差标准化是对原始数据的线性变换使结果值映射到[0 , 1]之间。 将一列数据变化到某个固定区间(范围)中通常这个区间是[0, 1] 或者-1,1之间的小数。主要是为了数据处理方便提出来的把数据映射到01范围之内处理更加便捷快速。
注意由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关而与其他取值无关这使得该方法在改变各变量权重时过分依赖两个极端取值。
所用语言---matlabpython
matlab
%% 调整数据范围 预处理 调整方差到0.02
Ksqrt(0.02/var(inputData));
inputData inputData*K;
Ksqrt(0.02/var(targetData));
targetData targetData*K;
%% 标准化
mu mean(inputData);
sig std(inputData); %标准差std函数
inputData (inputData - mu) / sig;
mu mean(targetData);
sig std(targetData);
targetData (targetData - mu) / sig;% 预处理 归一化
inputData mapminmax(inputData, 0, 1);
targetData mapminmax(targetData, 0, 1);
python
import numpy as npinputDatax
targetDatay
Knp.sqrt(0.02/np.var(inputData))
inputDatanp.dot(inputData, K)
Knp.sqrt(0.02/np.var(targetData))
targetDatanp.dot(targetData, K) 将数据标准化
import numpy as npinputDatax
targetDatay
input_meannp.mean(inputData)
input_stdnp.std(inputData)
inputData(inputData-input_mean)/input_std 最值归一化适用于数据有明显边界的情况例如考试成绩。该方法是将所有数据映射到[0,1]之间
(x-np.min(x))/(np.max(x)-np.min(x)) # 最值归一化