当前位置: 首页 > news >正文

深圳市建设局科技处网站购物商城网站建设

深圳市建设局科技处网站,购物商城网站建设,高端开发网站哪家专业,宁波本地抖音seo推广本文目录1. 基础概念1.1. 缺失值分类1.2. 缺失值处理方法2. 缺失观测及其类型2.1. 了解缺失信息2.2. 三种缺失符号2.3. Nullable类型与NA符号2.4. NA的特性2.5. convert_dtypes方法3. 缺失数据的运算与分组 3.1. 加号与乘号规则3.2. groupby方法中的缺失值4. 填充与剔除4.1. fi…本文目录 1. 基础概念 1.1. 缺失值分类 1.2. 缺失值处理方法2. 缺失观测及其类型 2.1. 了解缺失信息 2.2. 三种缺失符号 2.3. Nullable类型与NA符号 2.4. NA的特性 2.5. convert_dtypes方法 3. 缺失数据的运算与分组 3.1. 加号与乘号规则 3.2. groupby方法中的缺失值 4. 填充与剔除 4.1. fillna方法 4.2. dropna方法 5. 插值 5.1. 线性插值 5.2. 高级插值方法 5.3. interpolate中的限制参数基础概念1.1缺失值的分类按照数据缺失机制可分为可忽略的缺失完全随机缺失(missing completely at random, MCAR)所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关随机缺失(missing at random, MAR)假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的。不可忽略的缺失(non-ignorable missing ,NIM) 或非随机缺失(not missing at random, NMAR, or, missing not at random, MNAR)如果不完全变量中数据的缺失既依赖于完全变量又依赖于不完全变量本身,这种缺失即为不可忽略的缺失。【注意】Panda读取的数值型数据缺失数据显示“NaN”not a number。1.2数据值的处理方法主要就是两种方法删除存在缺失值的个案缺失值插补。【注意】缺失值的插补只能用于客观数据。由于主观数据受人的影响其所涉及的真实值不能保证。1、删除含有缺失值的个案2种方法1简单删除法简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标那么这个方法是最有效的。2权重法当缺失值的类型为非完全随机缺失的时候可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后将完整的数据个案赋予不同的权重个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量那么这种方法可以有效减小偏差。如果解释变量和权重并不相关它并不能减小偏差。对于存在多个属性缺失的情况就需要对不同属性的缺失组合赋不同的权重这将大大增加计算的难度降低预测的准确性这时权重法并不理想。2、可能值插补缺失值【思想来源】以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。1均值插补属于单值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的就以该属性存在值的平均值来插补缺失的值如果缺失值是非定距型的就用该属性的众数来补齐缺失的值。2利用同类均值插补属于单值插补。用层次聚类模型预测缺失变量的类型再以该类型的均值插补。假设为信息完全的变量为存在缺失值的变量那么首先对或其子集行聚类然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和做分析那么这种插补方法将在模型中引入自相关给分析造成障碍。3极大似然估计Max Likelihood ,ML在缺失类型为随机缺失的条件下假设模型对于完整的样本是正确的那么通过观测数据的边际分布可以对未知参数进行极大似然估计Little and Rubin。这种方法也被称为忽略缺失值的极大似然估计对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation MaximizationEM。该方法比删除个案和单值插补更有吸引力前提是适用于大样本有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。这种方法可能会陷入局部极值收敛速度也不是很快并且计算很复杂。4多重插补Multiple ImputationMI多值插补的思想来源于贝叶斯估计认为待插补的值是随机的它的值来自于已观测到的值。具体实践上通常是估计出待插补的值然后再加上不同的噪声形成多组可选插补值。根据某种选择依据选取最合适的插补值。多重插补方法的三个步骤为每个空值产生一套可能的插补值这些值反映了无响应模型的不确定性每个值都可以被用来插补数据集中的缺失值产生若干个完整数据集合。每个插补数据集合都用针对完整数据集的统计方法进行统计分析。对来自各个插补数据集的结果根据评分函数进行选择产生最终的插补值。多重插补方法举例假设一组数据包括三个变量它们的联合分布为正态分布将这组数据处理成三组A组保持原始数据B组仅缺失C组缺失和。在多值插补时对A组将不进行任何处理对B组产生的一组估计值作关于,的回归对C组作和产生和的一组成对估计值作,关于的回归。当用多值插补时对A组将不进行处理对B、C组将完整的样本随机抽取形成为m组m为可选择的m组插补值每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计然后基于这m组观测值对于这m组样本分别产生关于参数的m组估计值给出相应的预测即这时采用的估计方法为极大似然法在计算机中具体的实现算法为期望最大化法EM。对B组估计出一组的值对C将利用 它们的联合分布为正态分布这一前提估计出一组(,。上例中假定了的联合分布为正态分布。这个假设是人为的但是已经通过验证Graham和Schafer于1999非正态联合分布的变量在这个假定下仍然可以估计到很接近真实值的结果。多重插补弥补贝叶斯估计的不足之处贝叶斯估计以极大似然的方法估计极大似然的方法要求模型的形式必须准确如果参数形式不正确将得到错误得结论即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论在数据挖掘中的数据量都很大先验分布将极小的影响结果所以先验分布的对结果的影响不大。贝叶斯估计仅要求知道未知参数的先验分布没有利用与参数的关系。而多重插补对参数的联合分布作出了估计利用了参数间的相互关系。缺失观测及其类型首先导入数据import pandas as pd import numpy as np df pd.read_csv(data/table_missing.csv) df.head()2.1了解缺失信息1、isna和notna方法对Series使用会返回布尔列表df[Physics].isna().head()df[Physics].notna().head()对DataFrame使用会返回布尔表df.isna().head()但对于DataFrame我们更关心到底每列有多少缺失值df.isna().sum()此外可以通过第1章中介绍的info函数查看缺失信息df.info()2、查看缺失值的所以在行以最后一列为例挑出该列缺失值的行df[df[Physics].isna()]3、挑选出所有非缺失值列使用all就是全部非缺失值如果是any就是至少有一个不是缺失值df[df.notna().all(1)]缺失数据的运算与分组加号与乘号规则使用加法时缺失值为0s pd.Series([2,3,np.nan,4])s.sum()9.0使用乘法时缺失值为1s.prod()24.0使用累计函数时缺失值自动略过s.cumsum()s.cumprod()s.pct_change()groupby方法中的缺失值自动忽略为缺失值的组df_g pd.DataFrame({one:[A,B,C,D,np.nan],two:np.random.randn(5)})df_gdf_g.groupby(one).groups填充与剔除‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍4.1 fillna方法1、值填充与前后向填充分别与ffill方法和bfill方法等价df[Physics].fillna(missing).head()df[Physics].fillna(methodffill).head()df[Physics].fillna(methodbackfill).head()2、填充中的对齐特性df_f pd.DataFrame({A:[1,3,np.nan],B:[2,4,np.nan],C:[3,5,np.nan]})df_f.fillna(df_f.mean())返回的结果中没有C根据对齐特点不会被填充df_f.fillna(df_f.mean()[[A,B]])4.2 dropna方法1、axis参数df_d pd.DataFrame({A:[np.nan,np.nan,np.nan],B:[np.nan,3,2],C:[3,2,1]})df_ddf_d.dropna(axis0)df_d.dropna(axis1)2、how参数可以选all或者any表示全为缺失去除和存在缺失去除df_d.dropna(axis1,howall)3、subset参数即在某一组列范围中搜索缺失值¶df_d.dropna(axis0,subset[B,C])插值5.1线性插值1、索引无关的线性插值默认状态下interpolate会对缺失的值进行线性插值s pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])ss.interpolate()s.interpolate().plot()matplotlib.axes._subplots.AxesSubplot at 0x7fe7df20af50此时的插值与索引无关s.index np.sort(np.random.randint(50,300,8))s.interpolate()#值不变s.interpolate().plot()#后面三个点不是线性的如果几乎为线性函数请重新运行上面的一个代码块这是随机性导致的matplotlib.axes._subplots.AxesSubplot at 0x7fe7dfc698902、与索引有关的插值method中的index和time选项可以使插值线性地依赖索引即插值为索引的线性函数s.interpolate(methodindex).plot()#可以看到与上面的区别matplotlib.axes._subplots.AxesSubplot at 0x7fe7dca0c4d0如果索引是时间那么可以按照时间长短插值对于时间序列将在第9章详细介绍s_t pd.Series([0,np.nan,10] ,index[pd.Timestamp(2012-05-01),pd.Timestamp(2012-05-07),pd.Timestamp(2012-06-03)])s_ts_t.interpolate().plot()matplotlib.axes._subplots.AxesSubplot at 0x7fe7dc964850s_t.interpolate(methodtime).plot()matplotlib.axes._subplots.AxesSubplot at 0x7fe7dc8eda105.2 高级插值方法此处的高级指的是与线性插值相比较例如样条插值、多项式插值、阿基玛插值等需要安装Scipy。关于这部分仅给出一个官方的例子因为插值方法是数值分析的内容而不是Pandas中的基本知识ser pd.Series(np.arange(1, 10.1, .25) ** 2 np.random.randn(37))missing np.array([4, 13, 14, 15, 16, 17, 18, 20, 29])ser[missing] np.nanmethods [linear, quadratic, cubic]df pd.DataFrame({m: ser.interpolate(methodm) for m in methods})df.plot()matplotlib.axes._subplots.AxesSubplot at 0x7fe7dc86f8105.3 interpolate中的限制参数1、limit表示最多插入多少个s pd.Series([1,np.nan,np.nan,np.nan,5])s.interpolate(limit2)2、limit_direction表示插值方向可选forward,backward,both默认前向。s pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])s.interpolate(limit_directionbackward)3、limit_area表示插值区域可选inside,outside默认Nones pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])s.interpolate(limit_areainside)s pd.Series([np.nan,np.nan,1,np.nan,np.nan,np.nan,5,np.nan,np.nan,])s.interpolate(limit_areaoutside)声明部分内容来源于网络仅供读者学术交流之目的。文章版权归原作者所有。如有不妥请联系删除。
http://www.dnsts.com.cn/news/151379.html

相关文章:

  • 网站建设 付款方式建筑单位企业资质
  • 网站建设方案 备案评价高的企业网站开发
  • 建设银行网站打不开 显示停止工作php网站开发实训总结
  • 排版的网站wordpress主题ruikedu
  • 建立网站的目的上海做网站服务商
  • 济南建站免费模板wordpress更多的模板
  • 餐饮网站建设规划书重庆外贸网站建设公司
  • 深圳哪里做网站龙城区建设局网站
  • 品牌设计包括哪些设计宁波网络优化seo
  • 专业建站公司怎么收费电脑系统网站建设
  • 做网站su软件网页设计手机端
  • 佛山模板建站软件网站一般费用
  • 合肥商务科技学校网站建设推广是干嘛的
  • 中国太空网站一键生成100个原创视频
  • 网站中页面链接怎么做的sem是什么?
  • 建设一个网站是不必须备案公司网站用什么cms系统
  • 域名注册和网站哪个好百度sem竞价推广pdf
  • 建站公司经营网站服务类型怎么选
  • 网站建设和网站编辑是什么工作双德网站建设
  • 兴国网站建设软件开发成本估算
  • 网站升级维护要多久做点小本意 哪个网站拿货便宜点
  • 阿里巴巴网站网络营销的影响一般企业邮箱是哪里注册
  • 微网站做下载链接网站图片做伪静态
  • 网站开发技术服务费合同长治市建设厅官方网站
  • 网站备份查询网站建设需要哪些费用
  • 星子网微庐山如何做网站关键字优化
  • 建设一个网站哪家好电商怎么入门
  • 网站怎样投放广告位网页的定义
  • 做公司网站要提供什么宁波seo优化
  • 六枝网站建设莲花直播