ps做电商网站流程图,wordpress固定链接插件,建材手机网站,wordpress样式丢失一、选题背景
以多元线性回归统计模型为基础#xff0c;用R语言对美国部分地区房价数据进行建模预测#xff0c;进而探究提高多元回 归线性模型精度的方法。先对数据进行探索性预处理#xff0c;随后设置虚拟变量并建模得出预测结果#xff0c;再使用方差膨胀因子对 多重共…一、选题背景
以多元线性回归统计模型为基础用R语言对美国部分地区房价数据进行建模预测进而探究提高多元回 归线性模型精度的方法。先对数据进行探索性预处理随后设置虚拟变量并建模得出预测结果再使用方差膨胀因子对 多重共线性进行修正从而提高模型精度与稳健性使回归结果在很大程度上得到优化。...
近年来随着经济的不断增长飞速增长的房价仍然是民众心中最看重的问题之一。房地产行业是我国经济健康发展的稳定器也是加快我国经济增长的助力器不仅对经济社会起着重要的支撑作用还对社会的稳定产生着难以衡量的影响。
二、文献综述
...
三、方案论证设计理念
多元线性回归具有非常广泛的应用范围但在实 际预测中对存在类别变量设置不充分或多重共线性 问题导致统计模型缺乏精度和稳健性。由此本文对如何精准且高效的排除多重共线性影响并合理地 将分类变量转化为虚拟变量提升多元线性回归模型 精度作了进一步探索并将其应用于房价预测上。
四、实证分析
在美国房屋信息数据集中包含不同地区的平均房价及多个可能影响房价的自变量AvgAreaIncome该地区的平均收入 AvgAreaHouseAge 房子的平均面积AreaPopulation该地区的人口数量等。首先进行数据展示 随后读取数据并且进行描述性统计
library(openxlsx)
# 文件名sheet的序号
dataset- read.xlsx(house.xlsx, sheet 1)
#View(dataset)
datasetsummary(dataset)#####描述性统计分析 具体描述性统计如上包括各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等
接下来画出价格、该地区的平均收入的柱状图查看情况 ###画出price柱状图
price-dataset$Price
pricehead(price,n100)
barplot(head(price,n100),xlabhouse,ylabprcie,colblue,main房价柱状图前100个,borderred)####画出该地区的平均收入柱状图
income-dataset$AvgAreaIncome
incomehead(income,n100)
barplot(head(income,n100),xlab,ylab收入,colpink,main该地区的平均收入柱状图前100个,bordergreen) 画出特征变量的箱线图看其分布形状如图所示 由图可得6个特征变量均分布较好且存在异常值但是异常值很少。
接下来运用热力图展示出特征变量与响应变量的关系图 从相关系数热力图可以看出几乎每个特征变量对房价的相关系数都较高但是其中该地区的平均收入与房价的相关系数是最高的为0.64。
再用ggpairs函数展示出变量间的相关性以及从下图中的相关系数中也可得出其相关性。 接下来用房价对最初的特征变量进行回归结果如下 图为软件R计算的结果。R²反应了全部6个x与y之间的线性相关水平。其中调整后的拟合优度为0.9179接近于1表明该模型对数据的拟合程度比较好并且可以说明Price的91.79%可由这些因素来解释。P值0.01说明p的值非常的小表明有99%的把握认为至少有一个解释变量是属于这个回归方程的但这只能说明模型总体是显著的,且*号越多影响越显著。
运用向后逐步回归每次计算AIC值不断剔除一个变量利用其余变量进行回归最终方程为
接下来进行模型检验
表 1 异方差检验结果 Stufentsized Breusch-Pagan test Data: fit1 BP 10.385, df4 , p_value0.03441 由于p值小于0.05拒绝原假设可认为该模型不存在异方差性。
接下来画出回归值与残差的残差图 五、结论
本次实验完整的研究了多元线性回归模型首先简单的介绍了多元线性回归模型及其相关的基本理论然后运用 R 语言实现多元回归模型的拟合学习了如何求变量间的相关系数矩阵和画散点图矩阵然后运用 lm 函数拟合回归模型并运用赤池信息准则选择最优模型最终对拟合的最优模型进行预测。
代码加数据
代码加数据加报告
创作不易希望大家多多点赞收藏和评论