专业做视频的网站,注册城乡规划师成绩查询2022,湖南建设工程招标网,WordPress插件api调用文章目录 前言给直方图增加正态曲线的不恰当之处直方图与条形图的区别核密度图时间序列图洛伦茨曲线计算绘制洛伦茨曲线所需的各百分比数值绘制洛伦茨曲线 练习 前言
本篇文章是介绍对数据的部分图形可视化的图型展现。 给直方图增加正态曲线的不恰当之处
需要注意的是#… 文章目录 前言给直方图增加正态曲线的不恰当之处直方图与条形图的区别核密度图时间序列图洛伦茨曲线计算绘制洛伦茨曲线所需的各百分比数值绘制洛伦茨曲线 练习 前言
本篇文章是介绍对数据的部分图形可视化的图型展现。 给直方图增加正态曲线的不恰当之处
需要注意的是给直方图拟合正态分布曲线并非总是适用有时甚至是荒谬的容易产生误导。合理的做法是为直方图拟合一条核密度估计曲线它是数据实际分布的一种近似描述。 下面通过一个实际例子说明给直方图拟合正态分布曲线的荒谬之处 根据美国黄石国家公园Yellowstone National Park老忠实间歇喷泉Old Faithful Geyser数据绘制的直方图并在直方图中分别增加了核密度估计曲线和正态分布曲线。
par(maic(.8,.8,.1,.1),cex.8)
hist(faithful$eruptions, probabilityTRUE, xlab喷发持续时间,breaks20, collight blue,main)
rug(faithful$eruptions)
lines(density(faithful$eruptions, bw.1), typel, lwd2, colred)
points(quantile(faithful$eruptions),c(0,0,0,0,0),lwd5,colred2)
points(mean(faithful$eruptions),c(0),lwd8,col4)
curve(dnorm(x,meanmean(faithful$eruptions),sdsd(faithful$eruptions)),addT,colblue,lwd2,lty6) 图显示有两个明显的峰值用核密度估计曲线可清晰地看出喷发持续时间属于双峰分布可见为该直方图拟合正态分布曲线的荒之处。
直方图与条形图的区别
条形图中的每一矩形表示一个类别其宽度没有意义 直方图的宽度则表示各组的组距分组数据具有连续性直方图的各矩形通常是连续排列 而条形图则是分开排列条形图主要用于展示类别数据而直方图则主要用于展示数值数据。
核密度图
核密度估计density estimation是根据一定的核kernel函数和适当的带宽band-width对数据的分布密度做出的估计。 核密度图kernel density plot是对核密度估计的一种描述利用该图可看出数据的实际分布状况.以例2-3的数据为例绘制6名运动员射击成绩核密度估计曲线。 R代码和结果如下所示
# 用lattice包绘制核密度曲线
load(C:/example/ch2/example2_3_1.RData)
library(lattice)
dp1-densityplot(~射击环数|运动员,dataexample2_3_1,colblue,cex0.4,par.strip.textlist(cex0.6),sub(a)栅格图)# 用lattice包绘制例2-3的核密度比较曲线
dp2-densityplot(~射击环数,group运动员,dataexample2_3_1,auto.keylist(columns1,x0.01,y0.95,cex0.6),cex0.4,sub(b)比较图)
# 组合latiice包的绘图
plot(dp1,splitc(1,1,2,1))
plot(dp2,splitc(2,1,2,1),newpageF) 该图显示了每名运动员射击成绩分布的核密度估计曲线图中的“ o”为扰动点。
load(C:/example/ch2/example2_3_1.RData)
attach(example2_3_1)
library(sm)
par(cex0.8,maic(.7,.7,.1,.1))
sm.density.compare(射击环数,运动员,lty1:6,colc(black,blue,brown,darkgreen,green,red),lwd2)
legend(topleft,legendlevels(运动员),lty1:6,,colc(black,blue,brown,darkgreen,green,red))该图显示了6名运动员射击成绩分布的核密度估计比较曲线容易看出6名运动员射击成绩均呈现左偏分布。这是因为射击环数的中心点是10.99.环数的上界已被限定而下界0环则远离中心点.因此下界值方向出现远离中心点的环数的可能性大于上界值方向。此外从6名运动员射击成绩的分布看除了基思桑德森其他运动员射击成绩的分布中心均很接近最高环数10.99。
时间序列图
load(C:/example/ch2/example2_9.RData)
example2_9-ts(example2_9,start2000)
par(maic(0.7,0.7,0.1,0.1),cex0.8,fg2)
plot(example2_9[,2],lwd2,ylimc(2000,30000),xlab年份,ylab居民消费水平,typen)
grid(colgray60)
points(example2_9[,2],typeo,lwd2,ylimc(2000,30000),xlab年份,ylab居民消费水平)
lines(example2_9[,3],typeb,lty2,lwd2,colblue)
legend(xtopleft,legendc(农村居民消费水平,城镇居民消费水平),lty1:2,colc(1,4),cex0.8)函数tsdata start…用于创建时间序列对象参数data为向量、矩阵或数据框 start设定时间序列的起始时间。
图显示无论是农村居民还是城镇居民消费水平随时间的推移均呈现逐年提高的趋势但城镇居民的消费水平各年均高于农村居民而且随时间的推移消费水平的差距有扩大的趋势。
洛伦茨曲线
在频数分布中如果将各类别的频数逐级累加即可得到累积频数分布表。根据累加频数分布表可以绘制累加频数分布曲线。 洛伦茨曲线Lorenz curve是一种特殊的累积频数分布曲线它是20世纪初由美国统计学家洛伦茨(M. E. Lorentz)根据意大利经济学家帕累托(V. Pareto)提出的收入分配公式绘制的描述收入和财富分配不平等程度的曲线。
图中弯曲的线就是洛伦茨曲线 如果用横轴表示人口百分比纵轴表示相应人口获得的收入百分比通过洛伦兹曲线可以直观地反映一个国家或地区收入分配平等或不平等的状况 如果一定累积百分比的人口获得相同累积百分比的收入就是图中的对角线即收入分配绝对平均线。 如果绝大多数人口占有很少的收入而一小部分人口占有绝大部分的收入则洛伦茨曲线就靠近下横轴和右纵轴形成弯曲的线。弯曲程度越大表示收入分配越不公平。 为更准确的反映收入分配的不平等程度20世纪初意大利经济学家基尼(C. Gini)根据洛伦茨曲线给出了衡量收入分配平等程度的指标即基尼系数(Gini coefficient)用公式表示为
计算绘制洛伦茨曲线所需的各百分比数值
load(C:/example/ch2/example2_10.RData)
library(DescTools)
Lc(example2_10$组中值,example2_10$人数)绘制洛伦茨曲线
par(maic(0.7,0.7,0.4,0.1),cex0.8)
plot(Lc(example2_10$组中值,example2_10$人数),xlab人数比例,ylab收入比例,col4,panel.firstgrid(10,10,colgray70))练习
1、数据 exercise2_5.RDataexercise2_5.RData数据是2005—2014年我国城镇居民和农村居民的居民消费价格指数CPI数据。 绘制时间序列图观察城镇居民和农村居民消费价格指数的变化特征。
library(ggplot2)
ggplot(data, aes(xyear)) geom_line(aes(yurban, color城镇居民), size1) geom_line(aes(yrural, color农村居民), size1) abs(x年份, y居民消费价格指数CPI, color居住类型) scale_color_manual(valuesc(城镇居民red, 农村居民blue)) theme_minimal()2、数据 exercise2_6.RData假定某地区不同收入阶层的人口数和不同阶层人口的年收入额如数据 exercise2_6.RData所示。 绘制洛伦兹曲线分析收入分配的不平等程度。
load(C:/ch2/ch2/exercise/exercise2_6.RData)
library(DescTools)
Lc(exercise2_6$不同阶层人口数的收入额,exercise2_6$不同收入阶层的人口数)
par(maic(0.7,0.7,0.4,0.1),cex0.8)
plot(Lc(exercise2_6$不同阶层人口数的收入额,exercise2_6$不同收入阶层的人口数),xlab人数比例,ylab收入比例,col4,panel.firstgrid(10,10,colgray70))