南浔做网站,网站备案注销申请表,帮人做淘宝网站骗钱,如何用凡科建设手机教学网站解密辛普森悖论#xff1a;如何在数据分析中保持清醒头脑
之前也参加fine Bi的 培训#xff0c;学到了辛普森悖论#xff0c;今天为大家介绍一下 文章目录 解密辛普森悖论#xff1a;如何在数据分析中保持清醒头脑前言我们来举一个例子数据分析解释管理应用的启示 前言
什…解密辛普森悖论如何在数据分析中保持清醒头脑
之前也参加fine Bi的 培训学到了辛普森悖论今天为大家介绍一下 文章目录 解密辛普森悖论如何在数据分析中保持清醒头脑前言我们来举一个例子数据分析解释管理应用的启示 前言
什么是辛普森悖论来自维基百科是这么说的 辛普森悖论英语Simpson’s paradox是概率和统计中的一种现象其中趋势出现在几组数据中但当这些组被合并后趋势消失或反转。 这个结果在社会科学和医学科学统计中经常遇到 当频率数据被不恰当地给出因果解释时尤其成问题。当干扰变量和因果关系在统计建模中得到适当处理时这个悖论就可以得到解决。 辛普森悖论已被用来说明统计误用可能产生的误导性结果[ 该现象于20世纪初就有人讨论但一直到1951年爱德华·H·辛普森在他发表的论文中阐述此一现象后该现象才算正式被描述解释。后来就以他的名字命名此悖论即辛普森悖论。
我们来举一个例子
辛普森悖论的一个常见例子涉及职业棒球运动员的击球率。一名球员有可能在很多年里每年都比另一名球员有更高的击球率但在如果把他们全部加起来反而低了这些年里都有较低的击球率。当年份之间的击球数存在较大差异时就会发生这种现象。数学家肯·罗斯 (Ken Ross)使用两位棒球运动员德里克·杰特 (Derek Jeter)和大卫·贾斯蒂斯 (David Justice ) 在 1995 年和 1996 年期间的击球率证明了这一点 比如 A球员 1995 年 12/48 48次击球12次命中击球率0.25 B球员 1995 年 104/411 411次击球104次命中击球率0.253 1995 年 击球率 是 B球员高
A球员 1996 年 183/582 582次击球183次命中击球率0.314 B球员 1996 年 45/140 140次击球 45次命中击球率0.321 1996 年 击球率 也是 B球员高
A球员 1995 年 和 1996 年 195/630 630次击球195次命中击球率0.310 B球员 1995 年 和 1996 年 195/551 551次击球149次命中击球率0.270 但是2年加起来 1995 年 和 1996 年 击球率 就是 A球员高
所以在做数据分析的时候 每年击球率都高不代表 所有年份击球率都很高 所以 如果可能还需要下钻分析。
数据分析
为了避免辛普森悖论出现。就需要斟酌个别分组的权重以一定的系数去消除以分组资料基数差异所造成的影响同时必需了解该情境是否存在其他潜在要因而综合考虑
或者需要算 每年和汇总年份的都需要算出来来斟酌数据分析。
解释
辛普森悖论是一个统计学术语 中文名辛普森悖论 外文名Simpson’s paradox 提出时间“”1951年 提出人E.H.辛普森 理论学科统计学 应用领域数据分析
所以 辛普森悖论 这个词是一用来表示对于同一组数据在分组中占尽优势而在总评中却处于劣势的悖论 出现这个悖论 的原因在于这些数据中存着“潜在变量” 管理应用的启示
来自科学百科的说明
辛普森悖论就像是欲比赛100场篮球以总胜率评价好坏于是有人专找高手挑战20 场而胜1场另外80场找平手挑战而胜40场结果胜率41%另一人则专挑高手挑战80场而胜8场而剩下20场平手打个全胜结果胜率为28%比 41%小很多但仔细观察挑战对象后者明显较有实力。 量与质是不等价的无奈的是量比质来得容易量测所以人们总是习惯用量来评定好坏而此数据却不是重要的。除了质与量的迷思之外辛普森悖论的另外一个启示是如果我们在人生的抉择上选择了一条比较难走的路就得要有可能不被赏识的领悟所以这算是怀才不遇这个成语在统计上的诠释。
除了质与量的迷思之外辛普森悖论的另外一个启示是 如果我们在人生的抉择上选择了一条比较难走的路就得要有可能不被赏识的领悟所以这算是怀才不遇这个成语在统计学上的诠释。