站群子网站开发,网站建设方案书编写,广开街网站建设公司,现在建网站还能赚钱吗文章目录 因果推断因果推断的前世今生#xff08;1#xff09;潜在结果框架#xff08;Potential Outcome Framework#xff09;#xff08;2#xff09;结构因果模型#xff08;Structual Causal Model#xff0c;SCM#xff09; 身处人工智能爆发式增长时代的机器学… 文章目录 因果推断因果推断的前世今生1潜在结果框架Potential Outcome Framework2结构因果模型Structual Causal ModelSCM 身处人工智能爆发式增长时代的机器学习从业者无疑是幸运的人工智能如何更好地融入人类生活的方方面面是这个时代要解决的重要问题。滴滴国际化资深算法工程师王聪颖老师发现很多新人在入行伊始往往把高大上的模型理论背得滚瓜烂熟而在真正应用时却摸不清门路、抓不住重点导致好钢没用到刀刃上无法取得实际的业务收益。如果能有一本指导新人从入门到精通、从理论到实践的技术书籍那该多好这样不仅省去了企业培养新人的成本也留给了新人自我学习成长的空间。 本着这个初心王老师花了将近一年的业余时间来复盘总结了自己以及身边同事从小白成长为独当一面的合格算法工程师的成长历程和项目经验最终以理论结合实践的方式写入《机器学习高级实践计算广告、供需预测、智能营销、动态定价》这本书中希望能通过他的经验真正地帮助到对机器学习算法感兴趣的读者。
《机器学习高级实践计算广告、供需预测、智能营销、动态定价》作者王聪颖 谢志辉因果推断 因果推断是近年来机器学习领域新兴的一个分支它主要解决“先有鸡还是先有蛋”的问题。因此因果推断和关联关系最主要的区别是因果推断是试图通过变量X的变化推断其对结果Y带来的影响有多少而关联关系则侧重于表达变量之间的趋势变化如两个变量图片之间有相关性关系如果图片随着图片的递增而递增则说明图片和图片正相关如果图片随着图片递增而下降则说明两者负相关。因此因果性Causality和相关性Correlation有着本质的不同为了帮助读者更好地理解这里举个例子 某研究表明吃早饭的人比不吃早饭的人体重更轻因此“专家”得出结论——吃早饭可以减肥。但事实上吃早饭和体重轻很有可能只是相关性关系而并非因果关系。吃早饭的人可能是因为三餐规律、经常锻炼、睡眠充足等等一系列健康的生活方式最终导致了他们的体重更轻。图1所示为因果推断中的混杂因子描述了健康的生活方式、吃早饭、体重轻三者的关系。 很显然拥有健康的生活方式的人会吃早餐健康生活方式同时也会导致体重轻可见健康的生活方式是吃早餐和体重轻的共同原因。正是因为有这样的共同原因存在导致我们不能轻易地得出吃早餐和体重轻之间存在因果关系所以我们认为“专家”的结论是草率的。吃早餐和减肥之间只存在相关性不存在因果性并把这种阻断因果关系推断的共同原因称之为混杂因子。那么如图1右所示消除混杂因子寻找两个变量之间的因果关系并量化出来某种自变量X的改变影响了因变量Y的改变程度是因果推断主要探讨的内容。
因果推断的前世今生 1潜在结果框架Potential Outcome Framework
在介绍潜在结果框架之前先列出两个需要声明的假设来描述个体因果效应另外需要注意的是为了更快的帮助大家入门本文只描述二元处理即个体只有接受处理和不接受处理两种情况并对应两种处理方式的结果。 但是在现实世界中个体图片在同一时刻要么接受处理要么不接受处理不可能同时既接受处理又不接受处理因此个体因果作用是不可识别的个体的观测数据结果图片 在已知个体因果作用无法识别的情况下如何进行因果推断呢或许把因果作用的识别从个体转移到了总体身上是个行之有效的解决方案于是便有了平均因果作用ATE Average Treatment Effect的概念。平均因果作用不再比较个体的因果作用而是比较两组群体在不同的处理下的潜在结果这两组群体除了接受的处理不同之外必须具有同质的属性这样计算出的平均因果作用才能无偏随机对照实验Random controlled TrialRCT是保证两组群里无偏性的基本实验方法。把全量数据随机分为实验组Treatment Group和对照组Control Group其中实验组的T1对照组的T0那么平均因果作用的公式如下 其中Y(1)和Y(0)分别是接受处理情况下实验组的结果和不接受处理情况下对照组的结果。至此潜在结果框架下做因果推断的基本理论知识已经讲解完毕归纳起来主要有以下两点。 1随机对照试验保证组别的同质性。
2从不可评估的个体因果作用转移向评估总体的平均因果效应。
2结构因果模型Structual Causal ModelSCM
有向无环图是由节点和有向边组成的有向边的上游是父节点有向边指向的方向是子节点。在DAG中的某个节点的父节点与其非子节点都独立根据全概率公式和条件独立性一个有向无环图中的所有节点的联合概率分布可以表达为 其中图片是所有指向图片的父节点为了更好地帮助读者理解有向无环图中的联合分布表达这里给出一个具体的DAG实例如图2所示。 根据有向无环图的条件独立性和联合概率分布的公式图2的联合分布可以表达为 每一个有向无环图产出了唯一的联合分布但是一个联合分布不一定只对应着一个有向无环图比如图片的联合概率分布有可能是图片也可能是图结构图片而两种图结构的因果关系完全相反这也正是贝叶斯网络不适合做因果模型的原因。为了把DAG改造成可以表达因果关系的因果图需要引入do算子。这里的do算子就表达的是一种干预图片表示将指向节点图片的有向边全部切除掉并且节点图片赋值为常数在do算子干预后DAG的联合概率分布有了变化表达为如下的形式 在图3的链式、叉式、反叉式三种路径结构中反叉式结构中的A、C天然相互独立B又被称为对撞子链式或者叉式结构以B为条件可以阻断A和C之间的关联关系从而实现A、C相互独立。d-分离就是为了达到变量独立的目的而对不同的路径结构采取的阻断的操作具体的d-分离法则归纳起来如下。 1当某条路径上有两个箭头同时指向某个变量时那这个变量称之为对撞子并且这条路径被对撞子阻断。 2如果某条路径含有非对撞子那么当以非对撞子为条件时这条路径可以被阻断。 3当某条路径以对撞子为条件时这条路径不仅不会被阻断反而会被打开。 这里需要注意的是以某个变量为条件指的是指定某个变量的值比如以年龄这个变量为条件就是指定年龄为0或者1。 在了解d-分离法则是可以通过以某个变量为条件进行阻断从而实现变量间的独立之后便可以结合后门准则消除混杂因子对未知结构的因果图进行因果推断了。在弄清楚后门准则之前需要了解后门路径、前门路径的概念。从变量X到变量Y的后门路径就是连接X到Y但是箭头不从X出发的路径与之相应的前门路径是连接X到Y且箭头从X出发的路径后门准则的定义是可以通过d-分离阻断X和Y之间所有的后门路径那么我们认为可以识别从X到Y之间的因果关系并把阻断后门路径的因子称之为混杂因子。至此知道了后门准则的方法无须观测到所有的变量只需要观测到以哪个变量为条件可以消除后门路径从而使得X到Y之间的因果关系可识别。