河间网站建设价格,网站制作合肥,杭州建站平台,wordpress 图片 视频播放在推断阶段使用训练数据学习后验概率p(Ck∣x)p(\mathcal{C_k}|\boldsymbol{x})p(Ck∣x)的模型#xff1b;在决策阶段使用后验概率进行最优的分类#xff1b;亦或是同时解决推断和决策问题#xff0c;简单的学习一个函数f(x)f(\boldsymbol{x})f(x)#xff0c;将输入x\bold…在推断阶段使用训练数据学习后验概率p(Ck∣x)p(\mathcal{C_k}|\boldsymbol{x})p(Ck∣x)的模型在决策阶段使用后验概率进行最优的分类亦或是同时解决推断和决策问题简单的学习一个函数f(x)f(\boldsymbol{x})f(x)将输入x\boldsymbol{x}x直接映射为决策这是函数f(x)f(\boldsymbol{x})f(x)被称为判别函数。 有三种不同的方法来解决决策问题按照复杂度从高到低分别为
对于每一个类别Ck\mathcal{C_k}Ck独立地确定类别条件密度p(x∣Ck)p(\boldsymbol{x}|\mathcal{C_k})p(x∣Ck)随后推断先验类别的概率p(Ck)p(\mathcal{C_k})p(Ck)最后使用贝叶斯定理求出类别的后验概率p(Ck∣x)p(x∣Ck)p(Ck)p(x)p(\mathcal{C_k}|\boldsymbol{x})\frac{p(\boldsymbol{x}|\mathcal{C_k})p(\mathcal{C_k})}{p(\boldsymbol{x})}p(Ck∣x)p(x)p(x∣Ck)p(Ck)。其中的p(x)p(\boldsymbol{x})p(x)我们从直观上无法理解其概率但是转换为全概率公式可表示为∑kp(x∣Ck)p(Ck)\sum_{\mathcal{k}}p(\boldsymbol{x}|\mathcal{C_k})p(\mathcal{C_k})∑kp(x∣Ck)p(Ck)这样就可以通过数据集得出了。也可以直接对p(x,Ck)p(\boldsymbol{x},\mathcal{C_k})p(x,Ck)进行建模这种方法叫做生成式模型这种模型可以人工生成输入空间x\boldsymbol{x}x和Ck\mathcal{C_k}Ck的空间的数据点。直接对类别的后验概率p(Ck∣x)p(\mathcal{C_k}|\boldsymbol{x})p(Ck∣x)建模随后通过模型对x\boldsymbol{x}x进行分类这种方法叫判别式模型与概率无关直接使用一个判别函数f(x)f(\boldsymbol{x})f(x)该函数可以将输入x\boldsymbol{x}x映射为对应的类别Ck\mathcal{C_k}Ck。 方法1需要大量的训练数据但是它对于检测模型中具有低概率的新数据点很有用。如果我们指向进行分类决策使用方法2和方法3是更好的选择。然而使用方法3我们未接触后验概率p(Ck∣x)p(\mathcal{C_k}|\boldsymbol{x})p(Ck∣x)使用后验概率有很多优势比如 a) 最小化风险。如果损失矩阵中的元素时时刻刻都被修改知道后验概率的话只需要调整最小风险决策准则即可。 b) 拒绝选项。 如果给定被拒绝数据点所占比例后验概率可以让我们确定最小化误差分类和最小化期望损失的拒绝标准。 c) 补偿类先验概率。 数据集类别分布不平衡的补偿问题。 d) 组合模型。 将复杂应用拆解为多个小问题每个子问题都可以通过一个独立的模型解决因为分布以类别Ck\mathcal{C_k}Ck为条件时满足独立性。因此p(xI,xB∣Ck)p(xI∣Ck)p(xB∣Ck)p(\boldsymbol{x_I},\boldsymbol{x_B}|\mathcal{C_k})p(\boldsymbol{x_I}|\mathcal{C_k})p(\boldsymbol{x_B}|\mathcal{C_k})p(xI,xB∣Ck)p(xI∣Ck)p(xB∣Ck)这时我们可以将后验概率表示为 p(Ck∣xI,xB)∝p(xI,xB∣Ck)p(Ck)∝p(xI∣Ck)p(xB∣Ck)p(Ck)∝p(Ck∣xI)p(xI)p(Ck∣xB)p(xB)p(Ck)p(Ck)p(Ck)∝p(Ck∣xI)p(xI)p(Ck∣xB)p(xB)p(Ck)∝p(Ck∣xI)p(Ck∣xB)p(Ck)\begin{aligned} p(\mathcal{C_k}|\boldsymbol{x_I},\boldsymbol{x_B})\propto p(\boldsymbol{x_I},\boldsymbol{x_B}|\mathcal{C_k})p(\mathcal{C_k})\\ \propto p(\boldsymbol{x_I}|\mathcal{C_k})p(\boldsymbol{x_B}|\mathcal{C_k})p(\mathcal{C_k})\\ \propto \frac{p(\mathcal{C_k}|\boldsymbol{x_I})p(\boldsymbol{x_I})p(\mathcal{C_k}|\boldsymbol{x_B})p(\boldsymbol{x_B})p(\mathcal{C_k})}{p(\mathcal{C_k})p(\mathcal{C_k})}\\ \propto \frac{p(\mathcal{C_k}|\boldsymbol{x_I})p(\boldsymbol{x_I})p(\mathcal{C_k}|\boldsymbol{x_B})p(\boldsymbol{x_B})}{p(\mathcal{C_k})}\\ \propto \frac{p(\mathcal{C_k}|\boldsymbol{x_I})p(\mathcal{C_k}|\boldsymbol{x_B})}{p(\mathcal{C_k})} \end{aligned} p(Ck∣xI,xB)∝p(xI,xB∣Ck)p(Ck)∝p(xI∣Ck)p(xB∣Ck)p(Ck)∝p(Ck)p(Ck)p(Ck∣xI)p(xI)p(Ck∣xB)p(xB)p(Ck)∝p(Ck)p(Ck∣xI)p(xI)p(Ck∣xB)p(xB)∝p(Ck)p(Ck∣xI)p(Ck∣xB)其中的p(Ck)p(\mathcal{C_k})p(Ck)可以通过估计每个类别的数据点所占的比例得到。