闵行交大附近网站建设,企业网站的缺点,妙影免费模板下载,wordpress添加支付宝打赏高数问题解决流程引例#xff1a;回归回归引例#xff1a;分类分类线性可分FLD线性不可分智能计算讨论范围下降法为什么要用下降法#xff1f;- 解析解很难写出公式或很复杂难计算有哪些常用的下降法#xff1f;- 梯度下降高斯-牛顿法梯度下降#xff08;Gradient De…
高数问题解决流程引例回归回归引例分类分类线性可分FLD线性不可分智能计算讨论范围下降法为什么要用下降法- 解析解很难写出公式或很复杂难计算有哪些常用的下降法- 梯度下降高斯-牛顿法梯度下降Gradient Descent- 本质一阶泰勒展开式近似如何找到一阶泰勒展开式的最优解最小值- 柯西一施瓦兹不等式结论下降最快的方向为梯度的反方向即梯度下降。牛顿法 - 本质二阶泰勒展开式近似如何找到二阶泰勒展开式的最优解最小值- 梯度0分类回归线性分析常用不等式绝对值不等式柯西不等式算术-几何平均不等式数列极限序列极限上极限下极限级数点集拓扑开集开集性质闭集闭集性质紧集Heine-Borel定理例题判断Rn\mathbb{R^n}Rn和∅\emptyset∅是否开闭紧函数连续性函数连续定义Lipshitz函数是连续函数Lipshitz函数与机器学习连续函数逼近拉格朗日插值定理连续函数性质最值定理介值定理不连续函数导数一元函数导数定义意义性质极值定理微分中值定理洛必达法则常用公式C∞C^\inftyC∞多元多值函数可微梯度存在问题解决流程
idea - math - optimization - algorithm
引例回归 question123456x预测x值为多少 ideaf(xi)atxib,f(xi)≈yif(x_i)a^tx_ib, f(x_i)\approx y_if(xi)atxib,f(xi)≈yi使用f(x)f(x)f(x)预测新样本xxx。 optimization使用L1、L2范数度量f(xi)f(x_i)f(xi)和yiy_iyi的差距即loss function。如何求出参数使得loss function最小- 偏导数为0。 algorithmGD、Newton’s method
回归 引例分类
分类 线性可分 FLD FLD思想同类点近不同点远。
根据这个思想实际的做法是找一条直线其方向为ω\omegaω对线性可分的点进行投影在该直线上同类点的投影点更近异类点的投影点更远。进而做一条垂直于该直线的分类线。
先找到投影λ与xi的关系然后利用w与v垂直内积为0求出投影λ的表达式 同类相近要使得C1方差小和C-1的方差小则将两个优化问题合并为一个优化问题。 异类相远没有办法计算所有点所以选择代表性的均值的距离作为两个集合的距离。 再次将两个优化目标合并为一个单优化目标进行优化。 线性不可分 智能计算讨论范围
智能计算讨论的是问题解决流程中的math和optimization。 下降法
为什么要用下降法- 解析解很难写出公式或很复杂难计算 考虑求极值问题场景需要找到一个x∗x^*x∗使得f(x∗)f(x^*)f(x∗)小于等于邻域内的任意f(x)f(x)f(x)x∗x^*x∗是极小值问题的解因为x∗x^*x∗的解析解很难写出公式或者可以写出但是公式很复杂难计算所以考虑使用下降法。 解析解指通过严格的公式所求得的解。即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。给出解的具体函数形式从解的表达式中就可以算出任何对应值。解析解为一封闭形式的函数因此对任一独立变量皆可将其代入解析函数求得正确的相依变量。因此解析解也称为闭式解。 解析法用来求得解析解的方法称为解析法解析法是常见的微积分技巧如分离变量法等。 下降法亦称极小化方法是一类重要的迭代法。这类方法将方程组求解问题转化为求泛函极小问题。 使用下降法找出一系列函数值递减的f(x)f(x)f(x)序列这个下降过程不是一直持续下去的过程根据一些停止条件得到一个xkx_kxk时这个xkx_kxk即优化问题的解x∗x^*x∗。
有哪些常用的下降法- 梯度下降高斯-牛顿法
梯度下降Gradient Descent- 本质一阶泰勒展开式近似 优化问题在xxx的邻域内找到一个xΔxx \Delta xxΔx使得f(x)f(xΔx)f(x)\gt f(x\Delta x)f(x)f(xΔx)且f(xΔx)f(x\Delta x)f(xΔx)在该邻域最小。
数学问题如何找到该邻域最小f(xΔx)f(x\Delta x)f(xΔx)
问题难点因为f(x)f(x)f(x)优化问题的解析解不容易求解因此f(xΔx)f(x\Delta x)f(xΔx)优化问题的解析解也不容易求解。
解决方法考虑f(xΔx)f(x\Delta x)f(xΔx)的线性近似——一阶泰勒展开式。将min∣∣Δx∣∣≤εf(xΔx)\underset {||\Delta x||\le \varepsilon}{min} f(x\Delta x)∣∣Δx∣∣≤εminf(xΔx)问题转换为min∣∣Δx∣∣≤ε(f(x)atΔx)\underset {||\Delta x||\le \varepsilon}{min} (f(x)a^t \Delta x)∣∣Δx∣∣≤εmin(f(x)atΔx)因为min∣∣Δx∣∣≤ε(f(x)atΔx)\underset {||\Delta x||\le \varepsilon}{min} (f(x)a^t \Delta x)∣∣Δx∣∣≤εmin(f(x)atΔx)中f(x)f(x)f(x)是固定的Δx\Delta xΔx是变量所以问题可再次简化为min∣∣Δx∣∣≤εatΔx\underset {||\Delta x||\le \varepsilon}{min} a^t \Delta x∣∣Δx∣∣≤εminatΔx。 如何找到一阶泰勒展开式的最优解最小值- 柯西一施瓦兹不等式
根据柯西一施瓦兹不等式(Cauchy-Schwarz inequality)atΔxa^t \Delta xatΔx 的最小值是显而易见的。 由以上不等式可得−∣∣a∣∣⋅∣∣b∣∣≤a,b≤∣∣a∣∣⋅∣∣b∣∣-||a||·||b|| \le a,b \le ||a||·||b||−∣∣a∣∣⋅∣∣b∣∣≤a,b≤∣∣a∣∣⋅∣∣b∣∣。 当且仅当a和b共线同向时a和b线性正相关a,b≤∣∣a∣∣⋅∣∣b∣∣a,b \le ||a||·||b||a,b≤∣∣a∣∣⋅∣∣b∣∣成立。 当且仅当a和b共线反向时a和b线性负相关−∣∣a∣∣⋅∣∣b∣∣≤a,b-||a||·||b|| \le a,b−∣∣a∣∣⋅∣∣b∣∣≤a,b成立。 当Δx−λa\Delta x-\lambda aΔx−λa时表示Δx\Delta xΔx与aaa线性负相关共线反向atΔx−ε∣∣a∣∣a^t \Delta x-\varepsilon ||a||atΔx−ε∣∣a∣∣成立。
一阶泰勒展开式中a表示梯度所以下降最快的方向为梯度的反方向。
结论下降最快的方向为梯度的反方向即梯度下降。
λ\lambdaλ即为学习率。 牛顿法 - 本质二阶泰勒展开式近似 优化问题在xxx的邻域内找到一个xΔxx \Delta xxΔx使得f(x)f(xΔx)f(x)\gt f(x\Delta x)f(x)f(xΔx)且f(xΔx)f(x\Delta x)f(xΔx)在该邻域最小。
数学问题如何找到该邻域最小f(xΔx)f(x\Delta x)f(xΔx)
问题难点因为f(x)f(x)f(x)优化问题的解析解不容易求解因此f(xΔx)f(x\Delta x)f(xΔx)优化问题的解析解也不容易求解。
解决方法考虑f(xΔx)f(x\Delta x)f(xΔx)的线性近似——二阶泰勒展开式。将min∣∣Δx∣∣≤εf(xΔx)\underset {||\Delta x||\le \varepsilon}{min} f(x\Delta x)∣∣Δx∣∣≤εminf(xΔx)问题转换为minΔx(f(x)atΔx12(Δx)tPΔx)\underset {\Delta x}{min} (f(x)a^t \Delta x\frac 1 2 (\Delta x)^t P \Delta x)Δxmin(f(x)atΔx21(Δx)tPΔx)其中f(x)f(x)f(x)是固定的Δx\Delta xΔx是变量atΔxa^t \Delta xatΔx是关于Δx\Delta xΔx一次函数12(Δx)tPΔx)\frac 1 2 (\Delta x)^t P \Delta x)21(Δx)tPΔx)是Δx\Delta xΔx二次函数。
因为使用二阶泰勒展开式近似f(xΔx)f(x\Delta x)f(xΔx)可看做一个二次函数可以找到全局最优值而不需要在邻域中讨论所以可以删除∣∣Δx∣∣≤ε||\Delta x||\le \varepsilon∣∣Δx∣∣≤ε条件。 如何找到二阶泰勒展开式的最优解最小值- 梯度0
令g(Δx)minΔx(f(x)atΔx12(Δx)tPΔx)g(\Delta x)\underset {\Delta x}{min} (f(x)a^t \Delta x\frac 1 2 (\Delta x)^t P \Delta x)g(Δx)Δxmin(f(x)atΔx21(Δx)tPΔx)对g(Δx)g(\Delta x)g(Δx)求关于Δx\Delta xΔx的微分即梯度∇g\nabla g∇g令∇g0\nabla g 0∇g0求出Δx−P−1a−(∇2f(x))−1(∇f(x))\Delta x -P^{-1}a-(\nabla^2f(x))^{-1}(\nabla f(x))Δx−P−1a−(∇2f(x))−1(∇f(x))即为最优解。实际使用时为了防止(∇2f(x))−1(∇f(x))(\nabla^2f(x))^{-1}(\nabla f(x))(∇2f(x))−1(∇f(x))过大偏移过远拟合不准确的问题需要添加学习率λ\lambdaλ即Δx−λ(∇2f(x))−1(∇f(x))\Delta x -\lambda(\nabla^2f(x))^{-1}(\nabla f(x))Δx−λ(∇2f(x))−1(∇f(x))。 缺点求解Hessian矩阵的复杂度很高。所以如果Hessian矩阵没有快速计算的方法就会导致迭代过慢所以牛顿法没有梯度下降法使用频率高。
分类回归
线性分析
常用不等式
绝对值不等式
∣a1⋅⋅⋅an∣≤∣a1∣⋅⋅⋅∣an∣|a_1 · · · a_n| \le |a_1| · · · |a_n|∣a1⋅⋅⋅an∣≤∣a1∣⋅⋅⋅∣an∣ 柯西不等式
a,b≤∣∣a∣∣⋅∣∣b∣∣a,b\le||a|| \cdot ||b||a,b≤∣∣a∣∣⋅∣∣b∣∣
(∑i1naibi)2≤(∑i1nai2)(∑i1nbi2)(\sum_{i1}^n a_i b_i)^2 \le (\sum_{i1}^n a_i^2)(\sum_{i1}^n b_i^2)(∑i1naibi)2≤(∑i1nai2)(∑i1nbi2) 数学研究问题从群加到线性空间加乘到赋范线性空间距离再到hilbert空间几何角度。 内积的概念很重要因为有了内积就有了几何结构。 算术-几何平均不等式 数列极限
序列极限
上极限
下极限 级数
无穷数列和。
点集拓扑 开集 开集性质
任意个开集之并是开集有限个开集之交是开集。
闭集
“闭”包含极限点。 闭集性质
任意个闭集之交是闭集有限个闭集之并是闭集。
紧集
有界闭集。
Heine-Borel定理
Rn\mathbb{R^n}Rn 上紧集的任何开覆盖都存在有限子覆盖。
例题判断Rn\mathbb{R^n}Rn和∅\emptyset∅是否开闭紧 Rn\mathbb{R^n}Rn 不是紧集因为没有边界。
函数连续性 函数连续定义 Lipshitz函数是连续函数 Lipshitz函数与机器学习
参考Lipschitz函数与机器学习 - gwave的文章 - 知乎
深度学习对输入很敏感微小的扰动就可能对结果产生很大的影响将少量精心选择的长臂猿梯度噪声混人熊猫的照片算法就把熊猫误认为是长臂猿了Lipschitz常数是种衡量网络稳定性的测度bound住了输出变化对输入微扰的上限。 连续函数逼近 拉格朗日插值定理 连续函数性质
最值定理 波尔查诺-维尔斯特拉斯定理又称为致密性定理。指有界数列必有收敛子列。从极限点的角度来叙述致密性定理就是有界数列必有极限点。
介值定理 不连续函数 导数
一元函数导数
定义 意义 性质 极值定理 微分中值定理 洛必达法则 常用公式 C∞C^\inftyC∞
C1C^1C1函数一阶导数存在。 C2C^2C2函数二阶导数存在。 C3C^3C3函数三阶导数存在。 … C∞C^\inftyC∞函数任意阶导数都存在。
多元多值函数
可微
梯度存在 什么情况下梯度存在可以推出函数可微