当前位置：首页 > news >正文

做黑彩网站dedecms网站空白

news 2025/11/20 15:58:33

做黑彩网站,dedecms网站空白,郑州官方发布最新消息,网站设计需要什么机器学习和深度学习教程 – 李宏毅#xff08;笔记与个人理解#xff09; day1 课程内容什么是机器学习找函数关键技术#xff08;深度学习#xff09; 函数 – 类神经网络来表示 #xff1b;输入输出可以是向量或者矩阵等如何找到函数#xff1a; supervised Lear…机器学习和深度学习教程 – 李宏毅笔记与个人理解 day1 课程内容什么是机器学习找函数关键技术深度学习函数 – 类神经网络来表示输入输出可以是向量或者矩阵等如何找到函数 supervised Learning 、 self supervised learning pre train 又叫 Foundation Model 著名的例子有 Bert、 Generative Adversarial Network、 Reforcement Learning进阶内容 Anomaly Detection 、 Explainable Al 、 Model Attack、 Domain Adaptation、NetWork Compression、 Life- Long learning 、 Meta Learning learn to learn Day2 introduction of Machine /deep Learning Machine 是什么函数的不同类型预测分类 Structured learning 产生一个有结构的物件一个例子 Youtube Channel 的订阅量找一个函数可以预测明天的观看次数 Step 1. y w x1 b Based on domain knowledge Step 2. Define Loss From Training Data; Loss is a function of parameters Lb, w Step 3. Optimization w *, b * arg min L ; Gradient Descent : 步长等于切线斜率微分然后还有一个n ita学习率来控制 w的变化长度 – 通常自己设定hyperparameters 问题有可能陷入局部最优点可能的改进方法self thinking 1 取更好的初始点 2 改变学习率 3 找到所有的局部最优点可以通过改变学习率进行跳出进行比较例如找到十个不同的局部最优点然后进行min 老师的伏笔高斯梯度真正的痛点是什么盲猜是梯度消失 wrong Gradient Descent 高斯梯度法的一般步骤 how to improve linear model 因为 linear model 过于简单造成了一定的 model bias 需要有更多未知参数的model 如图所示红色的线可以由常数一系列蓝色的线来拟合具体步骤如下 0123 red line 发现所有的piecewise linear curves 都可以由blue line 组成发现 more beyond piecewise linear 也可以 how to represent this function (blue line )? 用一个近似的曲线表示 sigmoid function more thinking how to find the first sigmoid ? 数学变换– 人口增长的背景下概率论中的伯努利分布 f(x|p)px (1-p)1-xand w and b here 和前面的linear functon 是否有关无关实际可用的拟合函数折线函数这里补充说明一点之前走了弯路以为这里的合成函数是一个分段函数后面的学习纠正过来这里就是单纯的三个sigmoid 函数进行了相加有点多余 but who knows how could I say that NOw we have a new model which is more flexible 这里的w 表示特征j表示特征的个数老师讲如果是7天的话 j 就是1-7 有一点点不明不白难道说之前的预测例子是一个多特征的问题吗回忆好像确实和之前的linear model 有一点点不同一开始取前一天y wx1 b后来取前七天的时候注意这里的x 表示前j天的订阅次数 w 和b 是需要拟合的参数也就是说这里至少需要拟合出7 组不同的w 一共有8 个参数加上 b。是根据前七天的订阅量预估第八天相当于前七天是不同的特征预测第八天的特征虽然老师这里的例子是实数值换一个例子来表示可以这样理解选西瓜判断好坏瓜一开始只选择颜色取值有 012 后来加上了大小、响度气味等不同的性状取值为 0 1 2 然后预测瓜的取值0 / 1 ; 从这个角度理解这个玩意儿相当于训练出不同特征对于结果影响的权重 nice 得出结论是的老师之前讲的例子确实相当于一个多特征的例子 √ 言归正传那么这里老师讲得到一个关于w 的参数矩阵和bc 的参数向量以及最外面的b 那么接下来的问题就变成优化这些参数使得 L 最小 nice 卡住了简单顺一下这个图是什么意思 x 表示前 1 2 3 天的订阅量当 j 不变的时候 j 1 表示通过三个 blue line 去拟合前一天的订阅量和y(第二天的订阅量)的关系需要 3*3 1 10 个参数; j 2 / 3 的时候同上 ok pass ~ 注意w i j _{ij} ij 在这里表示每一个blue line 的斜率w i j _{ij} ij表示每一个特征在每一次sigmoid 函数中所占的权重 more thinking : 这里的r1 ~r3 表示什么呢根据式子来理解就只能是三种sigmoid 函数方法占预测结果的权重了 Day3 改写为向量和矩阵乘法的格式接下来就分别把r 放到sigmoid方式里简写以后向量化整个过程的向量表示 y b cT a 一系列线性代数的表示方法(简洁) Before we find the parameter (unknown) define some variable Loss Ltheta 并不是用L 中的数据来训练参数每一次更新参数的步骤叫做一次 epoch Q:老师伏笔为什么这里要使用batch Day4 这里的batch Size 也变成了hyperparameter 一个hard Sigmoid 也等于两个relu的叠加 ActivationFunction 哪一种比较好神经网络训练的层数-- 又一个 hyperparameter a fancy name 为什么深? 而不更宽呢 Fully connect feedforward 这里可以用来推导矩阵的表示相当于在隐藏层中做了特征提取输出层相当于一个多分类器 FAQ Loss 的定义这里的这个函数用的很奇怪没见过但是简单分析一下这个式子表示的还是y 和 y ’ 的差距but含奇怪的一点是这里老师说让这个参数越小越好 ……不应该是越大越好吗因为有一个负号明白了应该就是越小越好这里老师拿一个多分类的问题举例所以这里用到了交叉熵的概念信息熵越小说明信息的混乱程度越小分类的 y1 --y10 越精确之后的loss 见下一页ppt 啊这里Loss 为啥上面的系数是 n 啊…… 哦对我sbn表示的是c 的序号而不是幂次怎么回事怎么乱糟糟的这个c i 到底是什么时候出现的本质上还是对交叉熵的概念不了解导致的交叉熵cross Entropy …… 这个概念暂时悬而未解吧这里注意一下哈首先这个交叉熵的概念先放下就先用最常见的欧氏距离来表示这里的 y 和y 的差距ok第一个问题解决了第二点为什么这里需要用c i 以及它表示的是什么意思简单理解的话就是说每一个输入对应的一个输出和真实值的距离因此有多少组输入就会有多少个c 第三点 c 对w的偏微分一定是 ci 到 cn 同时进行且等于 0 的否则不能保证他们的和最小 c i 到cn的和 Day5 BackPropagation 什么是方向传播在train neru network 的时候 GradientDiscent的运作方式 Gradient Descent cn 表示 yn 和yn(head) 距离的function chain Rule 正向传播找到规律对谁的偏微分就等于该输入反向传播老师这里说 sigmoid ‘z 是一个常数因为z在决定前馈的时候就已经决定好了提问为什么如何理解这个已经决定好了如果是按照常数的理解方法的话 z’ 又从何谈起呢 …… 这个暂时学不进去了 Day6 BackPropagation2 用手推导了一遍具体数字的题目对反向传播有了更深的理解: 本质上就是梯度下降法没有丝毫新奇之处只在于在深度学习中 Lgh……w)然后我们无法直接求出 L对w 的微分需要经过chain rule来进行这个过程就是反向传播至于老师这里说的 sigmoid ‘z 是一个常数是因为 z 在前面的前馈中已经计算出来了就等于输入值和w的线性相加所以带入以后是一个常数其实老师讲的很清楚了是自己对过程不太清晰把自己绕进去了。两个case case1 . output layer 直接求即可 case2 . hiden layernot output Layer 我猜测还是和之前的一样直到变成case1 为止 ok 我猜对了~嘿嘿 ok 小结一下反向传播的意义在于减少运算~ 与其正向的求不出来算好几遍对输出层的偏微分不如最开始就直接算输出层的偏微分但是扩大的倍率图中的三角形需要前一次的正向传播才能求出

查看全文

http://www.dnsts.com.cn/news/183471.html