网站代码上传后无法打开,大连建设工程信息网站,公众号代运营费用,网站的布局结构人生的苦难不过伏尔加河上的纤夫 —— 24.11.27 一、机器学习起源
机器学习的本质 —— 找规律
通过一定量的训练样本找到这些数据样本中所蕴含的规律
规律愈发复杂#xff0c;机器学习就是在其中找到这些的规律#xff0c;挖掘规律建立一个公式#xff0c;导致对陌生的数… 人生的苦难不过伏尔加河上的纤夫 —— 24.11.27 一、机器学习起源
机器学习的本质 —— 找规律
通过一定量的训练样本找到这些数据样本中所蕴含的规律
规律愈发复杂机器学习就是在其中找到这些的规律挖掘规律建立一个公式导致对陌生的数据一样可以起到判断效果
机器学习就是从数据中找到这个公式规律、函数、映射的过程
机器预测就是用这个公式去推断未知数据的过程
通过已知的样本寻找其中所蕴含的规律根据规律得出一个公式然后再用公式推导其他未知样本数据的信息 二、机器学习应用
很多时候我们都会得到一些数据我们希望从其中找到数据间的规律但是有些复杂的规律我们无法得到所以可以依托机器帮助我们挖掘这些数据间的规律
例 ① 知道花朵的大小、颜色、型状等信息我们判断未知花朵的类别 ② 知道身体健康信息如血压、血糖等指标来判断人体是否健康是否患病 ③ 知道房屋的大小、年份、地理位置等信息来预测该房的房价是多少 ④ 知道企业的业务、规模等市场信息来预测该公司的股价 ⑤ 知道国家的人口、科技水平、GDP、经济发展情况来预测国家未来的GDP 规律及公式是由我们给出一个初始值然后通过机器在数据间学习的成果我们对公式中的具体参数进行调整、优化 三、机器学习的分类
1.有监督学习
模型通过学习输入数据和数据对应的输出标签之间的关系来进行训练。
模型在训练过程中有明确的指导知道每个输入数据对应的正确输出是什么。
核心目标
建立一个模型/函数来描述带标签的已知数据的输入与输出间内含的映射关系
价值
对于新的未知输入数据通过模型给出预测的输出结果
有监督学习中训练数据十分重要因为训练数据不足的话无法从样本数据中提出正确的规律也就无法正确进行预测
要点
① 一定数量的训练样本
② 输入和输出之间必须要有关联关系决定性条件
③ 输入和输出结果要能够转化为数字/数值数值化表示机器才能从中进行学习
④ 任务需要有预测价值固定规则的不用预测
有监督学习在人工智能中的应用
① 文本分类任务
输入文本
输出类别
关系文本的内容决定了文本的类别
② 机器翻译内容
输入A语种文本
输出B语种文本
关系A语种表达的意思B语种中有相应的表达
③ 图像识别任务
输入图像
输出类别
关系图像中的像素排列决定了图像的内容
④ 语音识别任务
输入音频
输出文本
关系声音信号在特定语言中对应特定的文本 2.无监督学习
数据中只有X数据没有Y对应的标注给予机器的数据没有标注信息通过算法对数据进行一定的自动分析处理得到一些结论常见任务有聚类、降维、找特征值等等
聚类
数据只有点X没有对应的标注Y将数据在空间中分布靠近的点划分在一组/类 降维
将一个高维数据用一种方法让每个数据进行低维表示他们在降维后空间中的分布与降维前在空间中的分布比较接近维度降低空间中的分布不变 3.半监督学习
半监督学习是有监督学习和无监督学习之间的一种机器学习方式将有监督学习和无监督学习结合起来先利用无监督学习得到一些信息再通过无监督学习得到的数据信息进行有监督学习或者先对一些数据做有监督学习将这些数据处理完后再做无监督学习然后共同得到一种有意义的规律 4.自监督学习
数据中有数据X也有对应标注Y但是对应标注Y由数据自身在训练过程中进行生成不需要提前给出
现大多与无监督学习混用但其实存在区别自监督模型中学习数据的特征自动产生相当于数据自身就是自身的标注不需要人来标识数据而无监督学习中数据的特征没有标注特征 5.有监督、无监督、半监督、自监督学习的区别
有监督学习是根据已知数据提供的数据特征建立模型/算法再用建立的模型/算法预测未知数据
无监督学习不需要数据特征通过算法对未知数据自动分析处理提取特征得出一些结论
自监督学习需要数据特征但是由数据自动产生不需要我们主动提供
半监督学习是将无监督学习和有监督学习融合起来先后进行学习得到一种有意义的规律 四、机器学习一般流程
训练数据 —— 数据处理 —— 选择处理的算法 —— 训练数据建模评估—— 反复进行优化 —— 将模型输出
模型 函数 公式 五、机器学习常用概念
1.训练集
用于训练模型是模型训练的训练数据集合
将训练集中的数据与测试集中的数据尽量分开
例一般而言一百条数据八十条用于训练十条用于验证十条用于测试现常将验证集与测试集合体到验证集直接在验证集进行测试模型效果尽量保证训练集与测试 / 验证集无重合 2.验证集
对于每一种任务一般都有多种算法可以来选择一般会使用验证集验证用于对比不同算法的效果差异 3.测试集
最终用于评判算法模型效果的数据集合 4.K折交叉验证K fold cross validation
初识采样分割成K个子样本一个单独的子样本被保留作为验证模型的数据其他K-1个样本用于训练。交叉验证重复K次用这K个数据分别每个当作验证测试集其余的作为训练集最终求平均值每个子样本验证一次平均K次的结果 5.过拟合
模型失去了泛化能力在特定的集合上表现很好在新的集合上表现很差模型在训练集和验证集上都有很不错的表现但在测试集上的表现很差
将测试集与训练集分开是预防发生过拟合现象 6.欠拟合
模型没能建立起合理的输入输出间的映射。当输入训练集中的样本时预测结果与标注结果依然相差很大由于训练数据过少在训练数据上就没有找到好的规律也就无法预测新样本数据。
过拟合与欠拟合都与训练数据不足 / 选用的处理算法不当有关 7.评价指标
为了评估算法效果的好坏需要找到一种评价模型效果的计算指标根据不同的任务会使用不同的评价指标常用的评价指标有
① 准确率 ② 召回率 ③ F1值 ④ TopK ⑤ BLEU