源码论坛下载,网站建设要哪些seo,西地那非是什么药,济南小程序制作公司系列文章目录
机器学习#xff08;一#xff09; -- 概述
机器学习#xff08;二#xff09; -- 数据预处理 未完待续…… 目录
系列文章目录
前言
一、机器学习定义#xff08;是什么#xff09;
二、机器学习的应用#xff08;能做什么#xff09;
三、***机器…系列文章目录
机器学习一 -- 概述
机器学习二 -- 数据预处理 未完待续…… 目录
系列文章目录
前言
一、机器学习定义是什么
二、机器学习的应用能做什么
三、***机器学习的流派
四、机器学习的系统定义与通俗理解
五、机器学习的基本术语
1、有了数据
2、通过学习算法
3、得到模型
4、进行预测
5、数据集构成简单理解
六、机器学习的分类
1、监督学习Supervised Learning有导师学习
1.1、分类classification -- 离散
1.1.1、二分类binary classification
1.1.2、多分类multi-class classification
1.2、回归regression -- 连续
2、无监督学习(Unsupervised Learning无导师学习
2.1、聚类
2.2、降维
3、半监督学习Semi-Supervised Learning
4、强化学习Reinforcement Learning
七、机器学习的算法
八、机器学习的流程 前言
tips这里只是总结不是教程哈。
标题前面加“***”的可自行跳过。文章内容被“文章内容”删除线标记的也可以自行跳过。 一、机器学习定义是什么
机器学习Machine Learning是一门多领域交叉学科涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能核心是使计算机具有智能的根本途径。
-- 百度百科 人工智能AL
机器学习ML机器学习是人工智能的一个子领域是人工智能的核心。机器学习是从数据通往智能的技术途径是现代人工智能的本质。
深度学习DL深度学习是机器学习的一个子领域是目前最火的方向。
加入神经网络的关系表示 二、机器学习的应用能做什么 模式识别Pattern RecognitionPR 机器学习计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为“机器学习”或者“模式识别”。统计学习是使用统计方法的一种机器学习。 计算机视觉Computer VisionCV图像识别人脸识别、图像检索、物体识别等。
数据挖掘Data MiningDM推荐系统等。
自然语言处理Natural Language Processing, NLP文本分类Text Classification、语言模型Language Modeling、机器翻译Machine Translation、问答系统Question Answering、语音识别Speech Recognition等。
统计学习Statistical LearningSL支持向量机SVM、核方法等。
等……
三、***机器学习的流派 四、机器学习的系统定义与通俗理解
1、系统定义
假设用P来评估计算机程序在某任务类T上的性能若一个程序通过利用经验E在T中任务上获得了性能改善则我们就说关于T和P该程序对E进行了学习
-- 西瓜书
机器学习 任务 方法 经验 性能
任务-T机器学习要解决的问题 任务是机器学习的研究对象
方法-A: 各种机器学习方法 方法是机器学习的核心内容
经验-E训练模型的数据实例 经验是机器学习的动力源泉
性能-P方法针对任务的性能评估准则 性能是机器学习的检验指标。
2、通俗理解
机器学习是从数据中自动分析获得模型并利用模型对未知数据进行预测。类比人类 从数据中自动分析获得模型并利用模型对未知数据进行预测。
流程有了历史数据 -- 通过学习算法训练 -- 得到模型 -- 用新数据进行预测
目的机器学习找一个函数模型函数机器学习 任务 方法 经验 性
五、机器学习的基本术语
按照流程介绍不同术语。
-- 以下内容从【西瓜书】概括而得
1、有了数据
数据集Ddata set100个西瓜构成一个数据集。
样本sample示例instance100个西瓜中的每一个西瓜就是一个样本。
属性attribute特征feature西瓜的色泽根蒂敲声。 属性值attribute value西瓜的色泽为青绿色青绿即为属性值。
样本空间sample space属性空间attribute space、输入空间X)属性张成的空间。“色泽”“根蒂”“敲声”作为三个坐标轴则他们张成一个描述西瓜的三维空间
特征向量feature vector颜色、大小、敲起来的振幅。一个维度dimensionality
2、通过学习算法
2.1、学习learning训练training
训练数据training data
训练样本training sample训练示例training instance、训练例
训练集training set
假设hypothesis学得模型对应关于数据的某种潜在的规律比如敲声清脆的可能是好瓜。
真相真实ground-truth潜在规律本身比如敲声清脆的一定是好瓜。
学习器learner模型model得到的模型。
2.2、样本结果信息
标记label色泽青绿根蒂蜷缩敲声浊响好瓜“好瓜”称为“标记”。
样例example拥有标记信息的示例称为样例
用xiyi表示第i个样例其中yi属于Y是示例xi的标记。标记空间label space、输出空间Y是所有标记的集合。
3、得到模型
有分类、回归、聚类等具体后面【机器学习的分类】详讲。
4、进行预测
4.1、测试testing
测试样本testing sample测试示例testing instance、测试例
4.2、测试能力
4.3、测试testing
泛化generalization能力适应新样本未见示例unseen instance的能力
-- 独立同分布假设样本空间中全体样本服从一个未知“分布”distributionD我们获得的每一个样本都是独立地从这个分布上采样获得的即“独立同分布”independent and identically distributed简称i.i.d.
5、数据集构成简单理解
结构特征值房子面积房子位置、房子楼层目标值这里是价格 对于每一行数据我们可以称为样本
有些数据集可以没有目标值如下 六、机器学习的分类
1、监督学习Supervised Learning有导师学习
从有标记数据中学习模型
1.1、分类classification -- 离散
1.1.1、二分类binary classification
正类positive class、反类negative class负类 Y{-11}/{0,1} Y被分成-11或者01
eg识别猫和狗。 1.1.2、多分类multi-class classification
|Y|2
eg数字识别 1.2、回归regression -- 连续
预测的是连续值
YR(实数集)
eg房屋价格预测 2、无监督学习(Unsupervised Learning无导师学习
从无标记数据中学习模型
2.1、聚类
分为若干组每个组称为一个“簇”cluster
eg 2.2、降维 在原始的高维空间中包含冗余信息和噪声信息会在实际应用中引入误差影响准确率而降维可以提取数据内部的本质结构减少冗余信息和噪声信息造成的误差提高应用中的精度。 还有异常检测等……
3、半监督学习Semi-Supervised Learning 半监督学习(Semi-Supervised LearningSSL)是模式识别和机器学习领域研究的重点问题是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据以及同时使用标记数据来进行模式识别工作。当使用半监督学习时将会要求尽量少的人员来从事工作同时又能够带来比较高的准确性因此半监督学习正越来越受到人们的重视。
-- 百度百科
4、强化学习Reinforcement Learning 实质是自主决策问题即自动进行决策并且可以做连续决策。 以“试错”的方式进行学习通过与环境进行交互获得的奖赏指导行为目标是使智能体获得最大的奖赏。
七、机器学习的算法 有的人总想先知道机器学习的算法有哪些比如我QwQ
1、监督学习
1.1、线性回归Linear Regression
1.2、逻辑回归Logistic Regression
1.3、决策树Decision Trees
1.3.1、随机森林Random Forests
1.4、深度学习Deep Learning算法如神经网络Neural Networks 卷积神经网络(CNN)、循环神经网络(RNN)和生成对抗网络(GAN)
1.5、支持向量机Support Vector Machines
1.6、朴素贝叶斯Naive Bayes
1.7、K近邻算法K-Nearest Neighbors
2、无监督学习
2.1、聚类算法 将数据样本划分为不同的组或簇使得同一组内的样本相似度高不同组之间的相似度较低。
2.1.1、K均值聚类K-Means Clustering
2.1.2、层次聚类Hierarchical Clustering
2.1.3、DBSCAN
2.2、降维算法 将高维数据映射到低维空间保留数据的主要信息同时减少数据的维度。
2.2.1、主成分分析Principal Component AnalysisPCA
2.2.2、线性判别分析LDA
2.2.3、t-SNE
2.3、关联规则挖掘关联规则学习Association Rule Learning 从数据集中发现频繁出现的项集或关联规则用于发现数据项之间的关联性。
2.3.1、Apriori
2.3.2、FP-growth
2.4、异常检测 检测数据中的异常或离群点这些数据与正常数据的行为模式不符。
2.4.1、基于统计的方法
2.4.2、基于聚类的方法
2.4.3、基于密度的方法
2.5、高斯混合模型Gaussian Mixture Models 暂时先放这吧
3、半监督学习 标签传播算法、半监督支持向量机和深度置信网络等
4、强化学习 Q-learning、SARSA、策略梯度和深度强化学习
5、集成学习多学习器组合
5.1、随机森林Random Forests
5.2、梯度提升树
5.1、AdaBoost
八、机器学习的流程 机器学习的数据集划分一般分为两个部分
训练数据用于训练构建模型。一般占70%-80%数据量越大取得比例最好越大
测试数据用于模型评估检验模型是否有效。一般占20%-30%