网站怎么做抽奖,小学网站模板免费下载,关于京东商城网站建设的实践报告,网站开发排行榜文章目录 人工智能图灵测试分类分类与聚类的区别#xff08;重点#xff09;分类 (Classification)聚类 (Clustering) 特征提取 分类器#xff08;重点#xff09;特征提取为什么要进行特征提取#xff1f;#xff08;重点#xff09;分类器 训练集、测试集大小#x… 文章目录 人工智能图灵测试分类分类与聚类的区别重点分类 (Classification)聚类 (Clustering) 特征提取 分类器重点特征提取为什么要进行特征提取重点分类器 训练集、测试集大小重点K则交叉验证重点过拟合、欠拟合分类准确率softmax 卷积神经网络向量卷积计算矩阵、张量卷积计算池化层 循环神经网络RNNGRULSTM 光流骨架光流重点骨架光流骨架区别 关联规则挖掘两个兴趣度度量衍生概念 AP算法聚类算法k-means聚类重点层次聚类重点密度聚类-DBSCAN重点层次聚类和密度聚类区别重点 介绍 我整理了一些比较关键的、考试可能会考的点只是为了应付考试都是些概念不涉及具体算法实现。希望对大家有所帮助
人工智能
图灵测试
什么是图灵测试 人和机器人对话 且人不知道对方为计算机 三个老爷爷
阿兰·图灵、维纳、约翰·麦卡锡
分类
判断一个实物的类型这样的过程在人工智能 领域里被成为分类
分类根据所给数据的不同特点 判断它属于哪个类别
分类与聚类的区别重点
省流分类有监督要预定义数据分训练集测试集 聚类则不用丢个数据让机器自己训练应用场景分类需提前指明分哪几类否则只说分类特征的话只能是聚类咯~
分类 (Classification)
定义: 分类是一种监督学习方法它将输入数据分配到预定义的类别中。目标: 通过学习一个模型来预测新数据点所属的类别。数据类型: 需要带有标签的数据集即每个输入数据都有一个已知的输出类别。算法: 常见的分类算法包括决策树、随机森林、支持向量机SVM、k近邻算法k-NN、朴素贝叶斯和神经网络。应用: 分类问题的典型应用包括垃圾邮件检测邮件是垃圾邮件或正常邮件、图像识别图像中是猫还是狗、疾病诊断病人是否患有某种疾病等。
聚类 (Clustering)
定义: 聚类是一种无监督学习方法它将数据点分组为多个簇使得同一个簇中的数据点彼此之间的相似度最大不同簇的数据点之间的相似度最小。目标: 发现数据中的自然分组或结构而不是预测新数据点所属的类别。数据类型: 不需要带有标签的数据集即数据点没有预定义的输出类别。算法: 常见的聚类算法包括k均值k-means、层次聚类hierarchical clustering、DBSCAN基于密度的聚类方法和均值漂移mean-shift。应用: 聚类问题的典型应用包括客户细分根据购买行为将客户分组、图像分割将图像像素分为不同区域、文档分类根据内容将文档分组等。
特征提取 分类器重点
特征提取
如花瓣长度 花瓣宽度 花瓣颜色 植株高度 花瓣面积 …
1、对同样的事物我们可以提取出各种各样的特征 2、不同的特征对于分类器的准确分类会有很大的影响
表示方式向量 x1x2x3…长度宽度面积…
提取特征是关键
为什么要进行特征提取重点
简化数据原始数据往往包含大量的冗余信息和噪音。通过特征提取可以简化数据只保留对模型有用的信息提高计算效率。
提高模型性能提取出具有代表性的特征可以帮助模型更准确地识别数据中的模式从而提高模型的预测性能。
降维对于高维数据特征提取可以减少维度降低计算复杂度并减轻“维度灾难”问题。
增强解释性提取出具有物理意义或业务意义的特征有助于理解模型的决策过程增强结果的可解释性。
减少过拟合通过提取关键特征并去除噪音数据可以减少模型的复杂度降低过拟合的风险。
提高训练效率更小且更有代表性的特征集可以显著减少模型训练时间和资源消耗。
分类器
可线性也可非线性线性划分平面也可以是超平面
可以用大量数据来训练分类器
训练集、测试集大小重点
数据充足可 11
数据不充足可 64 73
K则交叉验证重点
K最小值为2最大值为样本总数
K 小了计算成本低性能不稳定影响模型的泛化能力 K 大了计算成本高性能稳定但可能带来过于乐观的估计每次验证集的大小较小模型可能无法充分地从验证集中学习到数据的特性导致评估的偏差较大
k 个 accuracy 如何处理
通常通过计算 平均准确率 和 标准差 来评估模型的 总体表现 和 稳定性
过拟合、欠拟合
过拟合训练集过好而测试集糟糕
欠拟合训练集就不行了根本没好好训练
how了解就行增加样本量、k则交叉验证、数据预处理、正则化、特征选择 …
分类准确率
分类准确率 分类正确的样本数 / 测试样本的总数
softmax
softmax 是 归一化指数函数
用于多分类可以归一化将输出值转为概率
卷积神经网络
向量卷积计算
每次滑一步分别进行向量点乘最终结果还是一个向量
矩阵、张量卷积计算
和向量同理反正我会算
池化层
池化层通过减少特征图的空间维度减少了后续卷积层的计算量和参数量从而提高了网络的计算效率和训练速度可防止过拟合
循环神经网络
RNN
时间序列不适合处理长序列会遗忘
GRU
两个门更新门和重置门设定上一个时刻和当前时刻的权重比
LSTM
三个门比GRU复杂分量之前每关系相对独立可自由设置 遗忘门能决定需要保留先前步长中哪些相关信息 输入门决定在当前输入中哪些重要信息需要被添加 输出门决定了下一个隐藏状态。 光流骨架
光流重点
光流是指在一系列连续的图像帧之间物体像素位置的运动变化 基于光流的方法主要关注的是像素级别的运动信息通常用于计算图像中的运动矢量场
骨架
基于骨架的方法主要关注的是对象通常是人类的关节和身体部分的位置信息 通过检测和追踪人体的关键点如头、肩、肘、膝等可以重建出人体的骨架结构
目标检测 先检测到人骨架提取 拿到这个人的骨架特征提取 对骨架进行特征提取并分析动作识别 根据特征来识别判断出是什么动作
光流骨架区别
运动信息的表示方式 光流方法基于像素级别的运动矢量表示的是连续帧之间的运动变化。骨架方法基于关键点和关节位置表示的是人体的姿态和骨架结构。 应用场景 光流方法适用于需要细粒度运动分析的场景如目标跟踪、视频稳定等。骨架方法适用于人体动作识别、姿态估计和运动分析等。 计算复杂度和鲁棒性 光流方法计算复杂度较高容易受到光照变化和噪声的影响。骨架方法计算相对简单更鲁棒于光照和背景变化。
关联规则挖掘
两个兴趣度度量
支持度 整体概率比如某个项集在事务集中出现的概率
置信度 条件概率比如含A的事务集中出现AC的概率
提升度 在B单独发生中是 A 引起的即 A → \rightarrow → B 的概率
衍生概念
频繁k项集 大于人为设定的最小支持度
候选k项集 用于生成频繁k项集的项集
AP算法
不断往上推然后看置信度和提升度满不满足要求
聚类算法
k-means聚类重点
分成k个簇先选取k个样本点每加入一个点时先分类再重新计算簇中心点循环直到所有点分完为止 k近邻KNN是选周围k个样本点然后来进行归类是监督算法要进行区分 层次聚类重点
根据距离最小的两个点来聚类不断往上叠层每次都使样本簇数-1最终像一个树结构有层次感
优点: 1、得到层次化表达信息丰富 2、有利于把数据集的聚类结构视觉化 缺点: 1、对噪声和离群点很敏感需要有力的预处理过程 2、计算量很大 密度聚类-DBSCAN重点
具有噪声的基于密度的空间聚类把分布相对密集、距离较近的点聚到一起不是所有的点都是类的一部分DBSCAN定义了噪声点,在具有噪声的情况下具有较大的作用
优点: 1、不需要指明类的数量 2、能灵活地找到并分离各种形状和大小的类 3、能有效处理数据集中的噪声和离群点 缺点: 1、从两类可达的边界点被分配给了另一个类因为这个类先发现这个点不能保证回传正确的分类情况 2、较难找到不同密度的类 层次聚类和密度聚类区别重点
层次聚类密度聚类数据完整数据不完整更有层次化利于可视化更有集中性适用于有噪声情况对噪声和离群点很敏感受极端情况影响大可舍弃极端情况只集中对密度大的部分进行聚类