找人做网站需要准备什么材料,企业失信被执行人查询,行政审批网站建设规范,网站做数学题ai目录 sheng的学习笔记-AI目录-CSDN博客 基础知识
什么是聚类
在“无监督学习”(unsupervised learning)中#xff0c;训练样本的标记信息是未知的#xff0c;目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律#xff0c;为进一步的数据分析提供基础。此类学… ai目录 sheng的学习笔记-AI目录-CSDN博客 基础知识
什么是聚类
在“无监督学习”(unsupervised learning)中训练样本的标记信息是未知的目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是“聚类”(clustering)。
对聚类算法而言样本簇亦称“类”。
聚类试图将数据集中的样本划分为若干个通常是不相交的子集每个子集称为一个“簇”(cluster)。通过这样的划分每个簇可能对应于一些潜在的概念类别如“浅色瓜”“深色瓜”“有籽瓜”“无籽瓜”甚至“本地瓜”“外地瓜”等需说明的是这些概念对聚类算法而言事先是未知的聚类过程仅能自动形成簇结构簇所对应的概念语义需由使用者来把握和命名。
聚类任务中也可使用有标记训练样本但样本的类标记与聚类产生的簇有所不同
聚类的应用场景
在一些商业应用中需对新用户的类型进行判别但定义“用户类型”对商家来说却可能不太容易此时往往可先对用户数据进行聚类根据聚类结果将每个簇定义为一个类然后再基于这些类训练分类模型用于判别新用户的类型 性能度量 聚类的性能度量也称作聚类的有效性指标validity index 。 直观上看希望同一簇的样本尽可能彼此相似不同簇的样本之间尽可能不同。即簇内相似度intra-cluster similarity高且簇间相似度inter-cluster similarity低。 聚类的性能度量分两类 聚类结果与某个参考模型reference model进行比较称作外部指标external index 。直接考察聚类结果而不利用任何参考模型称作内部指标internal index 。
外部指标 Jaccard系数 FM指数 Rand指数 ARI指数 内部指标 DB指数 Dunn指数 距离度量
常用距离计算 数值和非数值属性混合
当样本的属性为数值属性与非数值属性混合时可以将闵可夫斯基距离与 VDM 距离混合使用。 加权距离
当样本空间中不同属性的重要性不同时可以采用加权距离
直递性
直递性常被直接称为“三角不等式”
这里的距离度量满足三角不等式
需注意的是通常我们是基于某种形式的距离来定义“相似度度量”(similarity measure)距离越大相似度越小。然而用于相似度度量的距离未必一定要满足距离度量的所有基本性质尤其是直递性。
例如在某些任务中我们可能希望有这样的相似度度量“人”“马”分别与“人马”相似但“人”与“马”很不相似要达到这个目的可以令“人”“马”与“人马”之间的距离都比较小但“人”与“马”之间的距离很大此时该距离不再满足直递性这样的距离称为“非度量距离”(non-metric distance)。