深圳 旅游 网站建设,南宁网站排名优化电话,产品发布网站的装饰怎么做,提高网站权重的方法目录一、背景1.1 学习资料1.2 数据的特征1.3 数据挖掘的应用案例1.4 获取数据集1.5 数据挖掘的定义二、分类三、聚类四、关联分析五、回归六、可视化七、数据预处理八、有趣的案例8.1 隐私保护8.2 云计算的弹性资源8.3 并行计算九、总结一、背景
1.1 学习资料
推荐书籍如下 Google Scholar搜学术期刊
开源数据集UCI Machine Learing Repository
开源 GUI 工具方便快速上手WEKA
KDD nuggets: 数据挖掘网站 1.2 数据的特征
数据是最底层的概念其中有价值的才能称作信息。
大数据有三个特征
Volumn容量够大TB 变为 ZB 等。Variety多样从结构化的二维 excel 表格到非结构化的文字、声音、图像、视频等待加工的数据。Velocity速度从静态数据集到动态高 QPS 的流式数据处理对算法有很高要求。
1.3 数据挖掘的应用案例
大数据的应用场景
安防预测预测疑犯行为提前防火而不是事后疲于救火。 对症下药 APP 地理位置可视化 商店购物区域热力图、人员轨迹、停留时间 》 精准营销推荐商品 情感分析文字识别分析情感 体育数据分析2000 年左右国外真实案例小牌球队利用数据挖掘分析各球员的特点组织球队布阵取得商业成功也将此真实故事拍成了电影《点球成金》。 美女挖掘通过非诚勿扰各女嘉宾的信息包括身高、面部关键点度量、家庭背景、对心动男生的期待等挖掘大众心中的心动女生有何特征。
1.4 获取数据集
越来越多公开数据集出现法律公开允许自由使用技术容易获取易结构化易清洗。下面是一些公开数据集网址可以多多使用。 政府其实有极多数据其也会开放很多数据如下方便大家做多维数据融合挖掘 1.5 数据挖掘的定义
不同于以往的数据处理而是针对大量数据发掘出有趣、有用、隐含的信息。 数据清洗后变为信息信息挖掘得到知识知识通过领域模型得到有用的决策。 ETL 如下 工业界数据挖掘和可视化软件有很多 二、分类
分类任务是通过给定一些训练集训练后得到分类模型模型下面几种模型是常用的分类模型
决策树K 近临神经网络SVM 分类的本质其实是得到分界面 我们需要的是黑色的线因为是平滑的因为绿色的线是过拟合即死记硬背的模型并未东西出数据规律 数据的训练集和预测集需要不同才能体现模型的有效性。 混淆矩阵是各种模型指标的定义根基
TP即数据本身的ActualValue即为 Positive且其预测得到的 PredictedValue 也 Truely 预测为 Positive即预测对了。TN即数据本身的ActualValue即为 Negative且其预测得到的 PredictedValue 也 Truely 预测为 Negative即预测对了。FP即数据本身的ActualValue即为 Negative且其预测得到的 PredictedValue 却 Falsely 预测为 Positive即预测错了。FN即数据本身的ActualValue即为 Positive且其预测得到的 PredictedValue 也 Falsely 预测为 Negative即预测错了。
基于这些概念又衍生了最常用的两个呈反比的指标例如预测集共 500 个其中 200 个为 A 类300 个为 B 类。模型预测出其中 50 个为 A 类其中预测对的是 30 个。
Precision准确率模型真正预测对的数量 / 「模型预测」「出的」数量。即 30 / 50。Recall查全率 模型真正预测对的数量 / 「总预测集」的「对的」数量。即 30 / 200。
P - R 曲线如下
Precision 和 Recall 二者的「PR曲线呈反比关系」纵轴为 Precision横轴为 Recall每个点位不同的业务阈值。因为二者呈反比关系故一般选「适中」的业务阈值来使得 P 和 R 可以「兼顾」 因为模型输出都是介于 0 到 1 的得分如 0.7标识有 70%的概率是 A类。而应用层可以定义阈值若高于阈值则视为「业务视为输出 A 类」反之若低于阈值则视为「业务视为输出非 A 类」。 如果业务把阈值定的很高例如 0.999那么输出结果很少但很准确 即「Recall低漏了很多结果」而「Precision高判断很准确很严格」。如果业务把阈值定的很低例如 0.001那么输出结果很多但很多误报即「Recall高一个结果都没漏」而「Precision低判断很不准都在误报」。
三、聚类
聚类不同于分类并没有「事先人为定义的标签」而是根据各点之间的「距离」度量的其只是将一批数据集聚为不同的堆。 聚类分为平铺聚类和层次型聚类如下图
比如都是中国人类但又细分为南方人北方人、其中北方人又分为东北、中原、西北人等。
四、关联分析
商店购买记录分析各商品的关联性。 五、回归
线性回归其实可以拟合出线性方程、二元方程、多项式方程等。其「线性」二字的含义是参数和自变量之间是线性关系即下图中的 beta 和 x 回归同样存在过拟合问题下图一是欠拟合太简单了下图三是过拟合死记硬背所有训练数据不具备扩展性下图二是适中的也是最好的模型 六、可视化
通过所见即所得充分展示出数据更容易发挥人的分析能力拿到数据后先做可视化大概估计数据分布再确定详细挖掘算法。
同样数据挖掘后再把结果可视化让人为评判效果。来确定下一步挖掘方向。 可视化需要以受众易理解的语言、图表形式如右下图的驾驶舱进行 有很多图表可以酷炫地展示结果让人更易理解挖掘的价值。 七、数据预处理
我们拿到的通常是脏数据其可能缺失如未填写年龄或错误如年龄填写为负数因此需要清洗 数据清洗通常很累但缺必不可少的地基工作 八、有趣的案例
8.1 隐私保护
1990 年互联网兴起时隐私性很好你并不知道互联网对面是谁在操作键盘。
但现在 21 世纪隐私性已经完全没有了所有的时间、空间、身份、行为习惯均被记录并分析。 基于隐私保护的数据挖掘是目前很新兴的研究领域即收集数据、又保护用户隐私。 下图即为有隐私保护的数据挖掘让挖掘者并不知道个体的数据但可以获得宏观的数据且保证获得的数据是真实的 8.2 云计算的弹性资源
根据客户的实际需求动态扩缩容资源。 8.3 并行计算 Nvidia 的 TK1 尺寸很小但计算性能是家用电脑的 10 倍以上。 九、总结
数据挖掘的必备元素数据、算法、算力 没有银弹算法、没有银弹参数通常先用简单算法验证效果降低心智负担后期再用复杂算法优化。 不能总是宏观看待问题也要结合微观才能详细挖掘数据规律 两条曲线有关系但不一定有因果关系 避免幸存者偏差来误解数据 避免片面理解数据避免以偏概全