广州网站制作报价,四川旅游攻略自由行攻略,凡科网小程序,wordpress 压缩包1. Spearman相关系数#xff1a;
用于衡量两个变量之间的排序关系的强度和方向。Spearman相关系数关注的是两个变量的排序一致性#xff0c;而不关心具体的数值大小。值的范围为-1到1#xff0c;1表示完全正相关#xff0c;-1表示完全负相关#xff0c;0表示无相关性。常…1. Spearman相关系数
用于衡量两个变量之间的排序关系的强度和方向。Spearman相关系数关注的是两个变量的排序一致性而不关心具体的数值大小。值的范围为-1到11表示完全正相关-1表示完全负相关0表示无相关性。常用于统计分析和数据之间的单调关系检测。
2. Pearson相关系数
衡量不同数据之间相似性或差异性的一种方法。它主要用于度量两个变量之间的线性相关性。具体来说Pearson相关系数反映的是两个变量的协同变化趋势即当一个变量增加或减少时另一个变量是否以相似的方式变化。值的范围为-1到11表示完全正相关-1表示完全负相关0表示无相关性即两个变量之间没有线性关系。
Spearman与Pearson之间的区别
Pearson 适用于两个变量之间的线性关系而Spearman适用于单调关系。Pearson 处理变量的数据原始值而 Spearman 处理数据排序值需要先做变换transform如果散点图表明“可能是单调的可能是线性的”关系最好的选择是 Spearman 而不是 Pearson。即使数据证明是完全线性的用 Spearman 也不会造成信息丢失。但是如果不是完全线性但使用 Pearson 系数会丢失 Spearman 可以捕获的信息是否单调。http://相关系数: Pearson vs Spearman - ml-butcher的文章 - 知乎 https://zhuanlan.zhihu.com/p/465213120
3. 欧氏距离Euclidean distance
衡量两个点之间的“直线”距离计算公式为点之间各坐标差的平方和的平方根。在多维空间中常用来衡量两个样本的差异距离越大表示差异越大。常用于聚类算法如K-Means和最近邻算法如KNN。另欧氏距离可以应用于两个向量之间的比较。它常用于衡量两个向量在多维空间中的“直线”距离也就是说两个向量之间的差异程度。
4. 余弦相似度Cosine similarity
衡量两个向量之间的角度相似性计算公式为两个向量点积除以其模长乘积。取值范围为[-1, 1]1表示完全相似0表示不相关-1表示完全相反。常用于文本相似性分析如TF-IDF向量化后的文本比较和推荐系统中。在PPI网络中使用随机游走生成的节点向量时比较向量相似性通常更适合使用余弦距离。原因如下 向量的方向更重要 在PPI网络中随机游走生成的向量反映了节点之间的拓扑结构和邻接关系。此时向量的方向即节点在网络中的相对位置往往比向量的绝对大小更重要。余弦距离衡量的是向量之间的夹角即方向上的相似性而不考虑向量的长度。因此适用于比较基于网络拓扑生成的向量。 降低向量长度的影响 PPI网络中的节点连接数度可能会有较大差异导致生成的向量大小不同。余弦距离在这种情况下可以消除向量长度对相似性计算的影响只比较向量的方向。欧氏距离会受到向量长度的影响如果节点度数差异较大使用欧氏距离可能会导致相似性评估不准确。 在网络嵌入应用中的常用做法 在大多数基于图嵌入的应用中如Node2Vec、DeepWalk等余弦相似度是常见的选择。它在衡量网络节点的相似性时表现更为稳定。
5. Jaccard相似度Jaccard similarity
衡量两个集合之间的相似性计算公式为两个集合交集的大小除以并集的大小。取值范围为[0, 1]1表示完全相似0表示完全不同。常用于集合相似性比较如文本、标签或分类数据的比较。