县城做信息网站赚不赚钱,wordpress++优化,网站建设与管理案例教程ppt,泰安市人才市场数据分析是现代企业和科研中不可或缺的一部分#xff0c;而统计学是数据分析的基石。在本篇博客中#xff0c;我们将介绍统计学的基础知识#xff0c;涵盖数据类型、描述性统计#xff08;集中趋势、离散程度和偏差程度#xff09;#xff0c;并通过代码实例加以说明。
…数据分析是现代企业和科研中不可或缺的一部分而统计学是数据分析的基石。在本篇博客中我们将介绍统计学的基础知识涵盖数据类型、描述性统计集中趋势、离散程度和偏差程度并通过代码实例加以说明。
一、数据三大类型
在统计分析中数据通常分为三大类型分类数据、顺序数据和数值数据。
1. 分类数据
分类数据是指那些可以分为不同类别的数据但这些类别之间没有内在顺序。例如性别男、女、颜色红、绿、蓝。
2. 顺序数据
顺序数据是指可以排序的数据但不同类别之间的差异不能被量化。例如评级好、中、差满意度非常满意、满意、不满意。
3. 数值数据
数值数据是指可以量化并具有明确意义的数字数据。这类数据可以进一步分为离散数据如人口数量和连续数据如身高、体重。
二、描述性统计 - 集中趋势
描述性统计的集中趋势指标主要包括众数、中位数、平均数和分位数。
1. 众数
使用场景数据量大识别最常见的类别。
常用数据类型分类数据
import numpy as np
from scipy import statsdata [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5]
mode stats.mode(data)
print(f众数: {mode.mode[0]}, 频数: {mode.count[0]})优点简单直观易于理解。缺点在多众数情况下可能不适用。
2. 中位数
使用场景集中趋势分析
常用数据类型顺序数据、数值数据
median np.median(data)
print(f中位数: {median})优点不受极端值影响。缺点不能利用所有数据。
3. 平均数
分类简单平均数、加权平均数
使用场景数据的均衡点
常用数据类型数值数据
mean np.mean(data)
print(f平均数: {mean})优点利用所有数据计算简单。缺点受极端值影响大。
4. 分位数
使用场景反映数据的集中趋势
常用数据类型数值数据
q1 np.percentile(data, 25)
q3 np.percentile(data, 75)
print(f第一四分位数: {q1}, 第三四分位数: {q3})优点提供数据分布信息。缺点计算复杂。
三、描述性统计 - 离散程度
描述性统计的离散程度指标主要包括异众比率、四分位差、极差、标准差和变异系数。
1. 异众比率
使用场景衡量众数代表性
常用数据类型分类数据
def heterogeneity_ratio(data):mode_count stats.mode(data).count[0]total_count len(data)return 1 - (mode_count / total_count)hr heterogeneity_ratio(data)
print(f异众比率: {hr})优点简单直观。缺点仅适用于分类数据。
2. 四分位差
使用场景反映中间50%的数据离散程度
常用数据类型数值数据
iqr q3 - q1
print(f四分位差: {iqr})优点不受极端值影响。缺点只考虑中间部分数据。
3. 极差
使用场景反映数据范围
常用数据类型数值数据
range_ np.ptp(data)
print(f极差: {range_})优点计算简单。缺点受极端值影响大。
4. 标准差
使用场景数据离散程度
常用数据类型数值数据
std_dev np.std(data)
print(f标准差: {std_dev})优点利用所有数据。缺点受极端值影响。
5. 变异系数
使用场景数据变异程度
常用数据类型数值数据
cv std_dev / mean
print(f变异系数: {cv})优点标准化的离散程度指标。缺点对于均值接近于零的数据不适用。
四、描述性统计 - 偏差程度
1. Z 分数
使用场景统一量级增加可比性
常用数据类型数值数据
z_scores stats.zscore(data)
print(fz-scores: {z_scores})优点标准化数据。缺点需要计算均值和标准差。
2. 协方差和相关系数
使用场景衡量两个变量的关系
常用数据类型数值数据
x [1, 2, 3, 4, 5]
y [2, 4, 6, 8, 10]# 协方差
covariance np.cov(x, y)[0, 1]
print(f协方差: {covariance})# 相关系数
correlation np.corrcoef(x, y)[0, 1]
print(f相关系数: {correlation})优点揭示变量间关系。缺点仅适用于线性关系。
总结通过理解和应用上述统计学基础知识可以帮助我们更好地分析和解释数据提高数据分析的准确性和科学性。希望本篇博客对你有所帮助
交个朋友/找资源/ai办公/技术接单注明来意)