嘉兴企业网站模板,网页设计图片滑动,最近军事新闻,专业团队图片原图一、相关分析基础
#xff08;一#xff09;变量间关系类型 函数关系#xff1a;变量间存在一一对应的确定关系#xff0c;如 y f ( x ) y f(x) yf(x)#xff0c;当 x x x确定时#xff0c; y y y唯一确定。 统计关系#xff08;相关关系#xff09;#xff1a;变…一、相关分析基础
一变量间关系类型 函数关系变量间存在一一对应的确定关系如 y f ( x ) y f(x) yf(x)当 x x x确定时 y y y唯一确定。 统计关系相关关系变量间存在不确定的数量关系一个变量的取值不能由另一个变量唯一确定但按某种规律变化如商品需求量与价格的关系。
二相关关系的种类
按变量数量 单相关两个变量间的相关关系。 复相关多个变量间的相关关系。
按表现形式 线性相关变量间关系可用直线近似描述。 非线性相关变量间关系需用曲线描述。
按变化方向 正相关变量间变化趋势相同。 负相关变量间变化趋势相反。
三相关系数
总体相关系数ρ度量两随机变量线性关系密切程度公式为 ρ C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρVar(X)Var(Y) Cov(X,Y)
其中 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)为协方差 V a r ( X ) Var(X) Var(X)、 V a r ( Y ) Var(Y) Var(Y)为方差。
样本相关系数r总体相关系数的估计量公式为 r ∑ i 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i 1 n ( X i − X ˉ ) 2 ∑ i 1 n ( Y i − Y ˉ ) 2 r \frac{\sum_{i1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i1}^{n}(X_i - \bar{X})^2\sum_{i1}^{n}(Y_i - \bar{Y})^2}} r∑i1n(Xi−Xˉ)2∑i1n(Yi−Yˉ)2 ∑i1n(Xi−Xˉ)(Yi−Yˉ)
性质 r r r与回归系数 b 1 b_1 b1符号相同因分子相同且分母恒正。
相关系数的特点 ∣ r ∣ ≤ 1 |r| \leq 1 ∣r∣≤1。 r 0 r0 r0时变量间无线性相关关系。 0 ∣ r ∣ 1 0 |r| 1 0∣r∣1时存在不同程度的线性相关 r 0 r0 r0正相关 r 0 r0 r0负相关。 ∣ r ∣ 1 |r|1 ∣r∣1时变量间完全线性相关。
相关系数的经验解释 ∣ r ∣ ≥ 0.8 |r| \geq 0.8 ∣r∣≥0.8高度相关。 0.5 ≤ ∣ r ∣ 0.8 0.5 \leq |r| 0.8 0.5≤∣r∣0.8中度相关。 0.3 ≤ ∣ r ∣ 0.5 0.3 \leq |r| 0.5 0.3≤∣r∣0.5低度相关。 ∣ r ∣ 0.3 |r| 0.3 ∣r∣0.3相关性极弱。
四相关系数的注意事项 X X X和 Y Y Y是对称的随机变量。 仅反映线性相关程度不反映非线性关系。 不能确定变量间的因果关系。
二、一元线性回归模型
一模型基本假设与使用前提
线性关系假设因变量 Y Y Y与自变量 X X X之间存在线性统计关系即总体回归函数为 E ( Y ) β 0 β 1 X E(Y) \beta_0 \beta_1X E(Y)β0β1X。
检验绘制散点图观察数据分布趋势。
变量类型要求 自变量 X X X可以是确定性变量或随机变量需与误差项不相关。 因变量 Y Y Y连续型随机变量。
误差项的统计假设 正态性 ε i ∼ N ( 0 , σ 2 ) \varepsilon_i \sim N(0, \sigma^2) εi∼N(0,σ2)即 Y i ∼ N ( β 0 β 1 X i , σ 2 ) Y_i \sim N(\beta_0 \beta_1X_i, \sigma^2) Yi∼N(β0β1Xi,σ2)。 独立性 C o v ( ε i , ε j ) 0 ( i ≠ j ) Cov(\varepsilon_i, \varepsilon_j) 0 \ (i \neq j) Cov(εi,εj)0 (ij)。 同方差性 V a r ( ε i ) σ 2 Var(\varepsilon_i) \sigma^2 Var(εi)σ2对所有 i i i成立。
数据质量要求 样本代表性随机独立抽样。 无异常值残差 e i Y i − Y ^ i e_i Y_i - \hat{Y}_i eiYi−Y^i的绝对值不能过大通常 ∣ e i ∣ 3 s |e_i| 3s ∣ei∣3s视为异常。 样本量 n 2 n 2 n2建议 n ≥ 30 n \geq 30 n≥30以保证统计推断可靠性。
二模型构建与参数估计 模型形式 Y i β 0 β 1 X i ε i Y_i \beta_0 \beta_1X_i \varepsilon_i Yiβ0β1Xiεi其中 ε i \varepsilon_i εi为随机误差项反映未被 X X X解释的随机波动。 最小二乘估计OLS 目标使误差平方和 Q ∑ i 1 n ( Y i − Y ^ i ) 2 ∑ i 1 n ( Y i − b 0 − b 1 X i ) 2 Q \sum_{i1}^{n}(Y_i - \hat{Y}_i)^2 \sum_{i1}^{n}(Y_i - b_0 - b_1X_i)^2 Q∑i1n(Yi−Y^i)2∑i1n(Yi−b0−b1Xi)2最小。 估计公式 b 1 ∑ i 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i 1 n ( X i − X ˉ ) 2 , b 0 Y ˉ − b 1 X ˉ b_1 \frac{\sum_{i1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i1}^{n}(X_i - \bar{X})^2}, \quad b_0 \bar{Y} - b_1\bar{X} b1∑i1n(Xi−Xˉ)2∑i1n(Xi−Xˉ)(Yi−Yˉ),b0Yˉ−b1Xˉ 系数解释 b 1 b_1 b1斜率系数表示 X X X每增加 1 个单位 Y Y Y的平均变化量如收入每增加 100 元消费平均增加 62.39 元。 b 0 b_0 b0截距系数表示 X 0 X0 X0时 Y Y Y的理论值需结合实际意义判断是否有解释价值。
估计量特性 线性性 b 0 b_0 b0、 b 1 b_1 b1是 Y i Y_i Yi的线性组合。 无偏性 E ( b 0 ) β 0 E(b_0) \beta_0 E(b0)β0 E ( b 1 ) β 1 E(b_1) \beta_1 E(b1)β1。 有效性在满足假设时OLS 估计量是最优线性无偏估计量BLUE。
三引例分析
问题10 个厂家的投入 X X X和产出 Y Y Y数据如下分析相关性并建立回归方程。
厂家 1 2 3 4 5 6 7 8 9 10 投入 20 40 20 30 10 10 20 20 20 30 产出 30 60 40 60 30 40 40 50 30 70
步骤 计算基础数据 X ˉ 22 \bar{X} 22 Xˉ22 Y ˉ 42 \bar{Y} 42 Yˉ42 ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) 510 \sum(X_i - \bar{X})(Y_i - \bar{Y}) 510 ∑(Xi−Xˉ)(Yi−Yˉ)510 ∑ ( X i − X ˉ ) 2 440 \sum(X_i - \bar{X})^2 440 ∑(Xi−Xˉ)2440。 回归系数 b 1 510 440 ≈ 1.1818 b_1 \frac{510}{440} \approx 1.1818 b1440510≈1.1818 b 0 42 − 1.1818 × 22 ≈ 15.8004 b_0 42 - 1.1818 \times 22 \approx 15.8004 b042−1.1818×22≈15.8004。 回归方程 Y ^ 15.8004 1.1818 X \hat{Y} 15.8004 1.1818X Y^15.80041.1818X。 残差计算如厂家 1 的残差 e 1 30 − ( 15.8004 1.1818 × 20 ) ≈ − 12.836 e_1 30 - (15.8004 1.1818 \times 20) \approx -12.836 e130−(15.80041.1818×20)≈−12.836残差反映观测值与预测值的偏差。
三、回归模型的检验
一总平方和分解 总离差平方和SSTO S S T O ∑ i 1 n ( Y i − Y ˉ ) 2 SSTO \sum_{i1}^{n}(Y_i - \bar{Y})^2 SSTO∑i1n(Yi−Yˉ)2反映 Y Y Y的总变动程度。 回归平方和SSR S S R ∑ i 1 n ( Y ^ i − Y ˉ ) 2 SSR \sum_{i1}^{n}(\hat{Y}_i - \bar{Y})^2 SSR∑i1n(Y^i−Yˉ)2反映 X X X对 Y Y Y的解释变动。 误差平方和SSE S S E ∑ i 1 n ( Y i − Y ^ i ) 2 SSE \sum_{i1}^{n}(Y_i - \hat{Y}_i)^2 SSE∑i1n(Yi−Y^i)2反映随机因素引起的变动。 关键关系 S S T O S S R S S E SSTO SSR SSE SSTOSSRSSE体现回归模型对总变动的分解能力。
二拟合优度检验样本确定系数 r 2 r^2 r2 公式 r 2 S S R S S T O r^2 \frac{SSR}{SSTO} r2SSTOSSR表示 Y Y Y的总变差中被 X X X解释的比例。 取值范围 0 ≤ r 2 ≤ 1 0 \leq r^2 \leq 1 0≤r2≤1 r 2 r^2 r2越接近 1模型拟合效果越好。 与相关系数的关系 r 2 ( æ ⋅ æœ ¬ c \c ›¸ a ˚ 3 c \c 3 »æ• ° r ) 2 r^2 (æ ·æœ¬ç›¸å ³ç³»æ•°r)^2 r2(æ⋅本c\c›¸a˚3c\c3»æ•°r)2即确定系数是相关系数的平方反映线性关系的解释力度。
三显著性检验
F 检验回归方程显著性检验 假设 H 0 : β 1 0 H_0: \beta_1 0 H0:β10 X X X与 Y Y Y无线性关系 H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β10。 统计量 F S S R / 1 S S E / ( n − 2 ) M S R M S E F \frac{SSR/1}{SSE/(n-2)} \frac{MSR}{MSE} FSSE/(n−2)SSR/1MSEMSR其中 M S R S S R 1 MSR \frac{SSR}{1} MSR1SSR M S E S S E n − 2 MSE \frac{SSE}{n-2} MSEn−2SSE。 决策规则若 F F α ( 1 , n − 2 ) F F_{\alpha}(1, n-2) FFα(1,n−2)拒绝 H 0 H_0 H0表明回归方程显著。
t 检验回归系数显著性检验 假设 H 0 : β 1 0 H_0: \beta_1 0 H0:β10 H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β10。 统计量 t b 1 s ( b 1 ) t \frac{b_1}{s(b_1)} ts(b1)b1其中 s ( b 1 ) M S E ∑ i 1 n ( X i − X ˉ ) 2 s(b_1) \sqrt{\frac{MSE}{\sum_{i1}^{n}(X_i - \bar{X})^2}} s(b1)∑i1n(Xi−Xˉ)2MSE 为 b 1 b_1 b1的标准误。 决策规则若 ∣ t ∣ t α / 2 ( n − 2 ) |t| t_{\alpha/2}(n-2) ∣t∣tα/2(n−2)拒绝 H 0 H_0 H0表明 β 1 \beta_1 β1显著非零。
相关系数检验 假设 H 0 : ρ 0 H_0: \rho 0 H0:ρ0 H 1 : ρ ≠ 0 H_1: \rho \neq 0 H1:ρ0。 统计量样本相关系数 r r r。 决策规则若 ∣ r ∣ r α ( n − 2 ) |r| r_{\alpha}(n-2) ∣r∣rα(n−2)拒绝 H 0 H_0 H0表明变量间线性相关显著。
四模型适合性分析 残差定义 e i Y i − Y ^ i e_i Y_i - \hat{Y}_i eiYi−Y^i是观测值与预测值的差反映模型未解释的部分。 异方差性检验 现象残差图呈现发散 / 收敛趋势如 PPT 图 9-10表明误差项方差非恒定。 处理加权最小二乘法WLS如使用权重 w i 1 / X i w_i 1/X_i wi1/Xi或对 Y Y Y进行对数、平方根变换。
自相关性检验 现象时间序列数据中残差图呈现周期性或趋势性如 PPT 图 9-11、9-12表明误差项不独立。 处理加入滞后项构建自回归模型如 Y t β 0 β 1 X t ρ Y t − 1 ε t Y_t \beta_0 \beta_1X_t \rho Y_{t-1} \varepsilon_t Ytβ0β1XtρYt−1εt或使用广义差分法。
异常值检测 方法计算标准化残差 e i / s e_i/s ei/s若 ∣ e i / s ∣ 3 |e_i/s| 3 ∣ei/s∣3视为异常值绘制残差散点图偏离较大的点需重点关注。 处理验证数据准确性若为真实异常值可采用稳健回归如最小绝对偏差 LAD减少其影响。
四、因变量预测
一点预测
给定 X 0 X_0 X0预测值为 Y ^ 0 b 0 b 1 X 0 \hat{Y}_0 b_0 b_1X_0 Y^0b0b1X0即直接代入回归方程计算。
二区间预测
在置信度 1 − α 1-\alpha 1−α下 Y 0 Y_0 Y0的置信区间为 Y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s ⋅ 1 1 n ( X 0 − X ˉ ) 2 ∑ i 1 n ( X i − X ˉ ) 2 \hat{Y}_0 \pm t_{\alpha/2}(n-2) \cdot s \cdot \sqrt{1 \frac{1}{n} \frac{(X_0 - \bar{X})^2}{\sum_{i1}^{n}(X_i - \bar{X})^2}} Y^0±tα/2(n−2)⋅s⋅1n1∑i1n(Xi−Xˉ)2(X0−Xˉ)2
其中 s M S E s \sqrt{MSE} sMSE 为残差标准差衡量模型预测误差的平均水平。 1 1 n ( X 0 − X ˉ ) 2 ∑ ( X i − X ˉ ) 2 \sqrt{1 \frac{1}{n} \frac{(X_0 - \bar{X})^2}{\sum(X_i - \bar{X})^2}} 1n1∑(Xi−Xˉ)2(X0−Xˉ)2 为预测误差的放大因子反映 X 0 X_0 X0与样本均值 X ˉ \bar{X} Xˉ的偏离程度。
三案例分析
问题根据 1995-2004 年农村居民人均纯收入 X X X和消费支出 Y Y Y数据预测 X 3500 X3500 X3500元时的 Y Y Y。
已知条件 回归方程 Y ^ 292.8775 0.6239 X \hat{Y} 292.8775 0.6239X Y^292.87750.6239X。 样本统计量 X ˉ 2262.035 \bar{X}2262.035 Xˉ2262.035 ∑ ( X i − X ˉ ) 2 1264471.423 \sum(X_i - \bar{X})^21264471.423 ∑(Xi−Xˉ)21264471.423 M S E 3061.525 MSE3061.525 MSE3061.525 s 3061.525 ≈ 55.33 s \sqrt{3061.525} \approx 55.33 s3061.525 ≈55.33。
步骤 点预测 Y ^ 0 292.8775 0.6239 × 3500 ≈ 2476.41 \hat{Y}_0 292.8775 0.6239 \times 3500 \approx 2476.41 Y^0292.87750.6239×3500≈2476.41元。 区间预测95% 置信度 t 0.025 ( 8 ) 2.306 t_{0.025}(8)2.306 t0.025(8)2.306 n 10 n10 n10。 计算误差项 s ⋅ 1 1 10 ( 3500 − 2262.035 ) 2 1264471.423 ≈ 55.33 × 1.520 ≈ 84.13 s \cdot \sqrt{1 \frac{1}{10} \frac{(3500 - 2262.035)^2}{1264471.423}} \approx 55.33 \times 1.520 \approx 84.13 s⋅11011264471.423(3500−2262.035)2 ≈55.33×1.520≈84.13。 置信区间 2476.41 ± 2.306 × 84.13 2476.41 \pm 2.306 \times 84.13 2476.41±2.306×84.13即 [ 2282.40 , 2670.41 ] [2282.40, 2670.41] [2282.40,2670.41]元。
结论当人均纯收入为 3500 元时有 95% 的概率人均消费支出在 2282.40 元至 2670.41 元之间。
五、模型使用条件不满足的处理
非线性关系 识别散点图呈曲线趋势如抛物线、指数型。 处理 变量变换如指数关系 Y α e β X Y \alpha e^{\beta X} YαeβX可转化为 ln Y ln α β X \ln Y \ln \alpha \beta X lnYlnαβX幂函数关系 Y α X β Y \alpha X^{\beta} YαXβ可转化为 ln Y ln α β ln X \ln Y \ln \alpha \beta \ln X lnYlnαβlnX。 非线性回归直接使用二次函数 Y β 0 β 1 X β 2 X 2 Y \beta_0 \beta_1X \beta_2X^2 Yβ0β1Xβ2X2等非线性模型。
异方差性 处理 加权最小二乘法WLS对误差方差大的观测值赋予较小权重如 w i 1 / X i 2 w_i 1/X_i^2 wi1/Xi2。 数据变换对 Y Y Y取对数 ln Y \ln Y lnY使方差趋于稳定。
自相关性 处理 时间序列模型加入滞后项如 Y t β 0 β 1 X t ρ Y t − 1 ε t Y_t \beta_0 \beta_1X_t \rho Y_{t-1} \varepsilon_t Ytβ0β1XtρYt−1εt一阶自回归模型。 广义差分法消除自相关影响如对于一阶自相关 ε t ρ ε t − 1 u t \varepsilon_t \rho \varepsilon_{t-1} u_t εtρεt−1ut构造差分变量 Y t ∗ Y t − ρ Y t − 1 Y_t^* Y_t - \rho Y_{t-1} Yt∗Yt−ρYt−1 X t ∗ X t − ρ X t − 1 X_t^* X_t - \rho X_{t-1} Xt∗Xt−ρXt−1建立 Y t ∗ β 0 ( 1 − ρ ) β 1 X t ∗ u t Y_t^* \beta_0(1 - \rho) \beta_1X_t^* u_t Yt∗β0(1−ρ)β1Xt∗ut。
异常值 处理 验证数据准确性若为记录错误修正后重新建模。 若为真实异常值采用稳健回归方法如最小绝对偏差LAD估计减少异常值对回归系数的影响。
六、做题技巧与分析流程
一完整分析流程
数据预处理 绘制散点图初步判断 X X X与 Y Y Y是否存在线性趋势。 计算样本相关系数 r r r检验线性相关性是否显著如 H 0 : ρ 0 H_0: \rho 0 H0:ρ0。
模型构建 使用最小二乘法估计回归系数 b 0 b_0 b0、 b 1 b_1 b1建立回归方程 Y ^ b 0 b 1 X \hat{Y} b_0 b_1X Y^b0b1X。 解释系数含义如 b 1 b_1 b1代表 X X X对 Y Y Y的边际影响。
模型检验 计算确定系数 r 2 r^2 r2评估拟合优度。 进行 F 检验和 t 检验验证回归方程和系数的显著性。 绘制残差图检验异方差性、自相关性和异常值。
三公式速查表
项目 公式 样本相关系数 r r r ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum(X_i - \bar{X})^2\sum(Y_i - \bar{Y})^2}} ∑(Xi−Xˉ)2∑(Yi−Yˉ)2 ∑(Xi−Xˉ)(Yi−Yˉ)回归系数 b 1 b_1 b1 ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sum(X_i - \bar{X})^2} ∑(Xi−Xˉ)2∑(Xi−Xˉ)(Yi−Yˉ)确定系数 r 2 r^2 r2 S S R S S T O 1 − S S E S S T O \frac{SSR}{SSTO} 1 - \frac{SSE}{SSTO} SSTOSSR1−SSTOSSEF 统计量 S S R / 1 S S E / ( n − 2 ) \frac{SSR/1}{SSE/(n-2)} SSE/(n−2)SSR/1t 统计量 b 1 b_1 b1 b 1 M S E ∑ ( X i − X ˉ ) 2 \frac{b_1}{\sqrt{\frac{MSE}{\sum(X_i - \bar{X})^2}}} ∑(Xi−Xˉ)2MSE b1预测区间 Y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s ⋅ 1 1 n ( X 0 − X ˉ ) 2 ∑ ( X i − X ˉ ) 2 \hat{Y}_0 \pm t_{\alpha/2}(n-2) \cdot s \cdot \sqrt{1 \frac{1}{n} \frac{(X_0 - \bar{X})^2}{\sum(X_i - \bar{X})^2}} Y^0±tα/2(n−2)⋅s⋅1n1∑(Xi−Xˉ)2(X0−Xˉ)2