当前位置：首页 > news >正文

公司行政负责做网站吗安徽省交通运输厅领导

news 2026/2/26 16:14:51

公司行政负责做网站吗,安徽省交通运输厅领导,站点建设网站,哪个网站做的简历最好大模型chatgpt4分析功能初探目录 1、探测目的 2、目标变量分析 3、特征缺失率处理 4、特征描述性分析 5、异常值分析 6、相关性分析 7、高阶特征挖掘 1、探测目的 1、分析chat4的数据分析能力#xff0c;提高部门人效 2、给数据挖掘提供思路 3、原始数据#xf…大模型chatgpt4分析功能初探目录 1、探测目的 2、目标变量分析 3、特征缺失率处理 4、特征描述性分析 5、异常值分析 6、相关性分析 7、高阶特征挖掘 1、探测目的 1、分析chat4的数据分析能力提高部门人效 2、给数据挖掘提供思路 3、原始数据 https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques 2、目标变量分析要开始我们的分析我们应该检查数据集中的缺失值。探索目标变量 SalePrice 的分布。进行基本的探索性数据分析 (EDA) 以理解特征与目标变量之间的关系。让我们首先检查训练和测试数据集中的缺失值。完成工作展示工作内容以下是训练和测试数据集中各列的缺失值百分比训练数据缺失值最多的前5列 PoolQC 99.52%MiscFeature 96.30%Alley 93.77%Fence 80.75%FireplaceQu 47.26% 测试数据缺失值最多的前5列 PoolQC 99.79%MiscFeature 96.50%Alley 92.67%Fence 80.12%FireplaceQu 50.03% 如 PoolQC 、 MiscFeature 和 Alley 有非常高的缺失值百分比。尽管我们可以考虑删除这些列但它们仍然可能提供有价值的信息。例如 PoolQC 的缺失值可能表示没有游泳池这对模型可能是有信息量的。接下来让我们探索目标变量 SalePrice 的分布以了解其特性。 SalePrice 变量的分布显示它是右偏的大多数房屋的价格处于中低价范围而高价范围的房屋较少。考虑到比赛的评估指标预测值的对数与观测销售价格的对数之间的RMSE使用对数变换转换 SalePrice 会更有利使其分布更加正常。这种转换还可以帮助提高基于线性回归的模型的性能。让我们可视化对数变换后的 SalePrice 的分布来确认这一点。 Show work import numpy as np# Apply a logarithmic transformation to SalePrice log_saleprice np.log1p(train_data[SalePrice])# Plot the distribution of the transformed SalePrice plt.figure(figsize(12, 6)) sns.histplot(log_saleprice, kdeTrue, bins30) plt.title(Distribution of Log-transformed SalePrice) plt.xlabel(Log-transformed SalePrice) plt.ylabel(Frequency) plt.show() 对数变换使得 SalePrice 的分布看起来更加正态化钟形。这种变换可能会提高我们模型的性能特别是如果我们决定使用基于线性回归的方法。根据这些信息我们接下来的步骤可能包括处理缺失值。进行特征工程和变换。构建和评估各种回归模型。对模型进行微调以获得最佳性能。 3、特征缺失率处理处理缺失值的策略 : 高缺失率的列例如 90% 由于这些列的稀疏性它们可能不会增加太多价值。但在决定删除它们之前我们需要确定缺失值本身是否带有信息。例如 PoolQC 中的缺失值可能表示没有游泳池这可能是有信息量的。数值列这些可以使用中位数或均值进行估计。我们通常使用中位数因为它对异常值更为稳健。分类列缺失值可以用一个新的类别替换例如None或Missing。这样模型仍然可以使用这些信息。现在让我们为训练和测试数据集中每个带有缺失值的列定义一个策略。 # Define strategies for handling missing values strategies {}# Columns with a high missing rate high_missing [PoolQC, MiscFeature, Alley, Fence] for col in high_missing:strategies[col] Fill with None - likely indicates absence of feature.# Numerical columns numerical_cols train_data.select_dtypes(include[np.number]).columns for col in numerical_cols:if col in train_missing or col in test_missing:strategies[col] Impute with median - robust to outliers.# Categorical columns categorical_cols train_data.select_dtypes(exclude[np.number]).columns for col in categorical_cols:if col in train_missing or col in test_missing:strategies[col] Fill with None - new category for missing values.# Display the strategies strategies 这是我们为每个带有缺失值的列设计的策略高缺失率的列例如 PoolQC 、 MiscFeature 、 Alley 、 Fence 填充为None。这基于一个假设即信息的缺失很可能表示该特性本身的缺失。数值列例如 LotFrontage 、 MasVnrArea 使用该列的中位数进行估计。使用中位数是因为它对异常值更为稳健。分类列例如 MSZoning 、 Utilities 填充为None这将作为表示缺失值的新类别。现在让我们将这些策略应用到训练和测试数据集中。 # Apply the strategies to handle missing values# Handle high missing rate columns for col in high_missing:train_data[col].fillna(None, inplaceTrue)test_data[col].fillna(None, inplaceTrue)# Handle numerical columns for col in numerical_cols:if col in train_missing or col in test_missing:median_value train_data[col].median() # Calculate median using train data onlytrain_data[col].fillna(median_value, inplaceTrue)test_data[col].fillna(median_value, inplaceTrue)# Handle categorical columns for col in categorical_cols:if col in train_missing or col in test_missing:train_data[col].fillna(None, inplaceTrue)test_data[col].fillna(None, inplaceTrue)# Check if there are any remaining missing values train_missing_final train_data.isnull().sum().max() test_missing_final test_data.isnull().sum().max()train_missing_final, test_missing_final 在训练和测试数据集中的所有缺失值都已成功处理。现在两个数据集中都没有缺失值。您想继续进行更深入的探索性数据分析、特征工程还是直接开始构建模型 3、特征描述性分析问题结合上文使用中文解答使用修改后的数据对train表进行统计描述分析摘要统计描述分析可以为我们提供数据集中每个特征的中心趋势、分散和形状的概述。接下来我将为修改后的 train 数据集生成描述性统计摘要。这包括均值、标准偏差、最小值、25%分位数、中位数、75%分位数和最大值。 # Generate descriptive statistics summary for the train dataset train_summary train_data.describe().transpose()train_summaryRESULTcount mean std min 25% \ Id 1460.0 730.500000 421.610009 1.0 365.75 MSSubClass 1460.0 56.897260 42.300571 20.0 20.00 LotFrontage 1460.0 69.863699 22.027677 21.0 60.00 LotArea 1460.0 10516.828082 9981.264932 1300.0 7553.50 OverallQual 1460.0 6.099315 1.382997 1.0 5.00 OverallCond 1460.0 5.575342 1.112799 1.0 5.00 YearBuilt 1460.0 1971.267808 30.202904 1872.0 1954.00 YearRemodAdd 1460.0 1984.865753 20.645407 1950.0 1967.00 MasVnrArea 1460.0 103.117123 180.731373 0.0 0.00 BsmtFinSF1 1460.0 443.639726 456.098091 0.0 0.00 BsmtFinSF2 1460.0 46.549315 161.319273 0.0 0.00 BsmtUnfSF 1460.0 567.240411 441.866955 0.0 223.00 TotalBsmtSF 1460.0 1057.429452 438.705324 0.0 795.75 1stFlrSF 1460.0 1162.626712 386.587738 334.0 882.00 2ndFlrSF 1460.0 346.992466 436.528436 0.0 0.00 LowQualFinSF 1460.0 5.844521 48.623081 0.0 0.00 GrLivArea 1460.0 1515.463699 525.480383 334.0 1129.50 BsmtFullBath 1460.0 0.425342 0.518911 0.0 0.00 BsmtHalfBath 1460.0 0.057534 0.238753 0.0 0.00 FullBath 1460.0 1.565068 0.550916 0.0 1.00 HalfBath 1460.0 0.382877 0.502885 0.0 0.00 BedroomAbvGr 1460.0 2.866438 0.815778 0.0 2.00 KitchenAbvGr 1460.0 1.046575 0.220338 0.0 1.00 TotRmsAbvGrd 1460.0 6.517808 1.625393 2.0 5.00 Fireplaces 1460.0 0.613014 0.644666 0.0 0.00 GarageYrBlt 1460.0 1978.589041 23.997022 1900.0 1962.00 GarageCars 1460.0 1.767123 0.747315 0.0 1.00 GarageArea 1460.0 472.980137 213.804841 0.0 334.50 WoodDeckSF 1460.0 94.244521 125.338794 0.0 0.00 OpenPorchSF 1460.0 46.660274 66.256028 0.0 0.00 EnclosedPorch 1460.0 21.954110 61.119149 0.0 0.00 3SsnPorch 1460.0 3.409589 29.317331 0.0 0.00 ScreenPorch 1460.0 15.060959 55.757415 0.0 0.00 PoolArea 1460.0 2.758904 40.177307 0.0 0.00 MiscVal 1460.0 43.489041 496.123024 0.0 0.00 MoSold 1460.0 6.321918 2.703626 1.0 5.00 YrSold 1460.0 2007.815753 1.328095 2006.0 2007.00 SalePrice 1460.0 180921.195890 79442.502883 34900.0 129975.00 50% 75% max Id 730.5 1095.25 1460.0 MSSubClass 50.0 70.00 190.0 LotFrontage 69.0 79.00 313.0 LotArea 9478.5 11601.50 215245.0 OverallQual 6.0 7.00 10.0 OverallCond 5.0 6.00 9.0 YearBuilt 1973.0 2000.00 2010.0 YearRemodAdd 1994.0 2004.00 2010.0 MasVnrArea 0.0 164.25 1600.0 BsmtFinSF1 383.5 712.25 5644.0 BsmtFinSF2 0.0 0.00 1474.0 BsmtUnfSF 477.5 808.00 2336.0 TotalBsmtSF 991.5 1298.25 6110.0 1stFlrSF 1087.0 1391.25 4692.0 2ndFlrSF 0.0 728.00 2065.0 LowQualFinSF 0.0 0.00 572.0 GrLivArea 1464.0 1776.75 5642.0 BsmtFullBath 0.0 1.00 3.0 BsmtHalfBath 0.0 0.00 2.0 FullBath 2.0 2.00 3.0 HalfBath 0.0 1.00 2.0 BedroomAbvGr 3.0 3.00 8.0 KitchenAbvGr 1.0 1.00 3.0 TotRmsAbvGrd 6.0 7.00 14.0 Fireplaces 1.0 1.00 3.0 GarageYrBlt 1980.0 2001.00 2010.0 GarageCars 2.0 2.00 4.0 GarageArea 480.0 576.00 1418.0 WoodDeckSF 0.0 168.00 857.0 OpenPorchSF 25.0 68.00 547.0 EnclosedPorch 0.0 0.00 552.0 3SsnPorch 0.0 0.00 508.0 ScreenPorch 0.0 0.00 480.0 PoolArea 0.0 0.00 738.0 MiscVal 0.0 0.00 15500.0 MoSold 6.0 8.00 12.0 YrSold 2008.0 2009.00 2010.0 SalePrice 163000.0 214000.00 755000.0 以下是对训练数据集的描述性统计摘要 Id : 这是一个连续的整数从1到1460代表每个房屋的唯一标识。MSSubClass : 这是关于住宅类型的数据其平均值为56.9最小值为20最大值为190。LotFrontage : 表示与物业相连的街道的线性英尺。平均值为69.9中位数为69有些房屋与街道的连接超过300英尺。OverallQual : 表示房屋的整体材料和成品质量它是一个从1到10的评分平均评分为6.1。YearBuilt : 这是房屋建成的年份最早的房屋建于1872年最新的房屋建于2010年。GrLivArea : 表示地上居住面积的平方英尺。平均值为1515.5平方英尺中位数为1464平方英尺有些房屋的面积超过5600平方英尺。SalePrice : 这是我们的目标变量表示房屋的销售价格。其平均值为$180,921中位数为$163,000价格范围从$34,900到$755,000。 4、异常值分析问题结合上文使用修改后的数据对train表进行异常值分析和处理分别给出每列数据的处理方法和原因以下是我们进行异常值分析和处理的策略可视化方法对于关键特征我们可以使用箱线图和散点图来识别潜在的异常值。统计方法可以使用像IQR四分位数范围这样的方法来确定异常值的范围。对于本竞赛我们将重点关注与 SalePrice 目标变量高度相关的特征因为它们对模型性能的影响最大。让我们首先计算与 SalePrice 的相关性以确定哪些特征最相关。然后我们将针对这些特征进行异常值分析。 # Calculate the correlation of all features with SalePrice correlation train_data.corr()[SalePrice].sort_values(ascendingFalse)# Take the top 10 most positively correlated features (excluding SalePrice itself) top_correlated_features correlation.index[1:11]top_correlated_features, correlation[top_correlated_features](Index([OverallQual, GrLivArea, GarageCars, GarageArea, TotalBsmtSF,1stFlrSF, FullBath, TotRmsAbvGrd, YearBuilt, YearRemodAdd],dtypeobject),OverallQual 0.790982GrLivArea 0.708624GarageCars 0.640409GarageArea 0.623431TotalBsmtSF 0.6135811stFlrSF 0.605852FullBath 0.560664TotRmsAbvGrd 0.533723YearBuilt 0.522897YearRemodAdd 0.507101Name: SalePrice, dtype: float64) 以下是与 SalePrice 最相关的前10个特征及其相关性值 OverallQual : 0.79 - 描述房屋的整体材料和完成质量。GrLivArea : 0.71 - 地上居住面积的平方英尺。GarageCars : 0.64 - 车库容纳的车辆数量。GarageArea : 0.62 - 车库的大小以平方英尺为单位。TotalBsmtSF : 0.61 - 地下室的总面积。1stFlrSF : 0.61 - 第一层的面积。FullBath : 0.56 - 地上的全浴室数量。TotRmsAbvGrd : 0.53 - 地上的房间总数不包括浴室。YearBuilt : 0.52 - 原始建造日期。YearRemodAdd : 0.51 - 重新模型日期。接下来我们将使用散点图对这些特征进行可视化以识别潜在的异常值。 # Visualize the top correlated features using scatter plots plt.figure(figsize(20, 15))for i, feature in enumerate(top_correlated_features, 1):plt.subplot(3, 4, i)sns.scatterplot(datatrain_data, xfeature, ySalePrice)plt.title(fSalePrice vs {feature})plt.xlabel(feature)plt.ylabel(SalePrice)plt.tight_layout() plt.show() 通过散点图我们可以观察到以下潜在的异常值 GrLivArea : 有两个点它们的地上居住面积非常大但其销售价格相对较低。这些可能是异常值。TotalBsmtSF : 有一个点它的地下室面积非常大但销售价格并不高。1stFlrSF : 类似地有一个点的一楼面积非常大但销售价格较低。异常值处理策略 GrLivArea : 删除那些地上居住面积大于4000平方英尺但销售价格低于$300,000的房屋。TotalBsmtSF : 删除地下室面积大于5000平方英尺的房屋。1stFlrSF : 删除一楼面积大于4000平方英尺的房屋。现在我们将根据上述策略处理这些异常值。 # Handle outliers based on the observations# GrLivArea train_data train_data.drop(train_data[(train_data[GrLivArea] 4000) (train_data[SalePrice] 300000)].index)# TotalBsmtSF train_data train_data.drop(train_data[train_data[TotalBsmtSF] 5000].index)# 1stFlrSF train_data train_data.drop(train_data[train_data[1stFlrSF] 4000].index)# Check the shape of the train data after removing outliers train_data.shape 经过异常值处理后训练数据集中现有1458个观测值和81个特征。原始数据集中的几个潜在异常值已被成功删除。异常值处理是一个迭代过程。在建模和验证模型性能时可能还需要进一步分析和处理其他异常值。 5、数据分布分析问题结合上文使用修改后的数据对train表进行数据分布分析和处理分别给出每列数据的处理方法和原因数据分布分析对于确保模型的准确性和鲁棒性非常重要尤其是当我们使用假设输入特征为正态分布的模型如线性回归时。数据分布分析策略正态性检验首先我们可以使用可视化方法如直方图或Q-Q图以及统计测试如Shapiro-Wilk测试来检查数据的分布。对数转换对于偏斜的数据我们可以考虑使用对数转换或其他转换来使其接近正态分布。标准化/归一化此外对于某些模型我们可能还需要对数据进行标准化或归一化以确保所有特征都在相同的尺度上。首先我们将使用直方图来可视化训练数据中与 SalePrice 最相关的前10个特征的分布。这将帮助我们确定哪些特征可能需要进一步处理。 # Visualize the distribution of the top correlated features using histograms plt.figure(figsize(20, 15))for i, feature in enumerate(top_correlated_features, 1):plt.subplot(3, 4, i)sns.histplot(train_data[feature], kdeTrue, bins30)plt.title(fDistribution of {feature})plt.xlabel(feature)plt.ylabel(Frequency) plt.tight_layout() plt.show() 从直方图中我们可以观察到以下特征的数据分布 OverallQual : 这是一个序数特征表示房屋的整体质量。其分布呈现多模式特征。GrLivArea , TotalBsmtSF , 1stFlrSF : 这些特征都是表示面积的连续特征它们的分布呈现右偏。GarageCars : 这是一个离散特征表示车库的容量。大部分房屋有2辆车的车库。GarageArea : 这是一个连续特征表示车库的面积其分布也呈现右偏。FullBath : 这是一个离散特征表示地上的全浴室数量。TotRmsAbvGrd : 这是一个离散特征表示地上的房间总数。YearBuilt YearRemodAdd : 这些是表示年份的特征它们的分布显示了不同的模式但不是正态分布。处理策略连续特征如 GrLivArea , TotalBsmtSF , 1stFlrSF , GarageArea : 由于它们的分布呈现右偏我们可以考虑对它们进行对数转换以使其分布更接近正态分布。离散特征和序数特征如 OverallQual , GarageCars , FullBath , TotRmsAbvGrd : 通常不需要进行转换但我们可以进一步对它们进行编码或转换以便于模型处理。年份特征 YearBuilt , YearRemodAdd : 考虑到它们表示年份我们可以将它们转换为“年龄”或“自上次翻新以来的年数”这可能与 SalePrice 有更强的关联。现在我们将根据上述策略对这些特征进行处理。 # Apply log transformation to the skewed features skewed_features [GrLivArea, TotalBsmtSF, 1stFlrSF, GarageArea]for feature in skewed_features:# Apply log transformation, adding 1 to handle cases where value is 0train_data[feature] np.log1p(train_data[feature])# Convert year features to age related features train_data[Age] train_data[YrSold] - train_data[YearBuilt] train_data[YearsSinceRemod] train_data[YrSold] - train_data[YearRemodAdd]# Drop original year columns train_data.drop([YearBuilt, YearRemodAdd], axis1, inplaceTrue)# Visualize the transformed features plt.figure(figsize(20, 15))# Plotting the transformed skewed features for i, feature in enumerate(skewed_features, 1):plt.subplot(3, 4, i)sns.histplot(train_data[feature], kdeTrue, bins30)plt.title(fDistribution of {feature})# Plotting the new age features new_age_features [Age, YearsSinceRemod] for i, feature in enumerate(new_age_features, 1):plt.subplot(3, 4, i 4)sns.histplot(train_data[feature], kdeTrue, bins30)plt.title(fDistribution of {feature})plt.tight_layout() plt.show() 经过处理后以下是特征的新分布 GrLivArea , TotalBsmtSF , 1stFlrSF , GarageArea : 通过对数转换这些特征的分布现在更接近正态分布。Age : 表示自建房以来的年数。大部分的房屋都是在近50年内建造的。YearsSinceRemod : 表示自上次翻新以来的年数。大部分房屋在过去25年内进行过翻新。对于其他未在此列表中的特征考虑到我们有多个特征我们可能需要基于模型的反馈进行进一步的处理。例如如果某个特征在模型训练中表现得非常糟糕我们可以考虑进行进一步的转换或删除。 5、相关性分析问题结合上文使用修改后的数据对train表进行相关分析和处理分别给出每列数据的处理方法和原因相关分析是为了检查特征与目标变量之间以及特征与特征之间的关系。这有助于我们确定哪些特征与目标变量最相关以及是否存在多重共线性问题即两个或多个特征之间高度相关。处理策略特征与目标变量之间的相关性我们可以检查每个特征与 SalePrice 的相关性。高度相关的特征可能对模型预测非常有用。特征与特征之间的相关性如果两个特征之间存在高度相关性我们可以考虑删除其中一个以避免多重共线性问题。处理方法保留与 SalePrice 高度相关的特征。从高度相关的特征对中删除其中一个。首先我们将计算所有特征与 SalePrice 的相关性并检查特征之间的相关性。 # Calculate the correlation matrix correlation_matrix train_data.corr()# Get the correlation of all features with SalePrice saleprice_corr correlation_matrix[SalePrice].sort_values(ascendingFalse)# Get the pairs of features with correlation greater than 0.8 high_corr_pairs correlation_matrix.abs().unstack().sort_values(ascendingFalse) high_corr_pairs high_corr_pairs[(high_corr_pairs 0.8) (high_corr_pairs 1)]saleprice_corr, high_corr_pairs(SalePrice 1.000000OverallQual 0.795774GrLivArea 0.702933GarageCars 0.6410471stFlrSF 0.598540FullBath 0.562165TotRmsAbvGrd 0.537769MasVnrArea 0.477810Fireplaces 0.469862GarageYrBlt 0.467413BsmtFinSF1 0.409384GarageArea 0.371948LotFrontage 0.352688TotalBsmtSF 0.326639WoodDeckSF 0.324758OpenPorchSF 0.3211422ndFlrSF 0.320532HalfBath 0.284590LotArea 0.268179BsmtFullBath 0.228459BsmtUnfSF 0.214460BedroomAbvGr 0.168245ScreenPorch 0.111415PoolArea 0.099490MoSold 0.0461243SsnPorch 0.044568BsmtFinSF2 -0.011422BsmtHalfBath -0.016881MiscVal -0.021203Id -0.021673LowQualFinSF -0.025625YrSold -0.028882OverallCond -0.077948MSSubClass -0.084276EnclosedPorch -0.128646KitchenAbvGr -0.135946YearsSinceRemod -0.509706Age -0.524067Name: SalePrice, dtype: float64,GrLivArea TotRmsAbvGrd 0.822983TotRmsAbvGrd GrLivArea 0.822983dtype: float64) 以下是与 SalePrice 相关性的结果 OverallQual : 0.80 - 房屋的整体材料和完成质量与销售价格高度相关。GrLivArea : 0.70 - 地上居住面积与销售价格有很强的正相关性。GarageCars : 0.64 - 车库大小按车数量计与销售价格有很强的正相关性。 … 以此类推。此外我们还发现了一对特征之间的高度相关性 GrLivArea 和 TotRmsAbvGrd : 相关性为0.82。这意味着这两个特征之间存在高度相关性因此我们可能只需要其中一个。处理策略保留与 SalePrice 高度相关的特征。从 GrLivArea 和 TotRmsAbvGrd 中选择一个。考虑到 GrLivArea 与 SalePrice 的相关性更高我们可以保留 GrLivArea 并删除 TotRmsAbvGrd 。现在我们将按照上述策略对数据进行处理。 # Drop the TotRmsAbvGrd feature due to its high correlation with GrLivArea train_data.drop([TotRmsAbvGrd], axis1, inplaceTrue)# Check the shape of the train data after dropping the feature train_data.shape 处理后训练数据集现有1458个观测值和80个特征。我们已经成功删除了与GrLivArea高度相关的TotRmsAbvGrd特征。样的处理有助于避免多重共线性问题这可能会影响某些模型的性能。对于其他特征如果模型的性能没有达到预期我们可能需要进一步的相关分析。 6、预测性分析 chat4内存不够计算不出来。 7、高阶特征挖掘问题结合上文列举出30个新的组合特征包含10个高阶特征20个普通组合特征组合特征的组合思路和物理含义是什么使用表格展示内存不够导致算不出来好的根据您的要求我会列出这些组合特征及其物理含义。但由于我们在实际创建和评估这些特征时遇到了内存问题所以我将只为您提供这些特征的描述和物理含义。高阶组合特征 (10个特征) GrLivArea*OverallQual 组合思路将居住面积与房屋整体质量相乘。物理含义考虑居住面积和整体质量的共同影响。 TotalBsmtSF/1stFlrSF 组合思路地下室的总面积与第一层的面积的比例。物理含义比较地下室和第一层的大小。 YearBuilt*OverallQual 组合思路建造年份与房屋整体质量的乘积。物理含义考虑建造年份和整体质量的共同影响。 GrLivArea-TotRmsAbvGrd 组合思路居住面积减去地上的房间数量。物理含义每个房间的平均居住面积。 BsmtFinSF1/BsmtFinType1 组合思路完成的地下室面积与地下室完成质量的比例。物理含义完成的地下室的平均质量。 GarageArea*GarageCars 组合思路车库面积与车库的车辆容量的乘积。物理含义每辆车的平均车库面积。 1stFlrSF*2ndFlrSF 组合思路第一层和第二层的面积的乘积。物理含义两层的总面积。 Fireplaces*FireplaceQu 组合思路壁炉数量与壁炉质量的乘积。物理含义所有壁炉的总质量。 MasVnrArea*MasVnrType 组合思路砌体饰面面积与砌体饰面类型的乘积。物理含义考虑砌体饰面的总面积和类型。 OverallCond*ExterCond 组合思路房屋整体状况和外部材料状况的乘积。物理含义整体和外部的综合状况。普通组合特征 (20个特征) GrLivAreaLotArea 组合思路居住面积和占地面积的总和。物理含义总的使用面积。 BsmtFinSF1BsmtFinSF2 组合思路两种类型的完成地下室面积的总和。物理含义完成的地下室总面积。 1stFlrSF2ndFlrSF 组合思路第一层和第二层的面积总和。物理含义两层的总面积。 GarageQualGarageCond 组合思路车库质量和条件的总和。物理含义车库的总体状况。 ExterQualExterCond 组合思路外部材料的质量和状况的总和。物理含义外部的总体状况。 BsmtQualBsmtCond 组合思路地下室的质量和状况的总和。物理含义地下室的总体状况。 BsmtFullBathFullBath 组合思路地下室的全浴室数量和地上的全浴室数量的总和。物理含义全浴室的总数量。 HalfBathBsmtHalfBath 组合思路地下室的半浴室数量和地上的半浴室数量的总和。物理含义半浴室的总数量。 YearBuiltYearRemodAdd 组合思路建造年份和改造年份的总和。物理含义房屋的总年龄和最近一次的改造年份。 YrSold-YearBuilt 组合思路售出年份减去建造年份。物理含义房屋在市场上的年龄。 BsmtUnfSF 组合思路总地下室面积减去完成的地下室面积。物理含义未完成的地下室面积。 GarageCars-GarageArea 组合思路车库的车辆容量减去车库面积。物理含义每辆车的平均车库面积。 OverallQual-OverallCond 组合思路房屋的整体质量减去整体状况。物理含义质量和状况之间的差异。 TotRmsAbvGrd-BedroomAbvGr 组合思路地上的总房间数量减去卧室数量。物理含义除卧室外的房间数量。 GarageYrBlt-YearBuilt 组合思路车库建造年份减去房屋建造年份。物理含义车库是在建造房屋后多久建的。 FireplacesFireplaceQu 组合思路壁炉数量与壁炉质量的总和。物理含义壁炉的总体状况。 LotFrontageLotArea 组合思路与街道接壤的线性脚数与占地面积的总和。物理含义物业的总面积和与街道的接触。 BsmtFinType1BsmtFinType2 组合思路两种类型的地下室完成质量的总和。物理含义地下室的总完成质量。 PoolArea*PoolQC 组合思路泳池面积与泳池质量的乘积。物理含义泳池的总体状况。 FenceLotShape 组合思路围栏质量与物业的形状的总和。物理含义物业的整体外观和私密性。这些特征可以为我们提供更多的信息帮助我们更好地理解与目标变量之间的关系。但请注意不是所有的组合特征都会提供有价值的信息因此在实际应用中需要进行适当的特征选择和评估。

查看全文

http://www.dnsts.com.cn/news/124148.html