当前位置: 首页 > news >正文

做采购常用的几个网站站长工具seo综合查询烟雨楼

做采购常用的几个网站,站长工具seo综合查询烟雨楼,网站建设 枫子科技,住房与城乡建设部网站工程造价这是我的第305篇原创文章。 一、引言 机器学习项目中有可以自动化的标准工作流程。在 Python scikit-learn 中#xff0c;管道有助于明确定义和自动化这些工作流程。使用pipeline后#xff0c;我们每一步的输出都会自动的作为下一个的输入。一套完整的机器学习应用流程如下管道有助于明确定义和自动化这些工作流程。使用pipeline后我们每一步的输出都会自动的作为下一个的输入。一套完整的机器学习应用流程如下 其中特征工程本质是多个转换器以及模型的构建和训练本质是一个估计器可以通过一个流水线管道来实现。根据要解决的问题自定义转换器可以帮助克服预定义转换器无法处理的困难。同时也能够十分灵活的处理列。下面将会使用一些例子来说明它的强大之处。这个例子的目的是让读者熟悉他们可以用来创建转换器和管道的工具这将使他们能够尽可能高效地以任何方式针对任何数据集设计和预处理特征。 二、自定义转换器 2.1 数据提取转换器 该数据集包含分类和数值自变量的混合它们必须通过单独的管道进行适当的预处理然后我们将它们组合在一起。因此两个管道的第一步都必须是提取需要进行预处理的适当列。下面是名为 FeatureSelector 的自定义转换器的代码。此构造函数的转换方法仅提取并返回 Pandas 数据集其中仅包含其名称在其初始化期间作为参数传递给它的那些列。 class FeatureSelector(BaseEstimator, TransformerMixin):# 构造函数传递列参数用于列抽取# 可以加入一些打印信息看看执行的流程def __init__(self, feature_names):self.feature_names feature_names# print(FeatureSelector init exce...)# 返回对象本身def fit(self, X, yNone):# print(FeatureSelector fit exce...)return self# 我们需要重写transform方法def transform(self, X, yNone):# print(FeatureSelector transform exce...)return X[self.feature_names] 2.2 分类管道中的自定义转化器 自定义转换器将在分类管道中处理的功能列表 date 此列中的日期格式为“YYYYMMDDT000000”必须经过清理和处理才能以任何有意义的方式使用。这个转换器的构造函数将允许我们为参数“use_dates”指定一个值列表具体取决于我们是要为年、月和日或这些值的某种组合创建一个单独的列还是简单地完全忽略该列传入一个空列表。通过不对该功能的规范进行硬编码我们可以随时尝试不同的值组合而无需重写代码。 waterfront房子是否是近邻海滨。转换为二进制 - 是或否 view : 房子被查看了多少次。大多数值是 0。其余的值在 1 和 4 之间分布非常稀疏。转换为二进制 — 是或否 yr_renovated : 房子翻新的年份。大部分值都是 0大概是从不而其余的在几年之间的分布非常稀薄。转换为二进制 - 是或否 # 构建自定义的分类列Transformer class CategoricalTransformer(BaseEstimator, TransformerMixin):def __init__(self, use_dates[year, month, day]):self._use_dates use_dates# print(CategoricalTransformer init exce...)def fit(self, X, yNone):return selfdef get_year(self, obj):return str(obj)[:4]def get_month(self, obj):return str(obj)[4:6]def get_day(self, obj):return str(obj)[6:8]def create_binary(self, obj):if obj 0:return Noelse:return Yesdef transform(self, X, yNone):# print(CategoricalTransformer transform exce...)for spec in self._use_dates:exec(X.loc[:,{}] X[date].apply(self.get_{}).format(spec, spec))X X.drop(columns[date], axis1)X.loc[:, view] X[view].apply(self.create_binary)X.loc[:, waterfront] X[waterfront].apply(self.create_binary)X.loc[:, yr_renovated] X[yr_renovated].apply(self.create_binary)return X.values 2.3 数值管道中的自定义转换器 自定义数值转换器在管道中处理的功能列表 bedrooms房子里的卧室数量。照原样通过。 bathrooms: 房子里的浴室数量。这个转换器的构造函数将有一个参数“bath_per_bead”它接受一个布尔值。如果为 True则构造函数将通过计算浴室/卧室来创建一个新列以计算每间卧室的浴室数量并删除原始浴室列。如果为 False则它只会按原样通过浴室列。 sqft_living 房屋居住面积的平方英尺。照原样通过。 sqft_lot 以平方英尺为单位的地块总面积。照原样通过。 floors房屋的楼层数。照原样通过。 condition 描述房屋状况的离散变量取值范围为 1–5。照原样通过。 grade给予住房单元的总体等级基于金县分级系统值从 1 到 13。照原样通过。 sqft_basement 房屋地下室的大小如果有以平方英尺为单位。0 表示没有地下室的房屋。照原样通过。 yr_built : 房子的建造年份。这个转换器的构造函数将有另一个参数“years_old”它也接受一个布尔值。如果为 True则构造函数将通过从 2019 年减去房屋建造年份来计算 2019 年房屋的年龄来创建一个新列并删除原始的 yr_built 列。如果为 False则它只会按原样传递 yr_built 列 # 自定义数值列的转换处理器 class NumericalTransformer(BaseEstimator, TransformerMixin):# 构造函数bath_per_bed ,years_old控制是否计算卧室和时间处理def __init__(self, bath_per_bedTrue, years_oldTrue):self._bath_per_bed bath_per_bedself._years_old years_old# 直接返回转换器本身def fit(self, X, yNone):return self# 我们编写的自定义变换方法创建了上述特征并删除了冗余特征def transform(self, X, yNone):if self._bath_per_bed:# 创建新列X.loc[:, bath_per_bed] X[bathrooms] / X[bedrooms]# 删除冗余列X.drop(bathrooms, axis1)if self._years_old:# 创建新列X.loc[:, years_old] 2019 - X[yr_built]# 删除冗余列X.drop(yr_built, axis1)# 将数据集中的任何无穷大值转换为 NanX X.replace([np.inf, -np.inf], np.nan)# 返回一个 numpy 数组return X.values 三、实现过程 3.1 读取数据 data pd.read_csv(rdata.csv) df pd.DataFrame(data) print(df.head()) df 3.2 划分数据集 X data.drop(price, axis1) y data[price].values X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42) 3.3 特征分类传递 传递分类管道的分类特征 categorical_features [date, waterfront, view, yr_renovated] 传递数值管道的数值特征 numerical_features [bedrooms, bathrooms, sqft_living, sqft_lot, floors, condition, grade, sqft_basement, yr_built] 3.4 管道流水线定义 定义分类管道中的步骤 categorical_pipeline Pipeline(steps[(cat_selector, FeatureSelector(categorical_features)),(cat_transformer, CategoricalTransformer()),(one_hot_encoder, OneHotEncoder(sparseFalse))]) 定义数值管道中的步骤 numerical_pipeline Pipeline(steps[(num_selector, FeatureSelector(numerical_features)),(num_transformer, NumericalTransformer()),(imputer, SimpleImputer(strategymedian)),(std_scaler, StandardScaler())]) 3.5 管道组合 使用FeatureUnion将数值和分类管道水平组合成一个完整大管道 full_pipeline FeatureUnion(transformer_list[(categorical_pipeline, categorical_pipeline),(numerical_pipeline, numerical_pipeline)]) 3.6 建立完整管道 完整管道将估算器作为最后一步 full_pipeline_m Pipeline(steps[(full_pipeline, full_pipeline),(model, LinearRegression())]) 3.7 管道流水线对训练集进行特征处理和训练 full_pipeline_m.fit(X_train, y_train) 3.8 管道流水线对测试集进行特征处理和预测 y_pred full_pipeline_m.predict(X_test) print(y_pred) y_pred 作者简介 读研期间发表6篇SCI数据挖掘相关论文现在某研究院从事数据算法相关科研工作结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创以最简单的方式理解和学习关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。
http://www.dnsts.com.cn/news/65927.html

相关文章:

  • 农家乐网站规划与建设方案餐饮门户网站 方案怎么做
  • 成都医疗seo整站优化七宝网站建设
  • 在线做春节网站一个阿里云怎么做两个网站吗
  • dede 网站打开自动加html网站动画是怎么做的
  • 湖北省建设厅官方网站毕德立做网站教程如乐
  • 帐号售卖网站建设文昌品牌网站建设费用
  • 导购网站怎么做有特色本溪网站开发
  • 网站要做手机版怎么做网站建设与管理试卷及答案
  • 一个新网站做多久才有流量转化河北省网络科技网站
  • 莆田市的网站建设公司数据营销
  • 中山工程建设信息网站电商新品营销推广方案
  • 网站建设师个人简介怎么写wordpress二次开发 菜单
  • 主要的网站开发技术中国北京门户网站建设调查报告
  • 电子商务网站建设读书笔记网站切换中英文
  • 兼职网站的建设目标怎么写网站 用什么语言
  • 莫企业网站建设方案微商城开发需要多少钱
  • 网站建设实践鉴定wordpress搜索框选择分类
  • 网站建设的内容策略市场营销考试题目及答案2022
  • 网站免费虚拟空间网络市场营销策划书
  • 专业做电子的外贸网站建设苏州建网站的公司平台收费标准
  • 如何用自家电脑做网站服务器怎么制作游戏 需要什么软件
  • 网站开发技术参数微信团购群网站怎样做
  • 权威发布公众号图片网站seo排名优化
  • 长春火车站到龙嘉机场高铁时刻表wordpress添加标签插件
  • 长春建站网站整站优化推广方案
  • 网站效果案例wordpress 二次元
  • 传奇做网站网站下载app免费
  • 网站后台建设教程下载网站域名建设
  • 如何申请自己的网站网站排名下降的原因
  • 做长页网站重庆市互联网协会