当前位置: 首页 > news >正文

域名备案网站建设方案书wordpress亿级数据

域名备案网站建设方案书,wordpress亿级数据,辽宁建设工程信息网诚信库怎么入库,电子商务网站建设的方法与流程Linear Regression 线性回归模型 该文章作为机器学习的第一篇文章#xff0c;主要介绍线性回归模型的原理和实现方法。 更多相关工作请参考#xff1a;Github 算法介绍 线性回归模型是一种常见的机器学习模型#xff0c;用于预测一个连续的目标变量#xff08;也称为响应变…Linear Regression 线性回归模型 该文章作为机器学习的第一篇文章主要介绍线性回归模型的原理和实现方法。 更多相关工作请参考Github 算法介绍 线性回归模型是一种常见的机器学习模型用于预测一个连续的目标变量也称为响应变量与一个或多个自变量之间的线性关系。 算法原理解析 传统版本 线性回归模型是一种常见的机器学习模型用于预测一个连续的目标变量也称为响应变量与一个或多个自变量之间的线性关系。在该模型中自变量和目标变量之间的关系可以表示为一条直线的函数。该模型的目标是找到最佳的直线使得预测结果与实际结果之间的误差最小。 线性回归模型通常使用最小二乘法进行训练即通过最小化预测值与真实值之间的平方误差来确定最佳拟合直线的参数。 线性回归模型的形式为 y w ⋅ x e y w·x e yw⋅xe其中e为误差服从均值为0的正态分布。线性回归模型可以分为一元线性回归分析和多元线性回归分析。在一元线性回归分析中只包括一个自变量和一个因变量且二者的关系可用一条直线近似表示。在多元线性回归分析中包括两个或两个以上的自变量且因变量和自变量之间是线性关系。 线性回归模型有一些限制例如它只能处理线性关系对于非线性关系的数据拟合效果不佳。此外该模型对异常值敏感如果数据中存在异常值可能会导致模型的误差较大。 线性回归模型具有简单易用、易于解释和理解等优点因此在许多实际应用中都表现良好如房价预测、销售预测等。然而对于非线性关系的数据拟合问题可能需要使用其他类型的回归模型如多项式回归、逻辑回归、岭回归等。 故事版本 想象一下你有一群朋友每个朋友都有一个身高和一个体重。你想找到一个公式能够根据身高预测体重。这个公式可能看起来像这样体重W 身高H 误差E。这里的“误差”就像生活中的小意外它告诉我们身高并不总是完美预测体重的。 现在你想使用所有朋友的数据来找到最佳的预测公式。线性回归模型就像一个魔法机器能够“学习”最佳的预测公式。它通过比较每个朋友的身高和体重找出最接近所有数据的直线。这条直线就是最佳的预测公式。 为了找到这条直线线性回归模型使用了一种叫做“最小二乘法”的魔法工具。这个工具能够计算每个朋友与预测直线之间的距离并找出使所有距离之和最小的直线。 一旦找到了最佳的预测公式你就可以使用它来预测新朋友的体重了比如如果你遇到一个新朋友只知道他的身高你就可以用线性回归模型预测他的体重。 这就是线性回归模型的算法原理它就像一个魔法预测器能够根据自变量如身高预测因变量如体重。希望这个简单的比喻能帮助你理解线性回归模型的工作原理 数学原理 首先让我们了解一下最小二乘法。简单来说最小二乘法是一种数学优化技术它通过最小化误差的平方和来寻找最佳函数匹配。在回归分析中最小二乘法用于找到最佳拟合直线的参数。 现在让我们通过一个简单的例子来理解最小二乘法。假设我们有一组数据点每个点都有一个x坐标和一个y坐标。我们的目标是找到一条直线使得所有数据点到这条直线的垂直距离之和最小。 假设这条直线的方程是 y w ⋅ x e y w·x e yw⋅xe其中w是斜率e是截距。为了找到最佳的w和e我们可以使用最小二乘法。 具体来说对于每个数据点 (xi, yi)我们计算它到直线的垂直距离的平方即 ( y i − ( w x e ) ) 2 (yi - (wx e))^2 (yi−(wxe))2。然后我们将所有这些平方距离加起来得到一个误差平方和。我们的目标是找到w和e使得这个误差平方和最小。 数学上这个问题可以表示为 S Σ [ ( y i − ( w ⋅ x i e ) ) 2 ] S Σ[(yi - (w·xi e))^2] SΣ[(yi−(w⋅xie))2] 其中Σ表示求和符号。 为了找到最优的m和c我们可以对误差平方和求关于m和c的偏导数并令偏导数为零。这样我们就可以得到一个线性方程组解这个方程组就可以得到w和e的最优解。最小二乘法公式如下 w ( X T X ) − 1 X T y w (\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{y} w(XTX)−1XTy 现在让我们来谈谈为什么我们要用最小二乘法来求解线性回归模型。线性回归模型是一种预测模型它通过找到最佳拟合数据的直线或平面来预测一个目标变量的值。这个模型基于的假设是目标变量和特征变量之间存在线性关系。 使用最小二乘法的优点是它可以提供一个精确的、无偏的估计这意味着它能够找到最佳拟合数据的直线使得预测值与实际值之间的误差最小。此外最小二乘法还具有一些良好的数学性质例如它有唯一解并且解是稳定的。 最重要的是最小二乘法在很多情况下都非常有效且易于计算。通过最小二乘法我们可以快速地找到线性回归模型的参数从而进行准确的预测。 数据集介绍 这里我们介绍一个十分经典的数据集——波士顿房价数据集 。该数据集包含506个样本13个特征以及一个目标变量——房屋价格中位数。 波士顿房价数据集是一个非常经典的数据集被广泛用于机器学习和数据分析领域。这个数据集包含了波士顿地区不同社区的房价信息: 参数属性CRIM–城镇人均犯罪率城镇人均犯罪率ZN - 占地面积超过25,000平方英尺的住宅用地比例。住宅用地所占比例INDUS - 每个城镇非零售业务的比例。城镇中非商业用地占比例CHAS - Charles River虚拟变量如果是河道则为1;否则为0查尔斯河虚拟变量用于回归分析NOX - 一氧化氮浓度每千万份环保指标RM - 每间住宅的平均房间数每栋住宅房间数AGE - 1940年以前建造的自住单位比例1940年以前建造的自住单位比例DIS -波士顿的五个就业中心加权距离与波士顿的五个就业中心加权距离RAD - 径向高速公路的可达性指数距离高速公路的便利指数TAX - 每10,000美元的全额物业税率每一万美元的不动产税率PTRATIO - 城镇的学生与教师比例城镇中教师学生比例B - 1000Bk - 0.63^ 2其中Bk是城镇黑人的比例城镇中黑人比例LSTAT - 人口状况下降房东属于低等收入阶层比例MEDV - 自有住房的中位数报价, 单位1000美元自住房屋房价中位数 这个数据集的主要目的是通过机器学习算法利用这14个特征预测房价中位数。在数据集中每个样本包含一个社区的房价信息和相关的特征变量例如社区的犯罪率、住宅用地比例、非商业用地比例、是否临河、房间数等。机器学习算法将根据这些特征变量预测房价中位数从而帮助房地产经纪人、投资者或购房者更好地了解市场趋势和预测房价。 波士顿房价数据集是一个非常有价值的数据集因为它包含了多个与房价相关的特征变量并且数据来源于一个实际的房地产市场。这个数据集被广泛用于机器学习和数据分析的教学和实践是入门机器学习和数据分析领域的经典案例之一。 接下来我们将对原始数据集进行处理并对其进行特征工程最终得到一个更加适合线性回归模型的数据集。数据集的地址在dataset\housing.data大家可以直接使用。 代码实现 # 准备好我们需要使用的第三方包 import os import numpy as np import pandas as pandas import matplotlib.pyplot as plt 数据分析 为什么要去做数据分析许多人并不是很关心数据的分析工作这是存在极大问题的。 在机器学习中数据分析是一个非常重要的步骤主要原因如下 首先数据分析可以帮助我们更好地了解数据集的性质和结构从而确定最佳的数据预处理和特征选择方法。通过数据分析可以识别出异常值、缺失值等问题并进行相应的处理提高数据质量。 其次数据分析可以帮助我们发现数据的内在规律和模式。例如通过分析数据的相关性、聚类情况、分布情况等可以发现数据中存在的有趣模式和关系这些信息可以帮助我们更好地理解数据并为后续的模型训练提供有价值的指导和建议。 如何做数据分析 针对不同数据集数据分析的侧重点会有所不同但一般而言数据分析的基本步骤和考虑因素是相似的。以下是针对不同数据集进行分析时可能需要特别关注的几个方面 数据探索 对于任何数据集首先需要进行探索性数据分析以了解数据的分布、特征和规律。对于大规模的数据集可能需要进行抽样调查或使用其他统计方法来初步了解数据。数据清洗 在处理任何数据集时都需要关注数据的质量和清洁度。这包括处理缺失值、异常值、重复数据等问题以及进行必要的格式转换和数据转换。 特征选择对于不同的数据集特征的选取和分析也是不同的。例如对于文本数据可能需要关注词频、主题模型等特征对于图像数据可能需要关注颜色、纹理等特征。可视化分析 对于复杂的数据集可视化是一种有效的分析方法。通过绘制图表、制作地图或使用其他可视化工具可以更好地理解和解释数据。 总之针对不同数据集进行分析时需要根据数据的特性和项目需求来选择合适的数据分析方法和侧重点。同时数据分析师还需要不断学习和探索新的数据分析技术和方法以更好地应对各种复杂的数据分析任务。 当然数据分析远不止这些步骤但这三个是重中之重可以很好的帮助研究人员发现任务中所存在的问题。 def load_data(file_path):# 读取数据文件names [CRIM, ZN, INDUS, CHAS, NOX, RM, AGE, DIS, RAD, TAX, PTRATIO, B, LSTAT, MEDV]data pandas.read_csv(file_path, namesnames, delim_whitespaceTrue)# 删除包含缺失值的数据行data data.dropna()return datadef preprocess_data(data, funcdel):# 删除有缺失的数据if func del:data data.dropna()# 通过均值的方式填充确实的数据elif func fill:data data.fillna(data.mean())return datadata load_data(dataset\\housing.data) data preprocess_data(data) # 该数据不存在缺失值 # 展示每列数据和价格的关系并以4*4的画布展示,并调整画布大小 def plot_price_relation(data):fig, axes plt.subplots(nrows4, ncols4, figsize(12, 12))# 控制画布中子图之间的间距plt.tight_layout()for i, col in enumerate(data.columns[:-1]):ax axes[i // 4, i % 4]ax.scatter(data[col], data[MEDV])# 设置titile 并控制字体大小# ax.set_title(f{col} vs MEDV, fontsize10)ax.set_xlabel(col, fontsize10)ax.set_ylabel(MEDV, fontsize10)plt.show()plot_price_relation(data)# 将波士顿数据集按照8:2的比例划分成训练集和验证集 def split_data(data, test_ratio):np.random.seed(42)shuffled_indices np.random.permutation(len(data))test_set_size int(len(data) * test_ratio)test_indices shuffled_indices[:test_set_size]train_indices shuffled_indices[test_set_size:]return data.iloc[train_indices], data.iloc[test_indices]# 划分训练集和验证集 train_set, test_set split_data(data, 0.2)构建线性回归模型 构建一个机器学习模型通常我们需要包含以下几个部分模型的训练、模型的评估、模型的推理以及模型的代价函数等。在该部分我会以线性回归模型为例讲解如何构建一个完整的机器学习模型。同时现有的sklearn库中已经提供了线性回归模型的实现因此我们平时仅需要调用sklearn库中的线性回归模型即可。 基础实现 这里我们将构建MyLinearRegression类作为线性回归模型的基类。在这个类中我们需要有以下几个函数 __init__初始化模型参数。fit使用训练数据来训练模型参数。predict使用训练好的模型参数来进行预测。loss计算模型的损失函数。 而需要注意的是为了提升模型的性能我们还需要对数据做一些处理保证模型的稳定性。例如我们可以使用标准化standardization或归一化normalization来对数据进行预处理。 # 通过最小二乘法求解线性回归class MyLinearRegression:def __init__(self):self.mean, self.std None, Noneself.w, self.b None, Nonedef fit(self, X, y):X self.data_preprocess(X)self.w np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)self.b np.mean(y - X.dot(self.w))def data_preprocess(self, X):if self.mean is None:self.mean np.mean(X, axis0)self.std np.std(X, axis0)return (X - self.mean) / self.stddef loss(self, y, y_pred):return np.mean((y - y_pred) ** 2)def predict(self, X):X (X - self.mean) / self.stdreturn np.dot(X, self.w) self.b# 训练波士顿数据并验证 def main(train_set, test_set):X_train train_set.drop(MEDV, axis1)y_train train_set[MEDV]X_test test_set.drop(MEDV, axis1)y_test test_set[MEDV]model MyLinearRegression()model.fit(X_train, y_train)w, b model.w, model.by_pred model.predict(X_test)mse model.loss(y_test, y_pred)print(w:%s b:%7.5f 均方误差%7.5f % (w, b, mse))main(train_set, test_set)w:[-1.00106928 0.71053112 0.26395035 0.71843347 -1.99922398 3.13938815-0.1673871 -3.07870731 2.26939584 -1.79124484 -2.03043684 1.12760396-3.60788753] b:22.79309 均方误差24.39683基于sklearn模型的实现方式 sklearn作为机器学习中经典的库提供了线性回归的实现。我们可以通过sklearn.linear_model.LinearRegression来使用sklearn的线性回归模型。以下是通过sklearn实现线性回归的代码示例 # 通过sklearn的方式来求解 from sklearn.linear_model import LinearRegressiondef sklearn_main(train_set, test_set):X_train train_set.drop(MEDV, axis1)y_train train_set[MEDV]X_test test_set.drop(MEDV, axis1)y_test test_set[MEDV]model LinearRegression()model.fit(X_train, y_train)y_pred model.predict(X_test)mse np.mean((y_test - y_pred) ** 2)print(w:%s b:%7.5f 均方误差%7.5f % (model.coef_, model.intercept_, mse))sklearn_main(train_set, test_set)w:[-1.13053410e-01 3.07557545e-02 3.83750160e-02 2.78643336e00-1.70055351e01 4.43604743e00 -5.98876791e-03 -1.44796060e002.64769508e-01 -1.08061172e-02 -9.13265214e-01 1.23437822e-02-5.08514822e-01] b:30.14522 均方误差24.39683总结一下 在机器学习算法中线性回归是一种常用的算法它通过拟合一个线性模型来预测目标变量。在实现线性回归算法时可以使用自己编写的代码或者使用现有的库函数来实现。自己编写代码可以更好地理解线性回归算法的原理和实现细节而使用库函数可以简化代码编写的过程提高开发效率。因此选择合适的实现方式是实现线性回归算法的重要一步。 线性回归模型作为机器学习中经典的算法之一广泛应用于各种数据分析和预测任务中。其基本的原理是通过拟合一个线性模型来预测目标变量。数学推导证明了我们可以通过最小化损失函数来求解线性回归模型的参数从而实现对目标变量的预测。其方法便是经典的最小二乘法。在实际应用中线性回归算法可以通过各种方式进行改进和优化例如正则化、特征选择、集成学习等。这些方法可以提高模型的预测精度和泛化能力使线性回归算法在各种数据分析和预测任务中更有效地应用。 更好地理解线性回归算法的原理和实现细节而使用库函数可以简化代码编写的过程提高开发效率。因此选择合适的实现方式是实现线性回归算法的重要一步。 线性回归模型作为机器学习中经典的算法之一广泛应用于各种数据分析和预测任务中。其基本的原理是通过拟合一个线性模型来预测目标变量。数学推导证明了我们可以通过最小化损失函数来求解线性回归模型的参数从而实现对目标变量的预测。其方法便是经典的最小二乘法。在实际应用中线性回归算法可以通过各种方式进行改进和优化例如正则化、特征选择、集成学习等。这些方法可以提高模型的预测精度和泛化能力使线性回归算法在各种数据分析和预测任务中更有效地应用。
http://www.dnsts.com.cn/news/41371.html

相关文章:

  • 在线做网站黄手机网站前
  • 过时的网站网上平面设计
  • 我有服务器和模板怎么做网站上海外贸市场有哪些
  • 网站ui设计师招聘开发公司土建工程师绩效考核
  • 手机版网站的优势wordpress图片自动打水印
  • 亚马逊官方网站怎么做石家庄学做网站建设培训学校
  • sae 企业网站电子商务网站开发费用入账
  • 注入漏洞网站源码郑州网站建设案例
  • 做设计在哪个网站接单欧洲applestore
  • 付费内容网站网站名称搜索不到
  • wordpress模仿app启动广告屏弹窗百度seo优化策略
  • 安平网站建设培训本地房产交易信息网
  • 查看网站是哪家做的怎么看鞍山网站制作公司
  • 集团企业网站建设方案策划书动态背景设置网站
  • 手机网站的必要性做论坛网站时应该注意什么
  • 网站关键词堆砌网络设计师干什么的
  • 网站建设意义夏津网站开发
  • 做网站的职责域名注册商平台
  • 网站开发 集成包网站域名怎么查
  • 个人网站每年要多少钱在深圳做网站平台需要什么备案
  • 产品销售型的网站在线图片制作工具
  • 婚礼网站怎么做网站建设与维护里面的个人简历
  • 中国建设银行三峡分行网站深圳app网站建设
  • 用vs做html网站番禺人才招聘网官网
  • 网站建设费用 做个网站要多少钱手机制作图片软件
  • 深圳信科做网站网站空间那个好
  • wordpress绑定网站网站建设方面的书籍
  • 不备案 国内网站网页制作全过程视频
  • 高端建站网站里的动态是如何制作
  • 网站建设需要哪些成本长沙人才app