当前位置: 首页 > news >正文

wordpress手机端网站模板下载失败seo公司怎样找客户

wordpress手机端网站模板下载失败,seo公司怎样找客户,网站利用百度离线地图,o2o模式举例说明目录 11.1 逻辑回归分类 11.2 决策树分类 11.3 梯度提升决策树分类 11.4 XGBoost分类 11.5 随机森林分类 11.6 朴素贝叶斯分类 11.7 支持向量机分类 11.8 多层感知机分类 11.9 LightGBM分类 11.10 因子分解机分类 11.11 AdaBoost分类 11.12 KNN分类 【第十一章Sentosa_DSML社区版-机器学习之分类】 11.1 逻辑回归分类 1.算子介绍 逻辑回归虽然叫做回归但属于分类算法中的二分类又称logistic回归分析是一种广义的线性回归分析模型逻辑回归是在线性回归的基础上通过sigmod函数映射将数据由回归转为分类。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 reg_param 正则化参数 必填 Double 默认(0.0) 0 正则化系数 fit_intercept 是否拟合截距 必填 Boolean 是 单选是否 是否拟合截距 standardization 是否对数据归一化 必填 Boolean 是 单选是否 是否对数据归一化 elastic_net 弹性网络混合参数 必填 Double 默认0.0 [0,1] 弹性网络则是同时使用了L1和L2作为正则化项参数中elastic_net为L1范数惩罚项所占比例。若0时弹性网络只剩L2范数的惩罚项。若等于1弹性网络退化为L1范数的惩罚项参数值越大对参数惩罚越大越不容易过拟合 max_iteration 最大迭代次数 必填 Int 默认(100) 0 最大迭代次数 tolerance 收敛偏差 必填 Double 默认(1E-6) 0 收敛偏差 family 回归类别 必填 String 默认(auto) 单选autobinomialmultinomial 选择逻辑回归的类型auto:根据分类类别个数自动决定若类别数为1个或者2个则为二元逻辑回归否则为多元逻辑回归binomial:二元逻辑回归multinomial多元逻辑回归 aggregation_depth 聚合树的深度 必填 Integer 2 2 聚合树的深度 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 逻辑回归分类算子属性设置如图所示。 逻辑回归分类算子属性设置 其中弹性网格混合参数是同时使用L1和L2作为正则化项时 L1范数惩罚项所占比例具体参照算子属性表格。正则化参数是损失函数中整个正则化项的参数。当运行到达最大迭代次数或收敛偏差小于设定的收敛偏差时停止迭代。聚合树深度为spark优化算法的参数默认为2当特征维度过大或数据分区过大时建议调为更大的值。 3算子的运行 逻辑回归分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接逻辑回归算子右击算子点击运行得到逻辑回归分类模型。 运行逻辑回归分类算子获得逻辑回归分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 逻辑回归分类模型算子流 右击模型可以查看模型的模型信息 模型信息 模型的运行结果如图所示 逻辑回归分类模型运行结果 模型的评估结果如图所示 逻辑回归分类模型评估结果 11.2 决策树分类 1.算子介绍 决策树分类是一种简单易用的非参数分类器模型它会在用户选定的特征列上不断进行分裂使得在每一分支对目标变量纯度逐渐增高。直至到达分支目标变量一致或者满足用户设置的终止条件。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 max_depth 树的最大深度 必填 Int 默认5 0且30 树的最大深度 max_bins 连续型属性划分最大分桶数 必填 Int 默认32 2 连续型属性划分最大分桶数 min_instances_per_node 最小实例数 必填 Int 默认1 1 最小实例数 min_infoGain 最小信息增益 必填 Double 默认0.0 0.0 在树节点上考虑分割的最小信息增益 impurity 信息纯度计算方式 必填 String 默认(gini) 单选基尼熵 用于信息增益计算的判据(不区分大小写)。支持:“熵”和“基尼”。GBT的算法是忽略该设置的 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 决策树分类算子属性设置如图所示 决策树分类算子属性设置 前端可配置属性如图所示树的最大深度连续型属性划分最大分桶数最小实例数最小信息增益都是用来控制构建聚合树时的分裂程度。 3算子的运行 决策树分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接决策树分类算子右击算子点击运行得到决策树分类器模型 运行决策树分类算子获得决策树分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 决策树分类模型算子流 右击模型查看模型的模型信息 决策树分类模型信息 模型的运行结果如图所示 决策树分类模型运行结果 模型的评估结果如图所示 决策树分类模型评估结果 11.3 梯度提升决策树分类 1.算子介绍 梯度提升决策树分类是一个Boosting聚合模型它是由多个决策树一起组合和来预测。多个决策树之间是顺序组合关系每一个决策树模型都会修正之前所有模型预测的误差。这样经过多个模型的修正从而提升了整个聚合模型的预测精度。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 max_depth 树的最大深度 必填 Int 默认5 0且30 树的最大深度 max_bins 连续型属性划分最大分桶数 必填 Int 默认32 2 连续型属性划分最大分桶数 min_instances_per_node 最小实例数 必填 Int 默认1 1 最小实例数 min_infoGain 最小信息增益 必填 Double 默认0.0 0.0 在树节点上考虑分割的最小信息增益 feature_subset_strategy 树节点拆分的策略 必填 String 默认(auto) 单选:autoallonethirdsqrtlog2选择n时则由用户输入具体0的数值。 “auto”自动选择如果子树个数为1时则使用全部特征。如果子树个数 1时(森林)则设置为sqrt(特征数量);“all”使用所有特征;“onethird”使用1/3的特征;“sqrt”使用sqrt(特征数量);“log2”使用log2(特征数量);“n”当n在范围(0,1.0]时为n*特征数。当n在范围(1∞)时为特征数和n值两个之间的最小值。 subsampling_rate 子树的训练比例 必填 String 1.0 (0,1] 用于学习每个决策树的训练数据的比例 max_iter 最大迭代次数 必填 Integer 100 0 最大迭代次数 step 步长 必填 Double 1.0 (0.0,1.0] Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 梯度提升决策树分类算子的属性设置如图所示 梯度提升决策树分类属性设置 前端可配置属性如图所示树的最大深度最大容器数最小实例数最小信息增益都是用来控制构建梯度提升决策树时的分裂程度。子树的训练比例指在学习每个决策树时所用训练数据的比例。子树的训练比例和步长都是为了防止过拟合。树节点拆分策略为树的每个节点拆分时要考虑的特征数各选项的具体意义见算子的属性说明表格。 3算子的运行 梯度提升决策树分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接梯度提升决策树分类器算子右击算子点击运行得到梯度提升决策树分类模型。 运行梯度提升决策树分类算子获得梯度提升决策树分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 梯度提升决策树分类模型算子流 右击模型查看模型的模型信息如图所示。 梯度提升决策树分类模型信息 模型的运行结果如图所示 梯度提升决策树分类模型运行结果 模型的评估结果如图所示 梯度提升决策树分类模型评估结果 11.4 XGBoost分类 1.算子介绍 XGBoost是Extreme Gradient Boosting的缩写它是一个优化的分布式梯度增强库具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)可以快速、准确地解决许多数据科学问题。并且在分布式运行环境下进行了优化可以解决数十亿规模的样本训练问题。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 num_round 迭代次数 必填 Int 100 [1, Int. MaxValue] 算法的迭代次数(树的数量) eta 学习率 必填 Double 0.3 [0.0,1.0] 更新中减少的步长来防止过拟合。 gamma 最小分裂损失 必填 Double 0 [0, Double.MaxValue] 在节点分裂时只有分裂后损失函数的值下降了才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大算法越保守。这个参数的值和损失函数息息相关所以是需要调整的。 max_depth 树的最大深度 必填 Int 6 [1, Int.MaxValue] 这个值也是用来避免过拟合的。max_depth越大模型会学到更具体更局部的样本。 min_child_weight 最小叶子节点样本权重和 必填 Double 1 [0, Double.MaxValue] 这个参数用于避免过拟合。当它的值较大时可以避免模型学习到局部的特殊样本。 但是如果这个值过高会导致欠拟合。这个参数需要使用CV来调整。 subsample 子采样率 必填 Double 1 (0,1] 将其设置为0.5意味着XGBoost随机收集了一半的数据实例以生成树这将防止过度拟合子采样将在每次boosting迭代中发生一次。 colsample_bytree 每棵树随机采样的列数占比 必填 Double 0.8 (0,1] 用来控制每棵随机采样的列数的占比(每一列是一个特征)。 我们一般设置成0.8左右, 典型值0.5-1范围: (0,1] tree_method 树构造算法 必填 String auto 可选择auto“hist”“approx” auto使用启发式方法选择最快的方法, hist: 更快的直方图优化的近似贪婪算, approx使用分位数草图和梯度直方图的近似贪婪算法 grow_policy 添加节点方式 必填 String depthwise 仅在tree_method为hist的时候生效可选择: “depthwise”, “lossguide”  depthwise 在最靠近根的节点处拆分, lossguide: 在损耗变化最大的节点处拆分 max_bins 最大箱数 必填 Integer 256 仅在tree_method为hist的时候生效[1, Int. MaxValue) 用于存储连续特征的最大不连续回收箱数增加此数目可提高拆分的最佳性,但需要增加计算时间。 single_precision_histogram 是否单精度 必填 Boolean 否 单选是否 仅在tree_method设置为hist时使用 false双精度 true: 单精度 scale_pos_weight 正负样本不均衡调节权重 必填 Double 1 0 在各类别样本十分不平衡时把这个参数设定为一个正值可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值. lambda L2正则化项 必填 Double 1 0 关于权重的L2正则化项。增加此值将使模型更加保守。 alpha L1正则化项 必填 Double 0 0 关于权重的L1正则化项。增加此值将使模型更加保守。 eval_metric 评估指标 必填 String 根据优化目标默认 可选择[“logloss”,“error”] logloss对数损失; error分类错误率 base_score 初始预测分数 必填 Double 0.5 0 所有实例的初始预测分数全局偏差. 在迭代次数少的情况下可加快收敛速度对于足够数量的迭代更改此值不会产生太大影响 num_round 迭代次数 必填 Int 100 [1, Int. MaxValue] 算法的迭代次数(树的数量) Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置  XGBoost分类的属性设置如图所示 XGBoost分类属性设置 前端可配置属性如图所示评估指标即算法的损失函数有对数损失和分类错误率两种学习率树的最大深度最小叶子节点样本权重和子采样率最小分裂损失每棵树随机采样的列数占比L1正则化项和L2正则化项都是用来防止算法过拟合。当子节点样本权重和不大于所设的最小叶子节点样本权重和时不对该节点进行进一步划分。最小分裂损失指定了节点分裂所需的最小损失函数下降值。添加节点方式、最大箱数、是否单精度这三个参数是当树构造方法是为hist的时候才生效。参数的具体意义参考算子属性说明表格。 3算子的运行 XGBoost分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接XGBoost分类算子右击算子点击运行得到XGBoost分类模型。 运行XGBoost分类算子获得XGBoost分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 XGBoost分类模型算子流 右击模型查看模型的模型信息 XGBoost分类模型信息 模型的运行结果如图所示 XGBoost分类模型运行结果 模型的评估结果如图所示 XGBoost分类模型评估结果 11.5 随机森林分类 1.算子介绍 随机森林是一种常用的分类和回归方法。它是一种Bagging的模型聚合方法。它内部集成了大量的决策树模型。每个模型都会选取一部分特征和一部分训练样本。最终由多个决策树模型来共同决定预测值。随机森林算法可以充分利用集群的性能提高最终聚合模型的精度并且大大改善模型的过拟合问题。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 max_depth 树的最大深度 必填 Int 5 0且30 树的最大深度深度0表示1叶节点; 深度1表示1个内部节点 2个叶节点 max_bins 连续型属性划分最大分桶数连续型属性划分最大分桶数 必填 Int 32 2 用于离散连续特性和选择如何在每个节点上分割特性的最大容器数 min_instances_per_node 最小实例数 必填 Int 1 1 每个子节点在分割后必须拥有的最小实例数 min_infoGain 最小信息增益 必填 double 0.0 0.0 在树节点上考虑分割的最小信息增益 feature_subset_strategy 树节点拆分的策略 必填 String auto 单选:autoallonethirdsqrtlog2选择n时则由用户输入具体0的数值。 “auto”自动选择如果子树个数为1时则使用全部特征。如果子树个数 1时(森林)则设置为sqrt(特征数量);“all”使用所有特征;“onethird”使用1/3的特征;“sqrt”使用sqrt(特征数量);“log2”使用log2(特征数量);“n”当n在范围(0,1.0]时为n*特征数。当n在范围(1∞)时为特征数和n值两个之间的最小值。 num_trees 树的数量 必填 Int 20 1 要训练的树数 subsampling_rate 子树的训练比例 必填 Double 1.0 (0,1] 用于学习每个决策树的训练数据的一部分范围。(默认 1.0) Wight 权重列 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作。 2算子属性设置 随机森林分类的属性设置如图所示 随机森林分类属性设置 前端可配置属性如图所示树的最大深度最大容器数最小实例数最小信息增益都是用来控制构建随机森林时树的分裂程度。子树的训练比例指在学习每个决策树时所用训练数据的比例。树节点拆分策略为树的每个节点拆分时要考虑的特征数各选项的具体意义见算子的属性说明表格。 3算子的运行 随机森林分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接随机森林分类算子右击算子点击运行得到随机森林分类模型。 运行随机森林分类算子获得随机森林分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 随机森林分类模型算子流 右击模型查看模型的模型信息 随机森林分类模型信息 模型的运行结果如图所示 随机森林分类器型运行结果 模型的评估结果如图所示 随机森林分类器型评估结果 11.6 朴素贝叶斯分类 1.算子介绍 朴素贝叶斯是一组基于贝叶斯定理的简单概率多类分类器每对特征之间具有强(朴素)独立性假设。朴素贝叶斯通过计算了给定每个标签的每个特征的条件概率分布来建立模型。朴素贝叶斯模型通过应用贝叶斯定理计算给定观测值的每个标签的条件概率分布来进行预测。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 smoothing 平滑参数 必填 Double 1.0 0 平滑参数默认值为1.0 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 朴素贝叶斯的属性设置如图所示 朴素贝叶斯分类属性设置 3算子的运行 朴素贝叶斯为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接朴素贝叶斯器算子右击算子点击运行得到朴素贝叶斯模型。 运行朴素贝叶斯算子获得朴素贝叶斯模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 朴素贝叶斯模型算子流 右击模型查看模型的模型信息 朴素贝叶斯模型信息 模型的运行结果如图所示 朴素贝叶斯模型运行结果 模型的评估结果如图所示 朴素贝叶斯模型评估结果 11.7 支持向量机分类 1.算子介绍 支持向量机是一个功能强大且能有效防止过拟合的机器学习算法。它通过在高维空间中构造超平面或者超平面集合。通过对核函数的选择支持向量机不仅可以进行线性划分还可以支持非线性划分。 2.算子类型 机器学习/分类算子。 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 kernel_type 核函数类型 必选 String linear 单选:linear, rbf, polynomial, sigmoid 核函数类型 ratio 抽样比例 必选 Double 0.1 0 且1 抽样比例 group_num 子模型个数 必选 Integer 10 1 子模型个数 c 惩罚因子 必选 Double 1.0 0 惩罚因子 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作。 2算子属性设置 当选择线性核函数时支持向量机的属性设置如图所示 线性核函数支持向量机属性设置 核函数将原始特征空间映射为更高维的空间在原始空间中不可分的数据在高维空间中可能变成线性可分。容忍度因子C即惩罚因子,C越大,容易出现过拟合C越小容易出现欠拟合。提前退出次数为训练结束前有多少次迭代的数据未发生变化则训练提前停止。 3算子的运行 支持向量机为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接支持向量机算子右击算子点击运行得到支持向量机模型。 运行支持向量机算子获得支持向量机模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 支持向量机模型算子流 右击模型查看模型的模型信息 支持向量机模型信息 模型的运行结果如图所示 支持向量机模型运行结果 模型的评估结果如图所示 支持向量机模型评估结果 11.8 多层感知机分类 1.算子介绍 多层感知是一种前馈人工神经网络模型其将输入的多个数据集映射到单一的输出的数据集上多层感知机层与层之间是全连接的最底层是输入层中间是隐藏层最后是输出层。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 layers 隐藏层数设置(逗号分隔的整数) 必填 ListString 逗号分隔的整型 从输入层到输出层的层数。用逗号分隔的整数例如780,100,10表示780个输入100个神经元的隐藏层和10个神经元的输出层 solver 优化算法 必选 String l-bfgs 单选:l-bfgs gd 优化算法。支持选项:“l-bfgs”/“gd”默认l-bfgs max_iteration 最大迭代次数 必填 Int 100 0 最大迭代次数 tolerance 收敛偏差 必填 Double 1E-6 0 收敛偏差 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作。 2算子属性设置 当优化算法为拟牛顿法时多层感知机的属性设置如图所示 多层感知机分类算子属性设置 算子将非数值型Feature转换为数值型且自动计算输入层神经元个数和输出层神经元个数用户只需设置隐藏层神经元个数各隐藏层之间用逗号分隔。 3算子的运行 多层感知机为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接多层感知机算子右击算子点击运行得到多层感知机模型。 运行多层感知机获得多层感知机模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 多层感知机模型算子流 右击模型查看模型的模型信息 多层感知机模型信息 模型的运行结果如图所示 多层感知机模型运行结果 模型的评估结果如图所示 图4.5.1.8-6 多层感知机模型评估结果 11.9 LightGBM分类 1.算子介绍 LightGBM属于Boosting集合模型中的一种它和XGBoost一样是对GBDT的高效实现。LightGBM在很多方面会比XGBoost表现更为优秀。它有以下优势更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 objective 学习目标 必填 String multiclass binary,multiclass,multiclassova 二分类、多分类、one-vs-all二分类 boosting_tye 基学习器 必填 String gbdt gbdt,rf,dart,goss gbdt:梯度提升数,rf:随机森林dart:dropoutmartgoss单边梯度重采样 num_iterations 迭代次数 必填 Integer 100 [1, Int.MaxValue] 迭代次数 learning_rate 学习率 必填 Double 0.1 (0,1] 学习率 max_depth 最大深度 必填 Integer -1 [Int.MinValue, Int.MaxValue] 树模型最大深度的限制当数据量较小时用来处理过拟合,树仍然通过leaf-wise生长0意味着没有限制 num_leaves 叶子数量 必填 Integer 31 [2, Int.MaxValue] 叶子数量 min_sum_hessian_in_leaf 最小叶子节点Hessian和 必填 Double 1e-3 [0, Int.MaxValue] 可以防止过拟合 bagging_fraction Bagging比例 必填 Double 1.0 (0,1] 可以在不进行重采样的情况下随机选择部分数据来加速训练为了启用bagging。rf时这个参数需要小于1且bagging_freq 0。 bagging_freq Bagging频率 必填 Integer 0 [0, Int.MaxValue] 0意味着关闭bagging k意味着k次迭代进行一次bagging此外如果要用baggingbagging_fraction必须同时小于1.0。 bagging_seed Bagging种子 必填 Integer 3 0 Bagging种子。 lambda_l2 L2正则 必填 Double 0 0 关于权重的L2正则化项。增加此值将使模型更加保守。 lambda_l1 L1正则 必填 Double 0 0 关于权重的L1正则化项。增加此值将使模型更加保守。 feature_fraction 特征采样比例 必填 Double 1.0 (0.0,1.0] 如果该参数小于1.0 在每个迭代lightgbm会随机选择部分特征进行训练加速训练防止过拟合 early_stopping_round 提前终止迭代 必填 Integer 0 0 如果一个验证集的metric在过去的 early_stopping_round轮次中没有提升则终止训练0意味着关闭 max_bin 最大箱数 必填 Integer 255 (0,infinite) 较少的箱数可能会降低精度但是会避免过拟合 generate_missing_lebels 补齐缺失标签 必填 Boolean 否 单选是否 补齐缺失标签 is_provide_training_metric 输出训练metric结果 必填 Boolean 否 单选是否 训练时提供metric结果 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 LightGBM分类的属性设置如图所示 LightGBM分类属性设置 3算子的运行 LightGBM分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接LightGBM分类算子右击算子点击运行得到LightGBM分类模型。 运行LightGBM分类算子获得LightGBM分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 LightGBM分类模型算子流 右击模型查看模型的模型信息 LightGBM分类模型信息 模型的运行结果如图所示 LightGBM分类模型运行结果 模型的评估结果如图所示 LightGBM分类模型评估结果 11.10 因子分解机分类 1.算子介绍 因子分解机是一种基于矩阵分解的机器学习算法可以解决特征组合以及高维稀疏矩阵问题的强大的机器学习算法首先是特征组合通过对两两特征组合引入交叉项特征提高模型得分其次是高维灾难通过引入隐向量(对参数矩阵进行矩阵分解)完成对特征的参数估计。目前FM算法是推荐领域被验证的效果较好的推荐方案之一。 2.算子类型 机器学习/分类算子。 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 solver 优化求解算法 必选 String adamW 单选adamW,gd 优化求解算法 bias 是否拟合截距 必选 Boolean 是 单选是否 是否拟合截距,即0次项 one_way_interaction 是否拟合一次项 必选 Boolean 是 单选是否 是否拟合一次项 dimension 设置因子维度 必选 Int 8 0 因子维度 reg_params L2正则化参数 必选 Double 0.01 0 L2正则化系数 max_itert 最大迭代次数 必选 Int 100 0 最大迭代次数 init_stdev 设置初始系数的标准差 必选 Double 0.05 0.0 设置初始系数的标准差 step_size 学习率 必选 Double 0.01 0.0 学习率 tolerance_conver_iter 迭代的收敛误差 必选 Double 1E-6 0.0 迭代的收敛误差 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 当优化求解算法选择adamW时因子分解机分类算子的属性设置如图所示 优化求解算法选择adamW时因子分解机属性设置 adamW(Adam Weight Decay Regularization)Adam可以看作是RMSprob和动量SGD的结合目的在于抑制震荡加速收敛。 Adamw则是在Adam的更新策略中采用了计算整体损失函数的梯度来进行更新而不是只计算不带正则项部分的梯度进行更新之后再进行权重衰减。 当优化求解算法选择gd时因子分解机的属性设置如图所示 优化求解算法选择GD时因子分解机属性设置 GD (Gradient Descent): 最为经典的凸优化优化器通过loss反向传导计算参数的梯度沿着负梯度的方向更新参数。 3算子的运行 因子分解机分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。为了训练得到更好的模型训练数据需要使用标准化算子或者归一化算子进行处理。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接因子分解机分类算子右击算子点击运行得到因子分解机分类模型。 运行因子分解机分类算子获得模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 因子分解机模型算子流 右击模型查看模型的模型信息 因子分解机模型信息 模型的运行结果如图所示 因子分解机模型运行结果 模型的评估结果如图所示 因子分解机模型评估结果 11.11 AdaBoost分类 1.算子介绍 AdaBoost是一种Boosting集成方法主要思想就是将弱的基学习器提升(boost)为强学习器根据上轮迭代得到的学习器对训练集的预测表现情况调整训练集中的样本权重, 然后据此训练一个新的基学习器最终的集成结果是多个基学习器的组合。 2.算子类型 机器学习/分类算子。 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 max_depth 树的最大深度 必填 Int 5 0且30 树的最大深度 max_bins 连续型属性划分最大分桶数 必填 Int 32 2 连续型属性划分最大分桶数 min_instances_per_node 最小实例数 必填 Int 1 1 最小实例数 min_infoGain 最小信息增益 必填 Double 0.0 0.0 在树节点上考虑分割的最小信息增益 feature_subset_strategy 树节点拆分的策略 必填 String auto 单选:autoallonethirdsqrtlog2选择n时则由用户输入具体0的数值。 “auto”自动选择如果子树个数为1时则使用全部特征。如果子树个数 1时(森林)则设置为sqrt(特征数量);“all”使用所有特征; “onethird”使用1/3的特征;“sqrt”使用sqrt(特征数量);“log2”使用log2(特征数量); “n”当n在范围(0,1.0]时为n*特征数。当n在范围(1∞)时为特征数和n值两个之间的最小值 subsampling_rate 子树的训练比例 必填 Double 1.0 (0,1] 用于学习每个决策树的训练数据的比例 max_iter 迭代次数 必填 Int 10 0 迭代次数决定Adaboost子树的数量 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 1算子初始化 参考公共功能算子初始化操作。 2算子属性设置 AdaBoost分类算子的属性设置如图所示 AdaBoost分类属性设置 前端可配置属性如图所示树的最大深度连续型属性划分最大分桶数最小实例数最小信息增益都是用来控制构建子决策树时的分裂程度。子树的训练比例指在学习每个决策树时所用训练数据的比例。子树的训练比例都是为了防止过拟合。树节点拆分策略为树的每个节点拆分时要考虑的特征数各选项的具体意义见算子的属性说明表格。 3算子的运行 AdaBoost分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接AdaBoost分类算子右击算子点击运行得到AdaBoost分类模型。 运行AdaBoost分类算子获得AdaBoost分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 AdaBoost分类模型算子流 右击模型查看模型的模型信息 AdaBoost分类模型信息 模型的运行结果如图所示 AdaBoost分类模型运行结果 模型的评估结果如图所示 AdaBoost分类模型评估结果 11.12 KNN分类 1.算子介绍 K-近邻算法是一种惰性学习模型(lazy learning)也称为基于实例学习模型这与勤奋学习模型(eager learning)不一样。 勤奋学习模型在训练模型的时候会很耗资源它会根据训练数据生成一个模型在预测阶段直接带入数据就可以生成预测的数据所以在预测阶段几乎不消耗资源。 惰性学习模型在训练模型的时候不会估计由模型生成的参数他可以即刻预测但是会消耗较多资源例如KNN模型要预测一个实例需要求出与所有实例之间的距离。 K-近邻算法是一种非参数模型参数模型使用固定的数量的参数或者系数去定义模型非参数模型并不意味着不需要参数而是参数的数量不确定它可能会随着训练实例数量的增加而增加当数据量大的时候看不出解释变量和响应变量之间的关系的时候使用非参数模型就会有很大的优势而如果数据量少可以观察到两者之间的关系的使用相应的模型就会有很大的优势。 存在一个样本集也就是训练集每一个数据都有标签也就是我们知道样本中每个数据与所属分类的关系输入没有标签的新数据后新数据的每个特征会和样本集中的所有数据对应的特征进行比较算出新数据与样本集其他数据的欧几里得距离这里需要给出K值这里会选择与新数据距离最近的K个数据其中出现次数最多的分类就是新数据的分类一般k不会大于20。 KNN在做回归和分类的主要区别在于最后做预测时候的决策不同。在分类预测时一般采用多数表决法。在做回归预测时一般使用平均值法。 多数表决法分类时哪些样本离我的目标样本比较近即目标样本离哪个分类的样本更接近。 平均值法 预测一个样本的平均身高观察目标样本周围的其他样本的平均身高我们认为平均身高是目标样本的身高。 2.算子类型 机器学习/分类算子 3.算子属性说明 属性 页面显示名称 选项 类型 默认值 约束规则 属性说明 k K值 必填 Int 5 2 K近邻的K值 Wight 权重列设置 非必填 String 无 无 在建模时有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。 feature_weight 是否计算特征重要性 必填 Boolean 是 单选是否 是否计算特征重要性 show_confusion_matrix 是否显示训练数据混淆矩阵 必填 Boolean 是 单选是否 是否显示训练数据混淆矩阵 skip_null_value 是否跳过空值 必填 Boolean 是 单选是否 是否跳过空值 4.算子使用介绍 1算子初始化 参考公共功能算子初始化操作 2算子属性设置 KNN分类算子属性设置如图所示 KNN分类算子属性设置 3算子的运行 KNN分类为建模算子需要先训练数据生成模型再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。 首先通过数据读入算子读取数据中间可以接任意个数据处理算子(例行处理列处理等)然后接类型算子设置Feature列和Label列再接KNN算子右击算子点击运行得到KNN分类模型。 运行KNN分类算子获得KNN分类模型 模型后可接任意个数据处理算子再接图表分析算子或数据写出算子形成算子流执行。模型后也可接评估算子对模型的分类结果进行评估。 KNN分类模型算子流 右击模型可以查看模型的模型信息 模型信息 模型的运行结果如图所示 KNN分类模型运行结果 模型的评估结果如图所示 KNN分类模型评估结果 为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点能够与其他数据科学家和机器学习爱好者交流心得分享经验和解决问题。文章最后附上官网链接感兴趣工具的可以直接下载使用 Sentosa_DSML社区版https://sentosa.znv.com/https://sentosa.znv.com/ ​ Sentosa_DSML算子流开发视频
http://www.dnsts.com.cn/news/63147.html

相关文章:

  • 做淘宝联盟必须要有网站吗wordpress顶踩插件
  • 建设部安全员证书查询网站php怎么建立站点
  • 家政网站制作上海外包seo
  • 网站风格评价重庆广告公司前十名
  • 自学网页设计的网站深圳营销网站制作
  • 如何自建网站?国外服务器推荐
  • 做游戏网站打鱼网站平台在线提交功能
  • 网站域名过户查询企业网站建设哪家公司好
  • 网站建设外包协议范本潍坊市网站制作
  • 怎么自己做电影网站企业建设有限公司
  • photoshop网站模板淄博企业网站
  • 上海频道做网站怎么样商城网站的功能
  • 电脑配件网站建设阿里云网站建设考试题目
  • 黄江镇做网站吉林电商网站建设
  • 广州建站公司有哪些马鞍山市直网站集约化建设
  • 厦门网站建设2网站建设推广营销策划
  • 网站设计一般包括鲜花网站建设介绍
  • wordpress建站收录快seo上排名
  • 华为云网站备案流程网站开发 源代码
  • 创建网站服务器地址做网页做网站的技术人才
  • 坪地网站建设效果什么网站可以做长图
  • 国外网页网站做地铁系统集成的公司网站
  • 网站制作哪里好如何建立wordpress商城
  • 国外做网站侵权企业注册登记查询
  • 做移动网站柳州旅游网站建设
  • c2c的网站家居建材网站源码
  • 网站开发都用php好的推广平台
  • 网上花店网站建设上海公司排名100强
  • 源码网站制作教程wordpress图片博客
  • 东莞做微网站建设石狮建设银行网站