建立网站用英语怎么说,叮当设计网,宁德市公共资源交易中心,网络项目资源网整体求解过程概述(摘要) 近年来#xff0c;全球早产率总体呈上升趋势#xff0c;在我国#xff0c;早产儿以每年 20 万的数目逐年递增#xff0c;目前早产已经成为重大的公共卫生问题之一。据研究,早产是威胁胎儿及新生儿健康的重要因素#xff0c;可能会造成死亡或智力体…整体求解过程概述(摘要) 近年来全球早产率总体呈上升趋势在我国早产儿以每年 20 万的数目逐年递增目前早产已经成为重大的公共卫生问题之一。据研究,早产是威胁胎儿及新生儿健康的重要因素可能会造成死亡或智力体力缺陷因此研究早产的影响因素建立预测早产的模型就显得极为重要。我们以问卷、面对面访谈的方式收录了湖南省妇幼保健院 2013 年 5 月 13 日-2019 年 12 月 31 日妊娠 8-14周且接受首次产前护理的孕妇共 18527 份样本调查研究孕妇包括医学和社会学信息在内的 104 个变量。基于大样本、多变量的数据特征对数据预处理后首先基于传统的统计方法依次通过 SMOTE 过采样均衡数据、x2 相似性检验剔除无关变量、二阶聚类TwoStep Cluster实现降维用 Binary Logistic 建立早产预测模型并通过 AUC-ROC 曲线对早产预测模型进行准确性检验在此基础上进一步探讨并合理利用机器学习的效力用数据挖掘的方法依次通过随机欠抽样平衡样本特征选择变量实现变量降维分别用决策树 C5.0 算法推理集 C5.0算法决策树 CHAID 算法建立早产预测模型并通过 boosting 技术提高模型稳健性。 根据二阶聚类降维结果、Binary Logistic 建立的早产预测模型及检验结果发现城乡分组、人均月收入、母亲孕前 BMI 分组、受精方式、受孕方式、孕次分组、孕早期柯萨奇病毒、孕前既往性病史、是否采用剖宫产、配偶 BMI 分组这 10 个变量与是否早产的相关性较强且在经过哑变量处理后适用于建立早产预测模型。通过 AUC-ROC 曲线检验出该早产预测模型拟合度良好。在初步探索之后进一步深入利用机器学习即分别使用决策树 C5.0 算法推理集 C5.0 算法决策树 CHAID 算法建立三个早产预测模型。其中通过决策树 C5.0 算法建立的早产预测模型在测试集上的准确性为 93.78%平均正确性为 0.859、平均不正确性为 0.692推理集 C5.0 算法的准确性为 95.92%平均正确性为 0.824、平均不正确性为0.714决策树 CHAID 算法建立的早产预测模型在测试集上的准确性为79.58%取置信度为 0.812。
数据预处理 一变量预处理 类别化处理及选择将品质变量整理成 0-1 型数值变量如民族对于连续变量和其他可合并的变量进行整合这样会得到有重复信息的变量比如配偶BMI 值和配偶 BMI 值分组受孕方式和受孕方式两分类。不做特别说明的情况下本次研究将主要使用分类型变量且选择使用分类型变量中分组较少的那一个比如刚刚提到两组变量均选择后一组变量进入样本。这是因为在本次研究中分类型变量占绝大多数而相同的数据类型有更方便建模的处理投入到未来实际预测操作中也更加简单明了。 二样本处理 类别不平衡class-imbalance指分类任务中不同类别的训练样例数目差别很大的情况。在分类学习中方法默认不同类别的训练样例数目基本相当。若样本类别数目差别很大属于极端不均衡会对学习过程模型训练造成困扰。这些学习算法的设计背后隐含的优化目标是数据集上的分类准确度而这会导致学习算法在不平衡数据上更偏向于含更多样本的多数类。多数不平衡学习imbalance learning算法就是为解决这种“对多数类的偏好”而提出的。据实践经验表明正负类样本类别不平衡比例超过 4:1 时分类要求会因为数据不平衡而无法得到满足分类器处理结果将变差导致预测效果达不到预期要求。在本次研究项目中早产 0:1 比约为 5:10 为不发生1 为发生。本论文其他部分未做其他说明时都按照该标签规则因此在构建模型之前需要对该分类不均衡性问题进行处理。
二阶聚类 实现步骤 步骤 1、建立树根 clusterfeature,树根在一开始每个节点中会放置一个数据集中的第一个记录它就包含有这个数据存储集中每个变量的信息。相似性用的是距离数值测量数据的相似性可以作为进行距离数值测量的主要标准。相似度高的变量位于同一节点同时相似度低的变量生成新节点。似然归类测度模型假设每个变量必须服从特定的概率分布聚类模型要求分类型独立变量必须服从多项式概率分布数值型独立变量必须服从正态概率分布。 步骤 2、合并聚类算法。生成的聚类方案具有不同聚类数不同的聚类数是基于合并聚类算法下节点的组合成果。 步骤 3、选择最优聚类数。通过 BICBayesian Information Criterion 准则对各聚类情况进行比较选出最优聚类方案。 数值说明 ①对数似然这种度量方式用于研究某种以确定概率分布的独立变量。其中数值型变量服从正态分布分类型变量服从多项式分布。 ②Bayesian 信息准则( BIC)在只有部分信息时要预测未知状态下的部分信息值选用主观概率修正发生概率时采用贝叶斯公式将得到的修正概率与预期产出的值结合计算出最优决策。 计算公式 BICln(n)k–2ln(L) 其中k 为模型参数个数n 为样本数量L 为似然函数 聚类结果 二阶聚类适用于多分类变量的降维问题。显然本次研究数据可选用 SPSS 中的二阶聚类对变量进行降维聚类效果为良好并最终由 77 个自变量降维到 14个主要变量(该 14 个变量重要性都为 1)
模型的建立与求解整体论文缩略图 全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可
程序代码(代码和文档not free)
from imblearn.over_sampling import SMOTE
import numpy as np
from sklearn.model_selection import train_test_split
data pd.read_excel(1(2).xlsx) #读取数据集
data data.dropna(axis 1, how any) # 丢弃有 NAN 的列
data data.dropna(axis 0, how any) # 丢弃有 NAN 的行
data data.drop(columns[ID, 调查人署名]) # 丢弃 ID 和调查人属名这两
个非 float放在这里是无效的
var data.columns
Y data.iloc[:,-1] # 获得因变量数据
X data.iloc[:,:-1] # 获得自变量数据
oversamplerSMOTE(random_state2021) # 导入过采样库—SMOTE 算法
# x_train, x_valid_test, y_train, y_valid_test
train_test_split(X,Y,test_size0.3,random_state2020) # 将数据集切分为 训练集和
验证测试集
x_train,y_trainoversampler.fit_sample(X,Y) # 对训练集进行 SMOTE 过采样
得到过采样后的自变量和因变量
#
x_valid,x_test,y_valid,y_testtrain_test_split(x_valid_test,y_valid_test,test_size0.3,r
andom_state2020)
data_smote pd.concat([x_train,y_train],axis 1)全部论文请见下方“ 只会建模 QQ名片” 点击QQ名片即可