做棋牌网站违法嘛,江苏省住房与城乡建设部网站,找代做海报的网站,宁波网络推广制作引言 信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失#xff0c;并提高业务效率。通过不断优化建模方法和利用建模工具#xff0c;金融机构的风险控制能力得到了显著提升。 在本文中#xff0c;…引言 信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失并提高业务效率。通过不断优化建模方法和利用建模工具金融机构的风险控制能力得到了显著提升。 在本文中一位来自国内头部互联网银行的零售信贷风险建模专家使用RapidMiner软件进行信用卡违约预测建模全过程。鉴于数据保密原则和法规他选择了公开的UCI台湾信用卡数据集进行试验和演示。 让我们一起来看看他的最终试验过程和结论。 01、数据集简介
我们用到的数据集是UCI台湾信用卡数据集它是一个由UCI维护的公开机器学习数据集用于信用卡违约预测该场景是信贷风控最常见的应用场景。该数据集由台湾的一家信用卡公司提供包含 2005 至 2017 年期间客户的人口学统计特征、信用情况、信用卡还款、信用卡账单、信用卡付款等维度的数据整个数据集包含30000条记录、25个字段。 先来认识一下数据集各字段的具体含义 ID客户ID LIMIT_BAL信用额度包含个人信用额度和家庭信用额度 SEX性别1-男、2-女 EDUCATION教育水平1-研究生、2-本科、3-高中、4-其他、0/5/6-未知 MARRIAGE婚姻状态1-已婚、2-单身、3-其他 AGE年龄 PAY_02005年9月的还款状态-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款依次类推8-延迟8个月还款、9-延迟9个月还款 PAY_2~PAY_6分别对应2005年8月至2005年4月的还款状态特征码值同上 BILL_AMT1~BILL_AMT6分别为2005年9月至2005年4月每月的账单金额即每月信用卡消费金额 PAY_AMT1~PAY_AMT6分别为2005年9月至2005年4月每月的付款金额包括还账单金额和存入信用卡金额 default_payment_next_month目标变量数据集的预测变量变量含义为下个月还款违约情况1-是-逾期、0-否-未逾期。 补充说明 若PAY_AMT低于银行规定的最低还款额则视为违约 若PAY_AMT大于上月账单金额BILL_AMT则视为正常还款 若PAY_AMT大于最低还款额但低于上月账单金额则视为延迟还款。 02、利用RapidMiner的Turbo Prep
模块进行数据探索分析 图1 - RapidMiner欢迎界面 启动RapidMiner 后如图1我们从Turbo Prep进入数据准备模块该模块可完成数据探索分析、数据清洗和特征组合衍生等工作。 1数据概览 图2 - 数据导入 将已准备好的UCI台湾信用卡数据集导入。基于对数据集的认识ID为客户ID、default_payment_next_month为目标变量在“Format your columns”环节将以上两个字段的列属性分别调整为“id”和“label”。 图3 - 数据概览界面 完成导入我们则会看到如图3所示的数据集概览。对于每一列数据我们可以快速地查看分布直方图的缩略图、综合有效度线条、数据类型等概览信息。右键查看数据列详情则可观测到更多的统计信息如图4包括汇总信息如缺失率Missing、极限值占比Infinite、ID属性程度ID-ness、稳定性Stability、有效观测值占比Valid统计信息最值、均值、标准差以及粗略的变量分布图。 图4 - 数据列详细信息 2可视化探索 应用Turbo Prep的CHARTS图表来对数据进行交互式可视化。如图5所示Turbo Prep支持十分丰富的图表类型折线图、散点图、面积图、直方图、密度图、热图、饼图、帕累托图等均可完美支持。 图5 - Turbo Prep支持的图表类型 如图6展示了按照EDUCATION教育水平进行分组后对ID列进行计数统计以饼图的形式展示了不同教育水平的分布占比。 图6 - 饼图 Turbo Prep的CHARTS图表功能使得数据可视化工作更加灵活高效可帮助数据科学家更好的洞察数据模式并进行有效的信息传递。 3数据透视 数据透视通过分组汇总和聚合分析快速查看数据的趋势、模式和异常值。 图7 - 信用额度透视分析 图8 - 违约比例透视分析 例如我们想要观测在性别和婚姻状态的分组下信用额度及信用卡违约情况是如何变化的。 如图7“已婚”人士通常可获得更高的信用额度“已婚男性”分组下平均信用额度最高“其他男性”分组下平均信用额度最低。 如图8无论男性还是女性均为婚姻状态为“其他”分组下的违约比例最高而且各婚姻状态下男性的违约比例都要高于女性。 综合分析在婚姻状态中除“已婚”、“单身”“其他”往往意味着离异或丧偶等婚姻状态蕴含着潜在的经济不稳定性所以金融机构给予“其他”客户以较低的信用额度体现到逾期表现上违约比例也是最高的。 如何评价RapidMiner Altair RapidMiner作为一款强大的可视化数据科学计算平台产品其在数据探索分析中的优势包括 高易用性从数据导入到单变量分析、图表分析、聚合透视分析RapidMiner在操作上体现了较高的易用性整个数据探索分析工作仅借助产品简洁的说明信息即可完成 强大的图表可视化功能RapidMiner强大的图表功能有效解决了数据探索分析的可视化工作通过丰富的图表类型揭示数据的内在模式 交互体验好RapidMiner数据准备模块的PIVOT数据透视功能中拖拉式操作、实时聚合计算、透视分析结果可视化展示体现了极佳的交互体验。 ——某互联网银行风控建模团队主管 如您对数据分析以及人工智能感兴趣想要站在全球视野看待人工智能的发展
那么一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers”
会议将邀请全球知名专家与权威学者共同探讨生成式人工智能(GenAI) 如何助力产品设计研发
点击立即免费报名 关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息欢迎访问
www.altair.com.cn