甘肃网络公司网站,网站meta模板,wordpress文章如何备份,虚拟专用网络数据分析相关的职位面试可以拆解为以下三块#xff1a;
1#xff09;技术基础
2#xff09;项目经验提问
3#xff09;业务问题
【数据分析与挖掘#xff08;二#xff09;】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客
我裸辞去面试p…数据分析相关的职位面试可以拆解为以下三块
1技术基础
2项目经验提问
3业务问题
【数据分析与挖掘二】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客
我裸辞去面试python岗位了_Python_金钱豹的博客-CSDN博客
sql py编程 面试
02 为什么通过统计指标处理特征缺失值时针对连续型字段经常采用平均值、中位数来填充而不采用最大值、最小值、众数 答采用平均值、中位数可以在一定程度上保证数据的平衡很多情形下可以维持原有数据的分布形态若采用最大值、最小值等方式填充很可能导致处理后的数据分布趋势发生变化尤其是在缺失值数量较多的情况下直接导致出现偏峰分布的现象同时填充后的数据也不符合实际业务的客观理解。当然在某些特定场景下采用最大值、最小值等填充也是完全合理的但一般情况下针对连续型特征采用平均值、中位数相对更合适些。
03 为什么在特征缺失值与异常值处理过程往往异常值处理在前 答如果缺失值处理在前若通过常用的统计指标最大值、最小值、平均值等来填充会将异常值数据考虑在内这相当于将噪音数据成分植入到缺失单元在一定程度上将异常值成分扩散直接影响数据的合理分布。如果异常值处理在前可以先将噪音数据影响的排除然后采用合适的缺失值填充方法处理可以较好保证特征数据分布的原有形态对后续模型训练的影响也明显更小。
04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现 答从箱线图的原理逻辑来讲离散数值型特征是完全支持通过箱线图来识别异常值的而且也具有一定的解释意义但相对连续型特征的箱线图处理离散数值型特征处理过程的合理性有明显欠缺。例如某离散型特征的取值分布为1,2,3,4,10若采用箱线图来判断则10会认为异常值若此特征的标签含义是电商会员卡等级10是很有意义的作为异常值处理是不合理的。因此离散数值型特征往往通过取值占比或人为经验来判断异常值。
05 为什么在数据建模前的特征探索分析很有必要 答样本数据探索的主要目的是为了给后续的数据清洗与特征工程等环节提供信息参考。其中针对数据清洗方面我们可以根据数据的统计分析了解到样本特征的分布类型连续型、离散型、取值类型varchar、int、float、date、缺失值情况、异常值情况等可以进一步决定数据清洗的具体方法例如对于连续型与离散型特征的缺失值处理选取的处理逻辑是有很大区别的连续型采用平均值而离散型采用众数等。针对特征工程方面由于已知特征字段的不同取值类型在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此在数据分析任务中导入数据后的样本探索分析对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。
06 为什么特征衍生时字段维度不要太多 答特征衍生是数据建模过程中经常采用的一项特征工程尤其是针对特征变量池较小的情况但是对原始特征进行衍生的过程中不能一味追寻加工特征的数量务必要考虑特征的业务含义与应用价值在银行等传统金融机构更需要注意这个要点。同时根据原始特征的不断衍生例如通过统计学的差分、占比等维度理论上可以加工出无穷的字段但新字段之间的相关性是很强的在后续特征筛选的环节会很大概率的删除这对工作效率来讲显然是没有必要的即使不进行特征相关性筛选在模型拟合过程中会直接导致模型的共线性而这也并不是我们希望的结果。因此在特征衍生环节要客观分析把握一定的衍生维度与方法是最重要的。
07 为什么特征变量之间的相关性分析很有必要 答特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的对于三方数据测试我们可以根据特征的相关性分析得到相关字段联系的量化指标从而为字段选择与特征引入提供很直观的参考价值对于数据建模特征的相关性分析已经成为一种标配根据字段之间的相关性系数大小可以筛选保留信息度较大的字段不仅可以较大程度减弱模型拟合的共线性而且可以提
面试题在实施A/B test时流量该如何进行分流
答实施A/B test的核心思路有3点一是多个方案同时并行二是控制变量每个方案之间只有一个变量有差异三是明确方案的评价标准即实验组的效果要超过对照组多少才认为是显著的。如果只对一个环节进行A/B test那么每个方案之间的流量是要互斥的并且是随机划分的这样可以保证每个方案的流量都来自于同一个样本空间。
面试题我们公司有一款产品是与银行合作推出的“联名信用卡”这种信用卡可以取现。你认为其中存在的风险点有哪些该如何降低这些风险
答我对您提到的这款“联名卡”的具体业务流程不是特别清楚这里我就假定它和银行的信用卡是类似的。
区别在于贵公司作为资金提供方和流量入口而银行作为发卡机构。我认为存在的风险有3点。
第一是逾期风险这个风险普遍存在于金融领域。解决的方法是不断对风控规则进行迭代定期对模型进行重新训练适应客群的变化。如果可能的话还可以与合作银行进行数据方面的共享降低数据孤岛带来的影响。
第二是欺诈风险。可以采取“面签”的方式降低风险。银行在发放信用卡时几乎都会要求去线下网点面签与银行合作刚好可以发挥这方面的优势。
第三是政策风险。这个风险点在于银行方面出于合规的考虑与贵公司解除合作。