网站系统灵活性,wordpress电影网站模板,wordpress整站迁移出现403,网站404怎么做视频教程以下是一些在工作过程中的小笔记#xff0c;写的比较杂乱#xff0c;后续再进行分类~
1、掌握sql窗口函数 窗口函数又名开窗函数#xff0c;属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数。窗口函数用于计算基于组的某种聚合值#xff0c;它和聚合函数的…以下是一些在工作过程中的小笔记写的比较杂乱后续再进行分类~
1、掌握sql窗口函数 窗口函数又名开窗函数属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数。窗口函数用于计算基于组的某种聚合值它和聚合函数的不同之处是对于每个组返回多行而聚合函数对于每个组只返回一行。 开窗函数指定了分析函数工作的数据窗口大小这个数据窗口大小可能会随着行的变化而变化。下面列举一些常用窗口函数 获取数据排名的ROW_NUMBER() RAND() DEBSE_RANK() PERCENT_RANK() 获取分组内的第一名或者最后一名等FIRST_VALUE() LAST_VALUE() LEAD() LAG() 累计分布vCUME_DIST() NTH_VALUE() NTILE()
2、统计概率 描述性统计平均值标准差中位数 概率独立事件相关事件期望包括贝叶斯 概率分布离散概率分布连续概率分布 统计推断抽样置信区间假设检验
3、介绍项目主要采用STAR原则去讲解有过程有结果。 STAR原则是四个四个英文单词的首字母组合分别是Situation情景、Task目标、Action行动和Result结果。
4、AB测试与假设检验 AB测试为同一个目标设计两种方案将两种方案随机投放市场中让组成成分相同相似用户去随机体验两种方案之一根据观测结果判断哪个方案效果更好结果可以通过CTR点击率CTR 点击次数 / 展示次数×100%或者下单率来衡量。 假设检验假设检验是先对总体参数提出一个假设值然后利用样本信息判断这一假设是否成立是传统统计学的重要内容主要有卡方检验看分类数据之间有没有关联、t检验比较平均值、F检验比较方差-离散程度等在AB测试中扮演显著性检验的角色。
5、TO C指标体系 指标是量化衡量标准、衡量目标的单位或方法例如对电商或内容数据分析来说最常见的指标就是UV独立访客数和PV页面浏览量而针对APP来说最常见的就是DAU日活跃用户数MAU月活跃用户数。 核心指标休眠用户、潜在用户、活跃用户、流失用户、进入活跃用户、今日注册用户、今日访问用户、今日下单用户 流量指标PV、UV 转化率留存指标总体转化率、百度转化率等次日留存、三日留存、七日留存等 内容质量指标播放量、刷新量、展现量、分发量、点击量、播放完成量、下载量 商品运营指标商品分享类指标、商品复购类指标、商品收藏购买指标
6、如果次留下降了 5%该怎么分析 首先采用“两层模型”分析对用户进行细分包括新老、渠道、活动、画像等多个维度然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁 对于目标群体次日留存下降问题具体情况具体分析。具体分析可以采用“内部-外部”因素考虑内部因素分为获客渠道质量低、活动获取非目标用户、满足需求新功能改动引发某类用户不满、提活手段签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等外部因素采用PEST分析政治政策影响、经济短期内主要是竞争环境如对竞争对手的活动、社会舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化、技术创新解决方案的出现、分销渠道变化等
7、AARRR模型是什么 AARRR分别代表了五个单词又分别对应了产品生命周期中的五个阶段 获取Acquisition用户如何发现并来到你的产品 激活Activation用户的第一次使用体验如何 留存Retention用户是否还会回到产品重复使用 收入Revenue产品怎样通过用户赚钱 传播Refer用户是否愿意告诉其他用户
8、CPA、CPS、CPM、CPT、CPC 是什么? CPA(Cost Per Action) 每行动成本。CPA是一种按广告投放实际效果计价方式的广告即按回应的有效问卷或注册来计费而不限广告投放量。电子邮件营销EDM现在有很多都是CPA的方式在进行。 CPS(Cost Per Sales)以实际销售产品数量来换算广告刊登金额。CPS是一种以实际销售产品数量来计算广告费用的广告这种广告更多的适合购物类、导购类、网址导航类的网站需要精准的流量才能带来转化。 CPM(Cost Per Mille) 每千人成本。CPM是一种展示付费广告只要展示了广告主的广告内容广告主就为此付费。 CPT(Cost Per Time) 每时间段成本。CPT是一种以时间来计费的广告国内很多的网站都是按照“一个星期多少钱”这种固定收费模式来收费。 CPC(Cost Per Click) 每点击成本。CPC是一种点击付费广告根据广告被点击的次数收费。如关键词广告一般采用这种定价模式比较典型的有Google广告联盟的AdSense for Content和百度联盟的百度竞价广告。
9、数据缺失值处理办法 删除样本或删除字段 用中位数、平均值、众数等填充 插补同类均值插补、多重插补、极大似然估计 用其它字段构建模型预测该字段的值从而填充缺失值注意如果该字段也是用于预测模型中作为特征那么用其它字段建模填充缺失值的方式并没有给最终的预测模型引入新信息 onehot将缺失值也认为一种取值 压缩感知及矩阵补全
10、用Python怎么进行数据分析 数据获取如果采用现有数据集则直接用内置函数或第三方库读取如果没有现成数据运用requests库和bs4库等进行数据采集。 数据清洗利用numpy、pandas等库进行缺失值、异常值处理。 数据探索利用pandas、matplotlib等库进行数据描述统计分析及可视化。 特征工程构建指标体系采用sklearn等库中聚类降维与特征筛选方法进行特征工程构建。 数据建模利用传统统计学模型statsmodels库或者机器学习模型sklearn、keras、tensorflow、pytorch等库进行建模并评估最终得出结果。
11、数仓中ODS、DW、DM概念及区别 ODS(Operational Data Store) 主要用于存储从各个业务系统是简单清洗过的原始数据。ODS的数据最终流入DW。及时性、与业务数据相近、数据质量低。 DW (Data Warehouse)数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。从 ODS 以及其他外部数据源中获取数据经过了 ETL抽取、转换、加载过程使得数据能够以一种统一的、适合分析的方式存储。。并且数据仓库的数据会保留历史记录用于支持数据分析和决策。面向主题、数据集成高、相对稳定更新与历史数据 DM(Data Mart) 数据集市,DW的子集为了满足特定业务的数据分析需求而构建的小型数据仓库针对性强数据范围窄便于分析与访问。
12、数仓中维度建模含义有哪几种模式 维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。 它本身属于一种关系建模方法包含了基本的两个概念维度表(dimension 表示对分析主题所属类型的描述。)和事实表(fact table表示对分析主题的度量)。 维度建模包含三种模式 星形模式由一个事实表和多个维度表组成适用于相对简单、业务规则明确的数据分析场景一张表多个维度分析 雪花模式雪花模式是对星型模式的扩展和细化。在雪花模式中维度表可以进一步分解为多个子维度表形成一种类似雪花的形状。适用于对数据规范性要求较高、数据冗余度要求较低并且对查询性能要求不是特别高的场景一张表多个维度内拆分维度分析 星座模式包含多个事实表这些事实表共享一些维度表多个表共用维度分析
13、维度表和事实表 维度表主要用于描述事实表中的数据包含了用于对事实进行分类、筛选、汇总的各种属性信息 事实表存储业务过程中的度量数据也就是业务的关键绩效指标KPI相关的数据是数据分析的核心。 二者关系事实表与维度表通过外键-主键进行关联这样就可以从事实表中的数据追溯到相应的维度信息从而实现从多个维度对事实进行分析。
14、维度和度量 维度是观察和分析数据的角度或属性。它用于对数据进行分类、分组和筛选帮助用户从不同的层次和范围理解数据。 度量是可以进行量化和计算的业务数据指标用于衡量业务活动的程度或结果。值
15、埋点 埋点是一种数据采集的方法它是在应用程序包括网站、移动 APP 等中特定的位置添加代码用来记录用户的行为以及应用程序的状态变化等相关信息。就像是在程序中 “埋下” 了一个个数据收集的 “点”当用户的操作或者程序运行到这些点的时候就会触发数据记录的动作。
16、数据模型概念 1定义 数据模型是一种对数据特征的抽象表示它通过定义数据的结构、关系以及约束条件来描述数据如何被组织、存储和操作。简单来说数据模型就像是一个蓝图规定了数据的形状、各个部分之间的关联方式以及一些必须遵守的规则。 例如在一个图书馆管理系统中书籍的数据模型可能包括书籍的编号、书名、作者、出版日期、类别等信息。这些信息的组合方式和它们之间的相互关系如一本书只有一个编号一个作者可以有多本书等就构成了书籍数据的模型。 2 分类 概念数据模型定义字段从业务角度描述数据的需求和概念如用户、商品、订单等实体且之间或存在购买等相互作用的关系 逻辑数据模型设计表结构定义了数据的结构和关系如详细定义 用户ID-主键、用户名、密码、订单ID-主键等属性且定义订单与用户之间通过用户ID进行关联-外键关系 物理数据模型数据库信息考虑了具体的数据库管理系统DBMS的特性如数据类型、存储方式等如定义用户Id为INT、用户名为VARCHAR等、数据文件存储位置等 3数据模型设计流程 需求分析阶段业务理解是什么、数据需求梳理目的、确认数据范围和边界范围 概念模型设计阶段识别实体有什么、定义实体属性、确认实体之间关系关系 逻辑模型设计阶段数据结构细化将实体转换为逻辑上的表结构、定义完整性约束、设计数据操作逻辑考虑如何对数据进行增、删、改、查操作 物理模型设计阶段选择数据库管理系统DBMS、确定数据存储结构、考虑性能优化、进行容量规划和存储分配 模型验证和优化阶段数据模型验证检查能够满足业务需求包括存储/查询/更新等操作是否符合预期/准确、性能测试和优化、反馈和调整
17、运营中产生的数据包括全局数据all和用户个体数据针对单人的信息
18、聚合窗口函数和聚合函数的区别 1聚合函数 对一组值计算返回一个单一值如 SUM、AVG 等。 常和 GROUP BY 一起用结果集行数会因分组而减少或只有一个值无分组时。 计算是基于整个数据集或分组后的组。 2聚合窗口函数 也进行聚合操作但为每一行返回一个聚合值。 结果集行数和原始数据集相同。 通过定义窗口分区、排序、范围等在滑动窗口内计算。
19、常见的连接方式有哪些 内连接INNER JOIN返回两表中满足连接条件的行用于获取相互关联的数据。 左连接LEFT JOIN返回左表所有行和右表中匹配的行用于完整保留左表记录。 右连接RIGHT JOIN返回右表所有行和左表中匹配的行用于完整保留右表记录。 全连接FULL JOIN返回两表所有行用于合并全部信息。 交叉连接CROSS JOIN返回两表所有行的组合用于生成所有可能的组合情况。
20、通配符有哪些 %百分号在 SQL 的LIKE操作符中使用可匹配零个或多个字符。 _下划线在LIKE操作符中使用只能匹配单个字符。 []方括号在LIKE操作符中使用用于指定一个字符集合匹配集合中的任意一个字符。