当前位置: 首页 > news >正文

网站效果图模板软件专业做学校网站论文怎么选题

网站效果图模板,软件专业做学校网站论文怎么选题,怎么做新网站的推广,产品线上推广方式有哪些数据仓库的数据存储和处理 数据的ETL过程 数据 ETL 是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换 .加载与索引等数据调和工作,如图 2. 2 所示。 1#xff09;数据提取#xff08;Extract#xff09; 从多个数据源中获取原始数据#xff08;如数据…数据仓库的数据存储和处理 数据的ETL过程 数据 ETL 是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换 .加载与索引等数据调和工作,如图 2. 2 所示。 1数据提取Extract 从多个数据源中获取原始数据如数据库、日志文件、API、云存储等。 数据源可能是结构化如 MySQL、半结构化如 JSON、非结构化如文本。 关键技术SQL 查询、Web 爬虫、日志采集工具如 Flume。 2数据转换Transform 对数据进行清洗、规范化、聚合、去重等处理以满足数据仓库的需求。 典型转换操作 数据清洗去除重复值、填充缺失值、数据格式转换。 数据标准化将数据转换为统一格式如日期格式统一为 YYYY-MM-DD。 数据聚合按时间、类别等维度汇总如计算日均销售额。 数据去重删除重复记录。 关键技术Python Pandas、SQL 处理、Spark 数据流处理。 3数据加载Load 将转换后的数据存入数据仓库或数据湖供 BI 分析或机器学习使用。 加载方式 全量加载一次性导入所有数据适用于初始化。 增量加载只导入新增或变更的数据适用于日常更新。 关键技术批量插入Batch Insert、流式数据处理Kafka Spark Streaming。 ETL 的目标 抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威的数据源。因此要求 ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范化的.可理解的.即时的和质量可控制的。 (1) 详细的。数据是详细的(不是概括的) ,为不同用户构造数据提供最大灵活性,以满足他们的需要。 (2) 历史的。数据是周期性的,用来提供历史记载。 (3) 规范化的。数据是完全规范化的(如第三范式或更高级的范式)。规范化的数据比非规范化的数据能提供更完整 ,更灵活的使用。反向规范化对于改进调和数据层的性能;常不是必需的,因为调和数据通常使用批处理定期访问。然而,导出层的数据往往是非规范化的,一些流行的数据仓库或数据集市的核心数据结构是非规范化的。 (4) 可理解的。要求站在企业整体的角度设计调和数据层数据,它的设计要同企业数据模型一致 (5) 即时的。除了实时数据仓库体系结构之外,数据不需要是实时的。然而,数据必须是足够当前的,以使决策制订能够及时做出反应。 (6) 质量可控制的。调和数据必须有公认的质量和完整性,因为它们将被聚集进数据集市且用于决策制订。 ETL 过程描述 数据的 ETL 过程如图 2. 3 所示 ,由 4个步骤组成,即抽取 清洗 .转换.加载与索引。事实上,这些步骤可以进行不同的组合,如可以将数据抽取与清洗组合为一个过程 ,或者将清洗和转换组合在一起。通常,在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。 数据抽取 从源文件和源数据库中获取相关数据用于填充数据仓库,称为抽取。 并非所有包含在不同操作型业务系统中的数据都需要抽取,通常只需要其中的一个子集。 抽取数据的一个子集是基于对源系统和目标系统的扩展分析 ,一般会由终端用户和数据仓库专家共同决定。 数据抽取的两个常见类型是静态抽取(static extract) 和增量抽取(incremental extract) 。 静态抽取用于最初填充数据仓库,是一种在某一时间点获取所需源数据快照的方法 ,源数据的视图独立于它被创建的时间。 增量抽取用于进行数据仓库的维护,仅仅获取那些从上一次获取之后源数据中所发生的变化; 最普遍的方法是日志获取,数据库日志包括数据库记录中最近变化的后像。 抽取数据进入集结区域的一个关键是源系统中的数据质量。特别是 数据命名的透明度。 以使数据仓库设计者确切地知道什么数据存放于哪个源系统中。 由一个源系统实施的业务规则的完整性和准确性。这将直接影响到数据的精度而且源系统中的业务规则应该同数据仓库中使用的规则相匹配。 数据格式。路数据源的统一格式有助于匹配相关的数据。 数据清洗 为什么需要数据清洗 通常接受的事实是,ETL 过程的作用是为了识别错误数据,而不是处理它们。应该在适当的源系统中进行处理错误数据,以使由于系统过程错误所造成的错误数据不再重新出现。丢弃错误数据且在下一个从相关源系统的反馈中重新处理。 但由于许多常见的原因 ,操作型业务系统中的数据质量很差,这些原因包括雇员和客户的数据登录错误、源系统的变化.损坏的元数据系统错误或抽取过程中对数据的破坏。因此,当源系统工作非常好的时候(例如,源系统使用默认的,但是不准确的值) ,也不能假定数据就是干净的。其中的一些错误和典型的数据不一致性如下。 (1) 错误拼写的名字和地址。 (2) 不可能的或错误的出生日期。 (3) 没有使用目的的字段。 (4) 不匹配的地址和电话区号。 (5) 缺失的数据。 (6) 重复的数据。 (7) 跨源的不一致性(例如不同的地址等。下面是一些错误数据的例子。 客户名字常常用作主码或者客户资料的搜索条件。然而,这些名字常被错误拼写 ,或以几种方式来拼写。 另一种数据污染发生在当一个字段用于某目的时,但实际并不想用这个字段。例如 ,在一个银行中,一个记录字段被设计成保存一个电话号码。然而,不需要使用这个字段的某分支机构负责人就决定用该字段来存储利率。你可能想知道为什么这样的错误在操作型业务数据中如此普遍。 操作型数据的质量在很大程度上决定了由它们所属的企事业组织单位聚集这些数据的价值。因为这些数据的准确程度对下游的数据仓库应用程序是很重要的。 假定错误经常发生,对一个企业或其他组织来说,最坏的事就是把操作型数据简单地复制到数据仓库中。事实上 ,可以通过一种称为数据清洗的技术来改善源数据的质量。 数据清洗(data scrubbing)是一种使用模式识别和其他技术 ,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。怎样清洗随着属性变化的每条数据,在每个ETL 清洗的步骤中值得考虑分析。每次对源数据做出改变时 ,数据清洗技术必须被重新评价。当数据很明显是坏数据时 ,一些清洗就会完全地拒绝这些数据,而且发送一个消息给源系统,让它修正错误数据,同时为下一次抽取做准备。在完全拒绝数据之前,其他清洗结果可能为更详细的手工分析标记数据(例如 ,为什么一个销售员售出比其他销售员多出好几倍的货物) 。 成功的数据仓库 需要实现一个全面质量管理(total quality management,TQM)的正式程序。TQM 侧重于缺陷的预防,而不是缺陷的纠正。虽然数据清洗可以帮助提高数据质量,但并不是一个长期的解决数据质量问题的方法。 数据转换 数据转换在数据的 ETL 过程中处于中心位置,它把数据从源操作型业务系统的格式转换到企业数据仓库的数据格式。数据转换从数据抽取阶段接收数据(如果需要数据清洗,则在数据清洗之后) ,将数据映射到调和数据层(EDW 或 ODS)的格式,然后传递到加载和索引阶段。 数据转换可能只是简单的数据格式等表示方式的变化,也可能是高度复杂的数据组合的变化。 有时 ,数据清洗功能和数据转换功能混合在一起。通常情况下 ,数据清洗的目的是纠正源数据中数据值的错误 ,而数据转换的目的是把源系统中的数据格式转化成目标系统的数据格式。数据转换前进行清洗是非常必要的,因为如果数据在转换之前有错误,错误在转换之后仍会保留。 数据转换包括许多功能,这些功能可以分为两大类: 记录级功能和字段级功能。在大多数数据仓库应用中,需要一些甚至所有这些功能。 记录级功能 对一组记录,例如一个文件或一个表进行操作,是最重要的记录级功能,包括选择 、连接、规范化和聚集。因为选择 .连接.聚集常可用 SQL 语句完成,所以记录级转换通常在操作型数据存储或企业数据仓库中进行。 选择也称为子集化,是一个根据预先定义的规则分割数据的过程。对于数据仓库应用选择功能用于从源系统中抽取相关数据,源系统将用来填充数据仓库。因此,选择可以说是抽取功能的一部分。当源数据是关系表时,SELECT 语句可以用于选择功能。 连接将来自不同源的数据合并到一个单一的表和视图中。连接数据是数据仓库应用中的一个重要功能,因为从不同的源中合并数据常常是必需的。例如 ,一个保险公司的客户数据可能分布在不同的文件和数据库上。当源数据是关系表时,SELECT 语句可用于执行连接操作 。 字段级功能 字段级功能把数据从源记录中给定的格式转变到目标记录中不同的格式。字有段级功能有两种类型: 单字段和多字段。 单字段转换是把数据从单源字段转换到单目标字段。单字段转换的一个例子是把度量单位从本地标准(如斤)转换到公制(千克)。单字段转换有两种基本方法: 算法和表查找。算法转换是使用公式或多辑表达式来执行转换,如使用公式从华氏温度到摄氏温度的转换。当一个简单算法不能实施转换时,可以考虑使用一个查找表(如编码与名称映射表等)来解决。 多字段转换是把数据从一个或多个源字段转换到一个或多个目标字段。这种类型的转换在数据仓库应用中是非当普遍的。 在图 2.4 中给出了两个源字段转换成一个目标字段的例子,两个源字段被映射到一个目标字段中。在源记录表中,商品单价和销售数量是更明细的数据; 但在目标记录表中 ,该组合被映射成了销售金额 ,以便于数据的汇总,这里可以通过算法(金额王单价X数量)来完成转换。但一些复杂转换可能需要创建一个查找表来实现。 数据加载和索引 加载和索引,即是把数据加载到数据仓库或数据集市的过程。填充企业数据仓库的最后一步是加载所选择的数据到目标数据仓库中,并且创建所需的索引。加载数据到目标EDW 中的两个基本方式是刷新方式和更新方式。 刷新方式(refresh mode)是一种填充数据仓库的方法,采用在定期的间隔对目标数据进行批量重写的技术。也就是说,目标数据起初被写进数据仓库,然后每隔一定的时间,数据仓库被重写 ,替换以前的内容。现在这种加载方式越来越不流行了。 更新方式(update mode)是一种只将源数据中的数据改变写进数据仓库的方法。为了支持数据仓库的周期性,便于历史分析,新记录通常被写进数据仓库中,但不覆盖或删除以前的记录,而是通过时间截来分辩它们。 刷新方式通常用于数据仓库首次被创建时填充数据仓库。更新方式通常用于目标数据仓库的维护。刷新方式通常与静态数据获取相结合 ,而更新方式常与增量数据获取相结合。 在刷新或更新数据后,有必要创建或维护数据仓库的索引。位图索引和连接索引当被用于数据仓库环境。 因为数据仓库保存了从不同的源系统中集成而来的历史数据,对数据仓库的用户来说知道数据从何而来非常重要。元数据可以提供关于特定属性的信息,但是元数据也必须表示历史(例如源可能随时间而变)。如果有更多的源或知道哪一个特定的抽取或加载文件把数据放在了数据仓库中 ,或者哪个转换程序创建了数据,更详细的过程可能是必需的(这对于提示数据仓库中所发现的错误源可能是必需的) 。因此 ,跟踪数据仓库数据来源也是有其复杂性的。
http://www.dnsts.com.cn/news/38946.html

相关文章:

  • 石家庄网站建设时光旅游网站开发实验报告
  • 卖汽车配件怎么做网站wordpress 附件上传插件下载失败
  • 网站站点建设的端口成立一家公司的基本流程
  • 虚拟主机空间发布网站网站建实例
  • 哪些网站可以做网店网页翻译器在线翻译
  • c#做的网站怎么上传图片网站开发流程有哪些
  • 做图素材网站wordpress tdk
  • 一个网站备案多个域名吗网站建设及管理工作岗位要求
  • 西樵建网站检查网站是否做网站地图
  • 深圳网站设计吧迅驰互联网站建设网络推广怎么样
  • 网络彩票的网站怎么做腾讯邮箱网页版登录入口
  • 网站域名管理在哪里路由器做网站80端口
  • 关于网站开发的一些论文wordpress怎样上传
  • 怎么把自己做的网站登录到网上网站设计公司 无锡
  • 家具网站建设策划方案300个吉祥公司取名大全
  • 如何利用NAS做网站温州网站专业制作
  • 网站开发设计大赛东莞营销型高端网站建设
  • 外贸网站 源wordpress v2ex主题
  • 好网站建设公司哪里好鹤壁网络推广公司
  • 怎么做不用数据库的网站去哪儿网站做宣传多少钱
  • 网站title标签内容怎么设置设备网站开发
  • 做网站找模版好吗腾讯云自助建站
  • 萍乡建网站建站方案书
  • 深圳建网站一般多少钱wordpress 极简模板
  • 郑州建站优化假网站的域名
  • 厦门本地企业网站建设陵水网站建设介绍
  • 网站开发用什么系统北京南站核酸检测点
  • 建立网站有哪些步骤?时尚网页设计
  • 黑龙江外贸网站制作WordPress安装子目录
  • 仓山区建设局招标网站wordpress响应式商场