福州网站关键词,多少钱可以注册公司,个人社保缴费基数怎么算,网站建设沟通话术12.1 引言 如果没有元数据#xff0c;组织可能根本无法管理其数据。 ISO/IEC11179 元数据注册标准。 元数据管理原则#xff1a;应归尽归#xff0c;应收尽收。衡量标准#xff1a;目录是否完整。#xff08;去第十二章 元数据管理#xff09;。 主数据管理#xff1a;主…12.1 引言 如果没有元数据组织可能根本无法管理其数据。 ISO/IEC11179 元数据注册标准。 元数据管理原则应归尽归应收尽收。衡量标准目录是否完整。去第十二章 元数据管理。 主数据管理主要的数据先入手。去第十章 主数据与参考数据。
Q1元数据的主要功能
A12 部分查询、分析与报告影响分析、血缘关系分析。Q2上游系统改了内容对下游系统有什么影响
A2影响分析。Q3报告错了怎么办A3血缘关系分析往回追溯。Q4系统中销售额字段有多个如何确定是哪一个
A4查元数据。Q5主动型元数据管理Active MetadataGartner 观点【会考】 A5(1)主动元数据平台始终是最新的。 (2)主动元数据平台不仅仅收集元数据他们从元数据中创建智能。【表经常用73是否能分区】。 (3)主动元数据平台不仅仅局限于智能他们推动行动。【提供建议】。 (4)主动元数据平台是由 API 驱动的支持嵌入式协作。
12.1 元数据建设步骤【5 个步骤建议看看重在理解】
1.定义元数据战略P
启动元数据战略计划、组织关键利益相关者访谈、评估现有元数据资源和信息架构、开发未来元数据架构、分阶段实施计划。
2.理解元数据需求P
对业务、技术、操作三类元数据有不同的需求功能需求更新批次、同步情况、历史信息、访问权限、存储结构、集成要求等。 1业务人员需求。 2技术人员需求。
3.定义元数据架构P【4 种架构】
支持扫描不同元数据源和定期的更新元数据存储库。支持手工更新元数据、请求元数据、查询元数据和不被用户组查询。 1创建元数据D。 2应用元数据标准C。 3管理元数据存储C。
4.创建和维护元数据【形成网址】
责任流程的执行者对元数据的质量负责 标准执行、审计、应用数据标准 改进建立机制持续改进不准确和不及时元数据。 1整合元数据O。 2分布和共享元数据O。 常见的传递机制包括【中心化网址元数据内部网站、数据治理、数据战略、数据安全制度】。
元数据内部网站提供浏览、搜索、查询、报告和分析功能 报告、术语表和其他文档 数据仓库、数据集市和 BI商务智能工具 建模和软件开发工具消息传输和事务 Web 服务和应用程序接口API 外部组织接口方案如供应链解决方案。
5.查询、报告和分析元数据
在商业智能、商业决策、业务语义方面使用元数据为业务、开发人员提供不同的界面以供查询和获取元数据。
12.2 F4Q 数据资产目录和元数据目录、和数据资产目录的关系
【重要】元数据数据资源目录≠数据资产目录资源到资产需要赋予价值登记、认可、价值评估、进入流通环境 1. 元数据数据资源目录 2. 并非所有的数据都是资产作为资产 1所有权或者使用权 2价值体现 i. 数据赋能 ii. 数据交易 3. 数据资产目录建立在元数据基础之上 1数仓相关的元数据 2数据湖相关的元数据 3交换和交易平台相关的元数据 4非结构化数据特别是文档相关的元数据
注业务元数据指向的那些有可能成为数据资产【资产建立在资源基础上操作元数据、技术元数据指向的数据很难成为数据资产往往只是一种材料】。
12.3 数据血缘关系→从下到上追溯【影响分析→从上到下分析】
杭州消费银行数据血缘关系基于阿里巴巴数据贴源层→数据模型层→接口表→转换表→出数表→基础指标→衍生指标。 指标管理目的管理指标的数据字典进行血缘及影响分析做到报表口径有迹可循通过指标口径及存储映射的管理做到指标的自动化获取指标总分关系自动联动钻取。
12.4 元数据可能存在的问题
表里只有系统名称、系统代码、系统模块、表英文名、表描述但是没有中文字段有表中文名、字段序号、字段英文名、字段类型但是字段中文名缺失字段中文名含义不明确等。
12.7 元数据架构
【4 种架构优缺点参考 3 种架构 DMBOK2 P330】
Q元数据架构有哪几种数据治理架构有哪几种A元数据架构 4 种集中式、分布式、混合式、双向数据治理架构3种集中式、分布式、联邦式。
1.集中式元数据架构【参考阿里】
集中式元数据架构由单一的元数据存储库组成包含来自各种不同源的元数据副本。 集中式存储库的优点 1高可用性因为它独立于源系统 2快速的元数据检索因为存储库和查询功能在一起 3解决了数据库结构问题使其不受第三方或商业系统特有属性的影响 4抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充提高了元数据的质量。 集中式存储库的缺点 1必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中 2维护集中式存储库的成本可能很高 3元数据的抽取可能需要自定义模块或中间件 4验证和维护自定义代码会增加对内部 IT 人员和软件供应商的要求。 2.分布式元数据架构【参考华为】
一个完全分布式的架构中维护了一个单一的接入点。 分布式存储库的优点 1元数据总是尽可能保持最新且有效因为它是从其数据源中直接检索的 2查询是分布式的可能会提高响应和处理的效率 3来自专有系统的元数据请求仅限于查询处理而不需要详细了解专有数据结构因此最大限度地减少了实施和维护所需的工作量 4自动化元数据查询处理的开发可能更简单只需要很少的人工干预 5减少了批处理没有元数据复制或同步过程。 分布式存储库的缺点 1无法支持用户定义或手动插入的元数据项因为没有存储库可以放置这些添加项 2需要通过统一的、标准化的展示方式呈现来自不同系统的元数据 3查询功能受源系统可用性的影响若数据源头有问题影响较大 4元数据的质量完全取决于源系统。
3.混合式元数据架构【参考央企】DAMA 内部不一致
混合架构结合了集中式和分布式架构的特性元数据仍然直接从源系统移动到集中式存储库但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据。【联邦式】。 优点 该架构得益于从源头近乎实时地检索元数据和扩充元数据可在需要时最有效地满足用户需求。 混合方法降低了对专有系统进行手工干预和自定义编码访问功能的工作量。基于用户的优先级和要求元数据在使用时尽可能是最新且有效的。混合架构不会提高系统可用性。 缺点 源系统的可用性是一个限制因为后端系统的分布式特性处理查询。在将结果集呈现给最终用户之前需要用额外的系统开销将这些初始结果与中央存储库中的元数据扩展连接起来。
4.双向元数据架构
允许元数据在架构的任何部分源、数据集成、用户界面中进行更改然后将变更从存储库代理同步到其原始源以实现反馈。【联邦式】 存在挑战 强制元数据存储库包含最新版本的元数据源并强制对源的更改管理必须系统地捕获变更然后加以解决必须构建和维护附加的一系列处理接口以将存储库的内容回写至元数据源。
12.5 F3 元模型是什么 【基本会买软件】
元模型存储元数据的模型。
12.6 F1 元数据来源从哪梳理和收集元数据特别是数仓的元数据该怎样梳理
【14and重要】最重要 3 个业务术语表、数据字典、数据库管理和系统目录。 元数据管理的软件系统应该有的功能
1.元数据采集 2.元数据查询 3.元数据分析 4.元数据变更管理 5.元数据浏览视图 6.元数据版本管理 基于现在云计算崭新的趋势增加主动元数据原理、权限管理
12.8 Active MetadataGartner 观点【PPT 翻译理想化】
去掉了被动型元数据管理留下主动性元数据管理。
1.主动性元数据管理 4 个特性
1主动元数据平台始终是最新的。 2主动元数据平台不仅仅收集元数据他们从元数据中创建智能。【表经常用热点是否能分区】。 3主动元数据平台不仅仅局限于智能他们推动行动。【提供建议分区增加索引】。 4主动元数据平台是由 API 驱动的支持嵌入式协作。
2.现代数据模型的数据层的 5 大趋势和变化
1现代数据模型成为主流提供了一系列前所未有的快速、灵活的云原生工具。【不再是仅基于数仓为主云端目前只有一家厂家在做】。 2数据团队比以往任何时候都更加多样化导致混乱和协作开销。上下文是关键元数据是解决方案。【业务人员也需要用到数据】。 3数据治理正在重新构想从自上而下的集中规则到自下而上的分散举措–这需要对元数据平台进行类似的重新构想【去中心化】。 4随着元数据成为大数据元数据湖在今天和明天都有无限的用例。 5被动元数据系统正在被废除取而代之的是主动元数据平台。
3.现代数据架构
1现代数据架构需要考虑 ①Self-service for a diverse range of users 自助服务。 ②“Agile” data management – dataops 敏捷数据应用【dataops 数据架构搞敏捷是不太可能的数据应用搞敏捷现在是一边应用一边开发】。 ③Cloud-first and cloud-native 考虑上云端数据【DCMM中未考虑cloud云端数据】。 特征 Super fast set-up 超快速设置、 Pay as you go 现收现付、 Plugandplay即插即用、 Elastic compute 弹性计算、 No monoliths 没有巨石没有很大的阻碍、 Always available 始终可用。 内容 Data ingestion 数据摄入 ETLfivetran/stitch/singer/airbyte【崭新引擎针对现代数据架构】。 Data warehouse 数据仓库snowflake【星型设计、雪花模型】amazonredshift。 Data lake 数据湖starburst/amazon athena。 Data lakehouse 数据湖仓databricks【bill innom是独立董事】。 Data transformation 数据转换 ETL 的 Tdbt/matillion/airflow/R/python。 Business intelligence 商业智能looker/tableau/mode/thoughtspot。 Data science 数据科学jupyter/datarobot。 Data accessgoverance 数据访问data discovery/datacataloging/data observability/visual query workbench/metricsrepository/data lineageRCA。 Atlan云端/acceldata/transform/datahub/monte carlo/amundsen。 2数据用户的多样性【以前是 IT 在用现在业务人员也在用】。 3数据治理的新态势和新目标。 Data governance→“Data and analytics”governance 数据治理→数据和分析治理大数据杀熟。 Centralized approach→Decentralizedcommunity-led approach集中式思考→去中心化、社区主导的方法。Afterthought→Part of daily workflows 经过思考→日常工作流程的一部分。 4元数据的数据湖的兴起。
12.9 F2 怎样应用元数据 DMBOK2 P338
元数据指导如何使用数据资产在商务智能报表和分析、商业决策操作性、运营型和战略型以及业务语义业务所述内容及其含义方面使用元数据。元数据存储库应具有前端应用程序并支持查询和获取功能从而满足以上各类数据资产管理的需要。提供给业务用户的应用界面和功能与提供给技术用户和开发人员的界面和功能有所不同后者可能会包括有助于新功能开发如变更影响分析或有助于解决数据仓库和商务智能项目中数据定义问题如数据血缘关系报告的功能。 1用于查询 2分析和报告如影响分析、血缘关系分析。
12.10 F5 元数据上线后如何维护
需要及时更新上游有改动下游需更新。
12.11 F6Q 元数据系统应该具有哪些功能 【非常重要】购买元数据管理系统。
Q元数据系统应该具有哪些功能【重要】→主数据应该有哪些功能【参考第十章】 A8 个功能 元数据采集、 元数据查询、 元数据分析、 元数据变更管理、 元数据浏览视图、 元数据版本管理。←都是必须要有的基于云计算趋势应该增加主动性元数据管理功能权限管理。
12.12 Q 元数据应该包括数据的哪些属性特别是数据质量和数据安全属性
A除了现有数据类型、约束等内容 还需至少再打2 个标签质量属性及安全属性。→主动性元数据管理内容在元数据搜集来之后每个表及字段主动打标签。
12.13 Q 集团数字化转型应该从哪个领域开始
数据管理需要元数据理想化的情况下集团数字化转型从元数据开始。
12.14 F7 如果元数据没有管理好会怎样【重点 DMBOK2 P322】
1.冗余的数据和数据管理流程 2.重复和冗余的字典、存储库和其他元数据存储 3.不一致的数据元素定义和与数据滥用的相关风险 4.元数据的不同版本相互矛盾且有冲突降低了数据使用者的信心 5.怀疑元数据和数据的可靠性。
12.15 元数据有助于【DMBOK2 P322】
1.通过提供上下文语境和执行数据质量检查提高数据的可信度 2.通过扩展用途增加战略信息如主数据的价值 3.通过识别冗余数据和流程提高运营效率 4.防止使用过时或不正确的数据 5.减少数据的研究时间 6.改善数据使用者和 IT 专业人员之间的沟通 7.创建准确的影响分析从而降低项目失败的风险 8.通过缩短系统开发生命周期时间缩短产品上市时间 9.通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响 10.满足监管合规。
12.16 补充元数据方法
1、血缘分析 告诉你数据来自哪里都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源快速地定位到问题数据的来源和加工过程减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时快速定位和找到数据问题的原因。血缘分析是一种技术手段用于对数据处理过程的全面追踪从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。在元数据管理系统成型后我们便可以通过血缘分析来对数据仓库中的数据健康、数据分布、集中度、数据热度等进行分析。 2、影响分析 告诉你数据都去了哪里经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪快速找到都哪些应用或数据库使用了这个数据从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游 ETL、ODS、DW 等应用应用的影响分析。在开发中我们经常会遇到以下问题如果我要改动某个表、ETL会造成怎样84的影响如果没有元数据那我们可能需要遍历所有的脚本、数据。才能得到想要的答案而如果有成熟的元数据管理那我们就可以直接得到答案节省大量时间。 3、冷热度分析 告诉你哪些数据是企业常用数据哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度以便更好的驾驭数据激活或处置“僵死数据”从而为实现数据的自助式分析提供支撑。 4、关联度分析 告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况形成一张实体和所参与处理过程的网络从而进一步了解该实体的重要程度如表与 ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。 5、数据资产地图 告诉你有哪些数据在哪里可以找到这些数据能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程通过不同层次的图形展现粒度控制满足业务上不同应用场景的数据查询和辅助分析需要。