青岛网站开发,个人简历通用免费模板,建立企业网站的技能,系统优化本章内容包括#xff1a;
了解Power BI可以处理的不同类型的数据了解您的商业智能工具选项熟悉Power BI术语
数据无处不在。从你醒来的那一刻到你睡觉的时候#xff0c;某个系统会代表你收集数据。即使在你睡觉的时候#xff0c;也会产生与你生活的某些方面相关的数据。如…本章内容包括
了解Power BI可以处理的不同类型的数据了解您的商业智能工具选项熟悉Power BI术语
数据无处不在。从你醒来的那一刻到你睡觉的时候某个系统会代表你收集数据。即使在你睡觉的时候也会产生与你生活的某些方面相关的数据。如何处理这些数据通常是一个众所周知的6400万美元的问题。这些数据有意义吗它有什么结构吗数据集是否如此庞大以至于找到你想要的东西就像大海捞针或者除非你有一个特殊的工具来帮助你导航否则你甚至找不到你需要的东西
我会坚定地肯定最后一个问题这就是数据分析和商业智能加入派对的原因。老实说如果数据总是代表你产生一些东西那么这个政党可能会势不可挡。
请记住处理数据并不总是一件烦人的事——探索数据也很有趣。有时很容易准确地找出解决问题需要什么但在其他时候你需要戴上你的福尔摩斯猎鹿帽。为什么因为你正在处理的数据可能缺乏结构和意义。当然你一定要拿起工具来帮助你扮演侦探、评估者、设计师和负责人的角色。
在本章中我将讨论您在旅程中可能遇到的不同类型的数据。回顾你应该提前熟悉的关键术语。别担心你不需要背字典。你将学习一些关键概念让您在Power BI和商业智能方面处于领先地位。
什么是数据
问一个房间里的一百个人数据的定义是什么你可能会得到一百个不同的答案。为什么因为在商业世界里数据对很多不同的人来说意味着很多不同的东西。所以让我们试着得到一个精简的回应。数据包含事实。有时事实是有道理的有时除非你添加一点上下文否则它们毫无意义。
事实有时可以是数量、字符、符号或者在收集信息时汇集在一起的各种组合。这些信息让人们——更重要的是让企业——能够理解事实除非把这些事实放在一起否则毫无意义。
当您的信息系统中充满了业务数据时您还必须有一组可以使用的唯一数据标识符这样在搜索时就可以很容易地以事务的形式理解数据。交易的例子可能包括完成的工作数量、处理的查询、收到的收入和发生的费用。
列表可以一直列出。要深入了解业务互动并进行分析您的信息系统必须具有最高质量的相关及时数据。
记住数据与信息不同。数据是原始事实。这意味着您应该根据关系数据库中可能找到的单个字段或数据列来考虑数据或者可能是存储在文档存储库中的松散文档用一些称为元数据的描述符标记。就其本身而言这些项目对你或企业来说都不太可能有多大意义。有时候这完全没问题。信息是所有这些数据部分的集体这导致事实具有逻辑意义。
使用结构化数据
您是否打开过数据库或电子表格并注意到数据绑定到特定的列或行例如你能找到一个包含字母表中字母的美国邮政编码吗或者当你想到名字、中间首字母和姓氏时你会注意到你总是在这些特定的字段中找到字母。另一个例子是当您可以在字段中输入的字符数受到限制时。把Y看作是N代表否。其他任何事情都无关紧要。
我在这里描述的是结构化数据。当您评估结构化数据时您会注意到它符合表格格式这意味着每一列和每一行都必须保持相互关系。因为每个列都有一个代表性的名称该名称符合预定义的数据模型所以分析数据的能力应该很简单。
如果您使用Power BI您会注意到结构化数据符合具有行和列的表的正式规范通常称为数据模式。在图1-1中您可以看到一个出现在MicrosoftExcel电子表格中的结构化数据示例。 请记住无论您是将Power BI用于个人分析、教育目的还是业务支持BI工具最易访问的数据源都是结构化的。提供强大结构化数据选项的平台包括Microsoft SQL Server、Microsoft Azure SQL Server、微软Access、Azure表存储、Oracle、IBM DB2、MySQL、PostgreSQL、Microsoft Excel和谷歌表单。
查看非结构化数据
非结构化数据是模糊的没有任何韵律、理由或一致性。假装你正在看一批照片或视频。是否存在可以与视频或照片关联的明确数据点也许因为文件本身可能由一个结构组成并由一些元数据组成。然而副产品本身——所代表的描绘--是独一无二的。数据不可复制因此它是非结构化的。这就是为什么任何视频、音频、照片或文本文件都被视为非结构化数据的原因。
将半结构化数据添加到组合中
半结构化数据确实有一些形式但它不是存储在关系系统中的也没有固定的格式。包含数据的字段绝不能整齐地组织成战略性放置的表、行或列。相反半结构化数据包含的标签使数据更容易以某种形式的层次结构进行组织。非关系数据系统或NoSQL数据库最好与半结构化数据相关联在半结构化数据中编程代码通常是序列化的由技术要求驱动。没有硬性的编码实践。
对于使用半结构化语言的商业智能开发人员来说序列化编程实践可以帮助编写复杂的代码。 无论目标是将数据写入文件、将数据片段发送到另一个系统还是解析可翻译的数据以用于结构化消费半结构化数据都具有商业智能系统的潜力。如果序列化语言能够交流并使用相同的语言那么半结构化数据集就有很大的潜力。
Power BI平台
Power BI是一款将许多较小的、基于云的应用程序和服务结合在一起的产品其特定目标是组织、收集、管理和分析大型数据集。大数据是一个概念业务和数据分析师将评估超大的数据集这些数据集可能揭示与人类行为和互动相关的模式和趋势如果不使用特定工具这些模式和趋势是不容易识别的。一个典型的大数据集合通常以数百万条记录表示。与Microsoft Excel等工具不同Power BI可以同时评估许多数据源和数百万条记录。来源也不需要使用电子表格进行结构化。它们可以包括非结构化和半结构化数据。在将这些数据源汇集在一起并进行处理后Power BI可以帮助您以图表、图形、报告、仪表板和KPI的形式提供视觉上引人注目的输出。
Power BI不仅仅是一个单一的源应用程序。它有桌面、在线和移动组件。
请记住在Power BI平台上您肯定会在某个时候遇到以下一种或多种产品
Power Query: 一种数据连接工具可用于转换、组合和增强多个数据源中的数据 Power Pivot:数据建模工具 Power View:可用于生成交互式图表、图形、地图和视觉效果的数据可视化工具 Power Map:用于创建三维地图渲染的可视化工具 Power QA: 一个人工智能引擎可以让你用简单的语言提问并收到回复 Power BI Desktop: 一个免费的一体化解决方案将此列表中描述的所有应用程序整合到一个图形用户界面中。 Power BI Services:基于云的用户体验可与他人协作和分发报告等产品
在以下几节中我将帮助您深入了解每种产品的核心功能。 Power Query
在Power BI成为自己的产品线之前它最初是Excel的高级查询和数据处理插件大约在2010年。直到2013年左右微软才开始将Power BI作为自己的产品线进行测试并于2015年7月正式推出Power BI桌面和服务。转换到专用产品的理由之一是需要一个更健壮的查询编辑器。使用Excel编辑器它是一个单一的数据源而使用Power BI的Power Query您可以从多个数据源提取数据也可以从关系源读取数据如SQL Server Enterprise、Azure SQL Server、OracleMySQL、DB2和许多其他平台。如果您希望从非结构化、半结构化或应用程序源如CSV文件、文本文件、Excel文件、Word文档、SharePoint文档库、Microsoft Exchange Server、Dynamics 365或Outlook中提取数据Power Query也可以实现这一点。而且如果你可以访问API服务这些服务映射到LinkedIn、Facebook或Twitter等平台上的特定数据字段你也可以使用Power Query来挖掘这些平台。
无论您让Power Query做什么过程都基本相同它通过添加列、行、数据类型、日期和时间、文本字段以及适当的运算符来转换您指定的数据根据需要使用图形用户界面。Power Query通过获取一个广泛的数据集来管理这种转换该数据集只不过是一堆原始数据当然通常是杂乱无章的让你感到困惑然后通过将其组织成表、列和行以供消费来创造一些商业意义。然后编辑器中Power Query输出生成的产品可以传输到可移植文件如Excel或更强大的文件如Power Pivot模型。
技术在Power Query场景背后工作的是一种名为M的公式语言。尽管M从未在图形用户界面中显示过它的脸但它肯定在那里并完成了它的工作。我在接下来的几章中简要介绍了M这样您就可以看到在Power BI中在结构化、半结构化和非结构化数据集之间快速转换数据时机制是如何工作的。
Power Pivot建模
Power BI的数据建模工具名为Power Pivot。使用它您可以创建诸如星形模式、计算度量和列之类的模型并构建复杂的关系图。Power Pivot利用了另一种编程语言简称DAX。DAX是一种基于公式的语言用于数据分析。您很快就会发现作为一种语言它充满了有用的函数所以请继续关注。
Power View可视化
Power BI的可视化引擎是Power View。这里的想法是连接到数据源获取和转换数据进行分析然后让Power View使用其众多可视化选项中的一个来呈现输出。Power View使用户能够筛选单个变量或整个报表的数据。用户可以在可变级别对数据进行切片甚至可以在Power View中分解元素像激光一样聚焦在可能被视为异常的数据上。
使用Power Map映射数据
有时可视化数据需要的不仅仅是条形图或表格。也许您需要一个将地理空间坐标与三维需求集成在一起的地图。假设你想在热图的帮助下通过测量列的高度和宽度或者基于统计参考来增加数据的维度。在这种情况下您肯定需要考虑Power BI的Power Map功能集。Power Map中的另一个功能是使用Microsoft Bing的地理空间功能这是微软的外部搜索引擎技术包括绘制位置的功能。用户可以使用地理坐标纬度和纵向数据来突出显示数据这些数据可以像地址一样精细也可以像国家一样全局。
Power QA解释数据
对许多用户来说最大的挑战之一是数据解释。例如假设您使用Power Pivot构建了这个令人难以置信的数据模型。现在怎么办您的数据样本在大小方面通常非常重要这意味着您需要某种方式来理解您在模型中部署的所有数据。这就是为什么微软创建了一个自然语言引擎一种解释文本、数字甚至语音的方法用户可以直接查询数据模型。
请记住Power QA与Power View直接配合使用。
Power QA可以提供巨大帮助的一个典型例子是确定有多少用户在给定的商店位置购买了特定的商品。如果你想进一步深入了解你可以分析一整套指标——例如询问商品是否有几种颜色或尺寸或者指定一周中哪一天的商品销量最高。只要你已经建立了数据模型来适应这些问题那么可能性是无限的。
Power BI Desktop
所有这些Power BI平台都是很棒的想法但真正了不起的想法是将Power Query、Power Pivot、Power View和Power QA捆绑在一起形成Power BI Desktop。使用Power BI Desktop您可以完成所有商业智能活动。您还可以更轻松地开发BI和数据分析活动。最后Microsoft每月更新Power BI Desktop功能让您始终处于BI前沿。
Power BI Services
随着时间的推移Power BI Services的产品名称不断演变。当该产品处于测试阶段时它被称为Power BI网站。如今您经常听到被称为Power BI Online或Power BI Services的产品。 无论您怎么称呼它它都是Power BI的“软件即服务”配套产品。可访问https://app.powerbi.comPower BI Services允许用户从一个位置与其他用户协作并共享他们的仪表板、报告和数据集。
请记住您已获得授权的Power BI版本决定了您共享和接收数据的能力。
了解您的Power BI术语
无论是微软还是其他供应商创建的你遇到的每一种产品都有自己的术语。它可能看起来像是一门外语但如果你访问供应商的网站并进行简单的搜索你一定会找到一个词汇表它能解释所有这些神秘术语的含义。
毫不奇怪微软也有自己的Power BI词汇表。这些人把术语称为概念。在你继续你的Power BI之旅之前让我们先了解一下情况。在Microsoft Power BI中无论您是谁一些概念都会在供应商中引起共鸣。例如所有供应商都将报告和仪表板作为关键概念。现在是否所有其他供应商都采用了微软的做法并将数据流称为一种工作流不完全是。它们都有这些特定功能的名称尽管所有这些功能通常以相同的方式工作。
提示微软在坚持主流名称的关键概念方面做得很好。尽管如此一些特定于人工智能/机器学习和安全的更高级的产品功能采用了微软产品的精简行话如Azure Active Directory或Azure机器学习。
容量Capacities
当涉及到数据时你首先想到的是什么是类型还是数量还是两者都考虑对于Power BI您必须熟悉的第一个概念是容量而容量是Power BI的核心。您会问为什么容量是您完成可能在Power BI中创建的任何项目所需的资源总和。资源包括托管和交付Power BI项目所需要的存储、处理器和内存。
容量有两种类型共享容量和专用容量。共享容量允许您与其他Microsoft最终用户共享资源。专用能力将资源完全投入到您身上。尽管免费和付费Power BI用户都可以使用共享容量但专用容量需要Power BI高级订阅。
工作区Workspaces
工作空间是与同事协作和共享内容的一种方式。无论是个人还是协作您创建的任何工作空间都是基于容量创建的。将工作区视为一个容器允许您在Power BI Services环境中管理仪表板、报告、工作簿、数据集和数据流的整个生命周期。图1-2显示了一个My Workspace它是Power BI工作区的一个特殊示例。 请记住“我的工作区”并不是唯一可用的工作区类型。您也可以选择合作。如果您想合作您别无选择只能升级到Power BI Pro或Premium计划。协作附带的功能包括与团队一起创建和发布基于Power BI的仪表板、报告、工作簿、数据集和应用程序。
还记得要上传您使用Power BI Desktop创建的作品吗或者你可能需要在不与任何人合作的情况下在线操作工作如果任何一个问题的答案都是肯定的那么我的工作区就是所有必要的。您只需要使用Power BI在线免费许可证。一旦你想与他人合作你就需要升级到付费专业版或高级版订阅。
所以现在您知道您的工作存储在一个工作空间中。下一个问题工作区中的数据会发生什么答案有两个这是你作为用户所看到的然后是作为数据转换过程的一部分在幕后发生的事情。让我们先从幕后活动开始。
数据流是一组表用于收集导入Power BI的数据集。作为Power BI服务的一部分在工作区中创建和管理这些表后您可以在数据流中添加、编辑和删除数据。数据刷新也可以使用预定义的时间表进行。请记住Power BI使用Azure数据湖这是一种存储Power BI快速评估、处理和分析数据所需的大量数据的方式。当数据集体积庞大时Azure Data Lake也有助于快速清理和转换数据。
与数据流您可能还记得数据流是表的集合不同数据集应该被视为数据源集合中的单个资产。将数据集视为数据的子集。当与数据流一起使用时数据集会映射到托管的Azure数据湖。它可能包括数据湖中的部分或全部数据。数据的粒度变化很大这取决于可用数据集的速度和规模。
分析师或开发人员可以在构建他们想要的输出如报告时提取数据。有时可能需要多个数据集在这种情况下可能需要进行数据流转换。另一方面有时多个数据集可以利用Azure数据湖中的同一数据集。在这种情况下几乎不需要进行任何转换。
请记住在您自己操作数据后您必须发布您在Power BI中创建的数据。Microsoft认为您打算在用户之间共享数据。如果目的是共享数据集则假设需要Pro或Premium许可证。
报表Reports
数据可以无限期地存储在系统中并保持空闲。但是如果系统中的数据没有被不时地查询这样像你我这样的用户就能理解数据的含义那又有什么好处呢假设你在一家医院工作。您需要查询员工数据库以了解在紧急情况下有多少员工在距离工厂五英里的范围内工作。这时您可以使用Power BI报告快速而不是扭曲速度创建数据集的摘要。当然可能有几百条或数万条记录当然都是独一无二的但这些记录都是为了帮助医院在紧急情况下回家无论是在街区尽头、五英里外还是五十英里外谁都可以亲自动手。
Power BI Reports将这些数据转换为一个或多个可视化页面——折线图、条形图、圆环图、树图——你能想到的。您可以在高级别上评估数据也可以关注特定的数据子集如果您事先设法查询了数据集。您可以通过多种方式创建报告从使用单个源获取数据集、从头开始创建输出到从多个源导入数据。这里的一个例子是使用Power View工作表连接到Excel工作簿或Google Sheets文档。从那里Power BI从整个源中获取数据并对其进行理解。结果是一个基于导入数据的报告见图1-3使用报告作者建立的预定义配置。 提示 Power BI提供两种报告视图模式阅读视图和编辑视图。打开报表时它将在“阅读”视图中打开。如果授予“编辑”权限则可以编辑报告。当报表位于工作区中时任何具有管理、成员或贡献者权限的用户都可以编辑报表。
技术管理、成员或贡献者访问权限授予您在编辑视图中探索、设计、构建和共享功能的权限。访问这些特权用户创建的报告的用户可以在只读模式下与报告交互。这意味着他们不能编辑它 --他们只能查看输出。特权用户创建的报告可以在工作区的Reports选项卡下访问如图1-4所示。每个报告表示一个单独的页面可视化这意味着它只基于一个数据集。 仪表板Dashboard
如果你有任何使用Power BI的经验你已经知道它是一个高度可视化的工具。Power BI仪表板也称为Canvas的视觉特性使您的数据故事栩栩如生。如果你想把数据拼图的所有部分都拿出来捕捉一个时刻你可以使用仪表板。把它想象成一块空白的画布。随着时间的推移当您构建报告、小部件、瓦片和关键性能指标KPI时您可以将喜欢的内容固定到仪表板上以创建单个可视化。仪表板代表了一个大数据集您觉得该数据集涵盖了您的主题。因此它可以帮助您做出决策支持您监控数据或者通过应用不同的可视化选项来深入数据集。
若要访问特定的面板必须首先打开一个工作区。然后您所需要做的就是单击您正在使用的任何应用程序的“仪表板”选项卡。请记住每个仪表板都代表底层数据集的自定义视图。要定位您的个人仪表板请转到“我的工作空间”选项卡见图1-5然后选择“仪表板”查看可用内容。 请记住如果您拥有仪表板则您有权对其进行编辑。否则您只有只读访问权限。您可以与其他人共享仪表板但他们可能无法保存任何更改。但是请记住如果您想与同事共享仪表板您至少需要Power BI Pro许可证。有关许可的来龙去脉请参阅第3章。
导航面板Navigate Pane
在这一章中我讨论了PowerBI中许多必须了解的概念但我把最好的概念——导航窗格——留到最后。为什么导航窗格是最好的易于理解的到目前为止我在本章中讨论的所有功能都是导航窗格中的标签。请参见图1-6。例如您可以使用导航窗格来完成操作以定位工作区和您想要使用的各种Power BI功能仪表板、报告、工作簿、数据集并在它们之间移动--无论什么 您的导航窗格选项无穷无尽。例如用户可以
展开并折叠“导航”窗格。借助“收藏夹”选项打开和管理您喜爱的内容。查看并打开最近访问的内容部分。
商业智能BI定义
本章前面的部分旨在让您对Power BI的组成部分有一个基本的了解。现在是时候明确定义一个流传已久但从未真正解释过的术语了商业智能。许多IT供应商对商业智能的定义不同。他们通过在定义中注入他们的工具行话来对这个术语进行解释。例如如果你去微软网站你一定会发现一两个页面对商业智能有着纯粹的定义但你也会发现大量页面详细介绍了如何将Power BI平台解决方案应用于每一个可能的商业问题。
因此让我们避开供应商网站坚持对商业智能的简单定义简单地说这是企业为了能够分析当前和历史数据而使用的东西。在整个数据分析过程中希望组织能够发现为企业未来做出正确决策所需的见解。通过使用可用工具的组合一个组织可以处理多个数据源的大型数据集以便得出可以提交给上级管理层的结果。使用企业BI工具感兴趣的各方可以通过报告、仪表盘和KPI生成可视化效果以此将其增长战略建立在事实世界中。许多工具允许组之间的协作和共享因为数据会随着时间的推移而变化。
请记住我在本章中介绍的几乎每一个概念都是定义的一部分这就是为什么我在介绍BI定义之前介绍这个术语。那些专门针对Microsoft Power BI的术语被故意排除在商业智能的定义之外。当你继续阅读这本书并沉浸在Power BI的使用中时我提供的一些课程与工具无关我指的是哪家供应商的商业智能产品并不重要。其他时候你知道什么时候的建议是针对Power BI的因为这些评论是有指导意义的。
请记住不久前企业不得不手动执行许多任务。还记得那些日子吗BI工具现在通过减少完成日常任务的工作量来节省时间。现在可以采取四种操作将原始数据转换为易于访问的数据
收集和转换数据当使用多个数据源时BI工具允许您从结构化和非结构化源中提取、转换和加载ETL数据。该过程完成后您可以将数据存储在中央存储库中以便应用程序可以分析和查询数据。分析数据以发现趋势数据分析一词可以指很多事情从数据发现到数据挖掘。然而业务目标是一样的这一切都归结为数据集的大小、自动化过程和模式分析的目标。BI通常为用户提供各种建模和分析工具。一些配备了可视化选项另一些则提供了用于探索性、描述性、预测性、统计性甚至认知评估分析的数据建模和分析解决方案。所有这些工具都可以帮助用户探索过去、现在和未来的数据。使用可视化选项以提供数据清晰度您可能在一个或多个存储库中存储了大量数据。查询要在用户和组之间理解和共享的数据是商业智能工具的实际价值。可视化选项通常包括报告、仪表板、图表、图形、映射、关键性能指标和数据集。采取行动并做出决策这个过程是所有数据触手可及从而做出可操作的决策。公司通过对数据集进行深入了解来采取行动。他们以块为单位解析数据审查数据的子集并可能做出重大决策。这就是为什么公司接受商业智能的原因——因为有了它的帮助他们可以快速降低效率纠正问题并调整业务以支持市场条件。