企业做网站都购买域名吗,wordpress数组遍历,潍坊网站建设招商,广东省招标网采购网#x1f4cb; 博主简介 #x1f496; 作者简介#xff1a;大家好#xff0c;我是wux_labs。#x1f61c; 热衷于各种主流技术#xff0c;热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员#xff08;PCTA#xff09;、TiDB数据库专家#xff08;PCTP… 博主简介 作者简介大家好我是wux_labs。 热衷于各种主流技术热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员PCTA、TiDB数据库专家PCTP、TiDB数据库认证SQL开发专家PCSD认证。 通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。 对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究对Databricks的使用有丰富的经验。 个人主页wux_labs如果您对我还算满意请关注一下吧~ 个人社区数据科学社区如果您是数据科学爱好者一起来交流吧~ 请支持我欢迎大家 点赞收藏⭐️吐槽您的支持是我持续创作的动力~ 《PySpark大数据分析实战》-03.了解Hive 《PySpark大数据分析实战》-03.了解Hive前言了解Hive结束语 《PySpark大数据分析实战》-03.了解Hive
前言
大家好今天为大家分享的是《PySpark大数据分析实战》第1章第3节的内容了解Hive。 了解Hive
Hadoop生态系统是为了处理大数据而产生的解决方案MapReduce框架将计算作业切分为多个小单元分布到各个节点去执行从而降低计算成本并提供高可扩展性。但是使用MapReduce进行数据处理分析的门槛是比较高的需要学会使用Java根据MapReduce的API进行代码编写这对不熟悉Java的开发人员、数据分析人员以及运维人员等人群来说门槛高、不易学。为了方便用户从现有的数据基础架构转移到Hadoop上来Hive就诞生了。Hive是一个基于Hadoop的数据仓库工具可以对存储在HDFS的数据集进行特殊查询和分析处理。Hive的学习门槛比较低它提供了类似于关系型数据库SQL的查询语言HiveQL通过HiveQL执行类SQL语句可以快速地实现简单的MapReduce统计Hive底层会将HiveQL转换成MapReduce任务进行运行用户不必开发MapReduce程序非常适合数据仓库的统计分析。 在Hive中要完成WordCount程序实现对单词出现次数的统计首先需要在Hive中创建一张表建表语句如下
create table wordsTable(line String);然后将文件内容load到Hive的表中语句如下
load data local inpath words.txt into table wordsTable;最后只需要执行一条SQL语句就可以完成对单词出现次数的统计语句如下
select word, count(1)from (select explode(split(line, )) as word from wordsTable) tmpgroup by word;结束语
好了感谢大家的关注今天就分享到这里了更多详细内容请阅读原书或持续关注专栏。