当前位置: 首页 > news >正文

捕鱼游戏网站建设步骤机电工程东莞网站建设技术支持

捕鱼游戏网站建设步骤,机电工程东莞网站建设技术支持,网页设计与制作代码软件,小红书怎么做关键词排名优化1.Hive SQL 1.1 基本介绍概念Hive由Facebook开发#xff0c;用于解决海量结构化日志的数据统计#xff0c;于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具#xff0c;可以将结构化数据映射为一张表#xff0c;提供类似SQL语句查询功能本质#xff1a;将Hi…1.Hive SQL 1.1 基本介绍概念Hive由Facebook开发用于解决海量结构化日志的数据统计于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具可以将结构化数据映射为一张表提供类似SQL语句查询功能本质将Hive SQL转化成MapReduce程序。与关系型数据库的对比项目Hive关系型数据库数据存储HDFS磁盘查询语言HQLSQL处理数据规模大小分区支持支持扩展性高非常有限数据写入支持批量导入/单条写入支持批量导入/单条写入索引0.7版本后添加了索引不怎么使用支持复杂索引执行延迟高低数据加载模式读时模式快写时模式慢应用场景海量数据查询实时查询PS读时模式 Hive 在加载数据到表中的时候不会校验. 写时模式 Mysql 数据库插入数据到表的时候会进行校验.适用场景Hive只适合用来做海量离线的数据统计分析也就是数据仓库。1.2 架构(1)Client(用户接口) JDBCjava访问HiveODBC(Open Database Connectivity)Clienthive shellWEBUI浏览器访问Hive ​ (2)元数据MetaStore 元数据包括表名、表所属的数据库默认是default、表的拥有者、列/分区字段标的类型表是否为外部表、表的数据所在目录。这是数据默认存储在Hive自带的derby数据库中推荐使用MySQL数据库存储MetaStore。(3)Hadoop/HBase集群 使用 HDFS 进行存储数据使用 MapReduce 进行计算。(4)Driver驱动器 解析器SQL Parser:将SQL字符串换成抽象语法树AST对AST进行语法分析判断表是否存在、字段是否存在、SQL语义是否有误。 优化器Query Optimizer将逻辑计划进行优化。 编译器Physical Plan将AST编译成逻辑执行计划。 执行器Execution把执行计划转换成可以运行的物理计划。对于Hive来说默认就是Mapreduce任务。PS从 hive-0.10.x开始少数 Hql 不需要执行 MR但是需要开启参数hive.fetch.task.conversion more添参数后简单的查询如select不带count,sum,group by的 SQL都不走map/reduce直接读取hdfs文件进行filter过滤。2.Spark SQL2.1 基本介绍概念 Spark SQL主要用于结构型数据处理它的前身为Shark在Spark 1.3.0版本后才成长为正式版可以彻底摆脱之前Shark必须依赖HIVE的局面。与过去的Shark相比一方面Spark SQL提供了强大的DataFrame API另一方面则是利用Catalyst优化器并充分利用了Scala语言的模式匹配与quasiquotes为Spark提供了更好的查询性能。 在Databricks工程师撰写的论文《Spark SQL: Relational Data Processing in Spark》中给出了Spark SQL与Shark以及Impala三者间的性能对比如下图所示 Michael Armbrust、Yin Huai等人写的博客《Deep Dive into Spark SQL’s Catalyst Optimizer》简单介绍了Catalyst的优化机制。特点与 Spark 集成Spark SQL 查询与 Spark 程序集成。Spark SQL 允许我们使用 SQL 或可在 Java、Scala、Python 和 R 中使用的 DataFrame API 查询 Spark 程序中的结构化数据。要运行流式计算开发人员只需针对 DataFrame / Dataset API 编写批处理计算 Spark 会自动增加计算量以流式方式运行它。这种强大的设计意味着开发人员不必手动管理状态、故障或保持应用程序与批处理作业同步。相反流式作业总是在相同数据上给出与批处理作业相同的答案。统一数据访问DataFrames 和 SQL 支持访问各种数据源的通用方法如 Hive、Avro、Parquet、ORC、JSON 和 JDBC。这将连接这些来源的数据。这对于将所有现有用户容纳到 Spark SQL 中非常有帮助。Hive兼容性Spark SQL 对当前数据运行未经修改的 Hive 查询。它重写了 Hive 前端和元存储允许与当前的 Hive 数据、查询和 UDF 完全兼容。标准连接连接是通过 JDBC 或 ODBC 进行的。JDBC和 ODBC 是商业智能工具连接的行业规范。性能和可扩展性Spark SQL 结合了基于成本的优化器、代码生成和列式存储在使用 Spark 引擎计算数千个节点的同时使查询变得敏捷提供完整的中间查询容错。Spark SQL 提供的接口为 Spark 提供了有关数据结构和正在执行的计算的更多信息。在内部Spark SQL 使用这些额外信息来执行额外优化。Spark SQL 可以直接从多个来源文件、HDFS、JSON/Parquet 文件、现有 RDD、Hive 等读取。它确保现有 Hive 查询的快速执行。下图描述了 Spark SQL 与 Hadoop 相比的性能。Spark SQL 的执行速度比 Hadoop 快 100 倍。适用场景实时计算 离线批量计算。2.2 架构3.Hive on Spark SQL3.1基本介绍 Hive on Spark是由Cloudera发起由Intel、MapR等公司共同参与的开源项目其目的是把Spark作为Hive的一个计算引擎将Hive的查询作为Spark的任务提交到Spark集群上进行计算。 通过该项目可以提高Hive查询的性能同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择从而进一步提高Hive和Spark的普及率。参考https://www.cnblogs.com/wcwen1990/p/7899530.html3.2 架构参考http://people.csail.mit.edu/matei/papers/2015/sigmod_spark_sql.pdf4.Hive SQL和 Spark sql 的区别相同点都支持ThriftServer服务为JDBC提供解决方案 都支持静态分区、动态分区 都支持多种文件存储格式text、parquet、orc等 都支持 UDF 函数不同点Spark SQL 是 Spark 的一个库文件 Spark SQL 中 schema 是自动推断的 Spark SQL 支持标准 SQL 语句也支持 HQL 语句等(即支持SQL方式开发也支持HQL开发还支持函数式编程DSL实现SQL语句) Spark SQL 支持 Spark Datasets 和 Spark DataFrames 的操作而 Hive SQL 仅支持 Hive 表的操作。 Spark SQL 支持使用 Spark API 和 SQL 同时进行数据处理而 Hive SQL 仅支持 SQL 操作。 Hive中必须有元数据一般由 MySql 管理必须开启 metastore 服务 Hive 中在建表时必须明确使用 DDL 声明 schema
http://www.dnsts.com.cn/news/233706.html

相关文章:

  • 哪里可以找人做网站网页界面设计
  • 服务器怎么装网站吗开发一个定制的网站
  • 网站开发公司需要招聘哪些人centos wordpress 权限
  • 网站可做哪些服务WordPress文章付费系统
  • 做网站切图的原则是什么电商网站建设新闻
  • 类似于微博网站怎么做wordpress给用户推送消息
  • 重庆住房建设部网站组建网站建设团队
  • 东莞网站推广模板源代码查看wordpress文件夹
  • 免费asp企业网站源码wordpress更改ip地址后图片处理
  • 单页网站 开元广州做网站多
  • 网站中英文切换前端泰国网站后缀
  • 广东网站制作多少钱杭州app定制
  • 南昌网站建设公司有哪些优化过程中十大技巧
  • 室内设计欣赏网站网站如何做seo的
  • 基于jsp网站开发与实现北京网下载
  • 网站建设的有什么需求网站网站开发公司
  • 案例网站asp.net 网站 相册
  • 盱眙住房和城乡建设局网站免费做详情页的软件
  • 想做个网站 在哪买域名和空间关键词挖掘工具爱网
  • 1688代加工官方网站wordpress基础开发教程 pdf
  • 电力公司 网站开发报价单微网站内容
  • 网站建设定制设计短视频推广方式有哪些
  • 石景山网站建设设计公司网页链接提取码怎么用
  • 福建漳州网站建设公司网站开发需要什么专业知识
  • 推荐网站在线看兄弟们wordpress+用户组
  • 能交易的网站多少钱建网站 服务器
  • 视频网站建站免费网站建设合同制
  • 常用的网站开发cmsv6
  • 温州营销型网站建设广告公司简介ppt范本
  • 中立建设集团有限公司网站网页设计作业怎么做网站