当前位置: 首页 > news >正文

雅安网站建设公司做网站的

雅安网站建设公司,做网站的,东莞网站域名注册,重新建设网站1、概念介绍 Spark是一个分布式计算框架#xff0c;用于处理大规模数据处理任务。在Spark中#xff0c;DataFrame是一种分布式的数据集合#xff0c;类似于关系型数据库中的表格。DataFrame提供了一种更高级别的抽象#xff0c;允许用户以声明式的方式处理数据#xff0c…1、概念介绍 Spark是一个分布式计算框架用于处理大规模数据处理任务。在Spark中DataFrame是一种分布式的数据集合类似于关系型数据库中的表格。DataFrame提供了一种更高级别的抽象允许用户以声明式的方式处理数据而不需要关心底层数据的细节和分布式计算的复杂性。Schema在Spark中用于描述DataFrame中的数据结构类似于表格中的列定义。 让我们分别介绍一下DataFrame和Schema DataFrame: DataFrame是由行和列组成的分布式数据集合类似于传统数据库或电子表格的结构。Spark的DataFrame具有以下特点 分布式计算DataFrame是分布式的可以在集群中的多个节点上进行并行处理以实现高性能的大规模数据处理。 不可变性DataFrame是不可变的这意味着一旦创建就不能修改。相反对DataFrame的操作会生成新的DataFrame。 延迟执行Spark采用了延迟执行策略即DataFrame上的操作并不立即执行而是在需要输出结果时进行优化和执行。 用户可以使用SQL语句、Spark的API或Spark SQL来操作DataFrame进行数据过滤、转换、聚合等操作。DataFrame的优势在于其易用性和优化能力Spark会根据操作的执行计划来优化整个计算过程以提高性能。 Schema: Schema是DataFrame中数据的结构描述它定义了DataFrame的列名和列的数据类型。在Spark中Schema是一个包含列名和数据类型的元数据集合。DataFrame的Schema信息对于优化计算和数据类型的正确解释至关重要。 通常Schema是在创建DataFrame时自动推断的也可以通过编程方式显式指定。指定Schema的好处是可以确保数据被正确解释并且避免潜在的类型转换错误。如果数据源不包含Schema信息或者需要修改Schema可以使用StructType和StructField来自定义Schema。例如可以创建一个包含多个字段和数据类型的Schema如字符串、整数、日期等。 在使用Spark读取数据源时如CSV文件、JSON数据、数据库表等Spark会尝试自动推断数据的Schema。如果数据源本身没有提供足够的信息可以使用schema选项来指定或者通过后续的数据转换操作来调整DataFrame的Schema。 总结DataFrame是Spark中一种强大的分布式数据结构允许用户以声明式的方式处理数据而Schema则用于描述DataFrame中数据的结构信息确保数据被正确解释和处理。这两个概念共同构成了Spark强大的数据处理能力。 代码实战 package test.scalaimport org.apache.spark.sql.SparkSession import org.apache.spark.sql.Row import org.apache.spark.sql.types.{IntegerType, StringType, StructType}object TestSchema {def getSparkSession(appName: String, localType: Int): SparkSession {val builder: SparkSession.Builder SparkSession.builder().appName(appName)if (localType 1) {builder.master(local[8]) // 本地模式启用8个核心}val spark builder.getOrCreate() // 获取或创建一个新的SparkSessionspark.sparkContext.setLogLevel(ERROR) // Spark设置日志级别spark}def main(args: Array[String]): Unit {println(Start TestSchema)val spark: SparkSession getSparkSession(TestSchema, 1)val structureData Seq(Row(36636, Finance, Row(3000, USA)),Row(40288, Finance, Row(5000, IND)),Row(42114, Sales, Row(3900, USA)),Row(39192, Marketing, Row(2500, CAN)),Row(34534, Sales, Row(6500, USA)))val structureSchema new StructType().add(id, StringType).add(dept, StringType).add(properties, new StructType().add(salary, IntegerType).add(location, StringType))val df spark.createDataFrame(spark.sparkContext.parallelize(structureData), structureSchema)df.printSchema()df.show(false)val row df.first()val schema row.schemaval structTypeList schema.toListprintln(structTypeList.size)for (i - 0 to structTypeList.size - 1) {val structType structTypeList(i)println(structType.name, row.getAs(structType.name), structType.dataType, structType.dataType)}} }输出 Start TestSchema Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties 23/07/29 09:47:59 INFO SparkContext: Running Spark version 2.4.0 23/07/29 09:47:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 23/07/29 09:47:59 INFO SparkContext: Submitted application: TestSchema 23/07/29 09:47:59 INFO SecurityManager: Changing view acls to: Nebula 23/07/29 09:47:59 INFO SecurityManager: Changing modify acls to: Nebula 23/07/29 09:47:59 INFO SecurityManager: Changing view acls groups to: 23/07/29 09:47:59 INFO SecurityManager: Changing modify acls groups to: 23/07/29 09:47:59 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(Nebula); groups with view permissions: Set(); users with modify permissions: Set(Nebula); groups with modify permissions: Set() 23/07/29 09:48:01 INFO Utils: Successfully started service ‘sparkDriver’ on port 60785. 23/07/29 09:48:01 INFO SparkEnv: Registering MapOutputTracker 23/07/29 09:48:01 INFO SparkEnv: Registering BlockManagerMaster 23/07/29 09:48:01 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information 23/07/29 09:48:01 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up 23/07/29 09:48:01 INFO DiskBlockManager: Created local directory at C:\Users\Nebula\AppData\Local\Temp\blockmgr-6f861361-4d98-4372-b78a-2949682bd557 23/07/29 09:48:01 INFO MemoryStore: MemoryStore started with capacity 8.3 GB 23/07/29 09:48:01 INFO SparkEnv: Registering OutputCommitCoordinator 23/07/29 09:48:01 INFO Utils: Successfully started service ‘SparkUI’ on port 4040. 23/07/29 09:48:01 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://LAPTOP-PEA8R2PO:4040 23/07/29 09:48:01 INFO Executor: Starting executor ID driver on host localhost 23/07/29 09:48:01 INFO Utils: Successfully started service ‘org.apache.spark.network.netty.NettyBlockTransferService’ on port 60826. 23/07/29 09:48:01 INFO NettyBlockTransferService: Server created on LAPTOP-PEA8R2PO:60826 23/07/29 09:48:01 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy 23/07/29 09:48:01 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None) 23/07/29 09:48:01 INFO BlockManagerMasterEndpoint: Registering block manager LAPTOP-PEA8R2PO:60826 with 8.3 GB RAM, BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None) 23/07/29 09:48:01 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None) 23/07/29 09:48:01 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, LAPTOP-PEA8R2PO, 60826, None)
http://www.dnsts.com.cn/news/16031.html

相关文章:

  • 中国水土保持生态环境建设网站建公司网站
  • 专业的丹徒网站建设wordpress 如何调试
  • 东莞市建设规划局网站首页东莞虚拟主机
  • 做一份完整的网站规划书西安建设工程信息网平台变更
  • app网站开发定制婚礼网站有哪些
  • 怎么在试客网站做佣金单大疆网站建设
  • 网站建设公司生存淘宝官网免费开店入口
  • 网站dns设置wordpress the7 模板
  • 崇仁网站建设推广找网站公司做网站用了织梦可以吗
  • 盘锦网站开发公司中国平安网站建设
  • 织梦网站301跳转怎么做php制作网站
  • 深鑫辉网站建设html5页面模板大全
  • 南充市企业网站建设公司邮箱一般用哪种
  • 如何创建网站的步骤商城网站建设功能点价格
  • 东营高端网站建设wordpress淘宝联盟模板下载
  • 开商城网站多少钱网页素材提取
  • 爱站工具官网网站建设要达到什么水平
  • 做网站编辑的发展方向晋升网站建设的市场分析
  • 哪个网站注册域名好最简单的网站怎么做
  • 怎么创建一个属于自己的网站深圳商城网站制作公司
  • 做网站的收钱不管了推广网址
  • 汽车4s店网站建设方案服装网站建设的规划
  • 云南省建设厅专家注册网站爱站网是什么平台
  • 哪个网站做售楼推广好企业网站建设 电脑配置
  • 合肥专业网站制作wordpress中文文档
  • 网站建设柒首先金手指7财经投资公司网站建设方案
  • 珠海建设工程监督站网站制作app需要下载什么软件
  • 百城建设提质工程网站德阳公司网站建设
  • 昆明网站开发建wordpress 文艺主题
  • 门户 网站 asp国外产品推广是怎么做的