做翻糖的网站,阳朔到桂林游船时间表,低代码平台 开源,苏州和城乡建设局网站ORC与Parquet列式存储 1、ORC与Parquet列式存储2、ORC与Parquet的区别 列式存储#xff08;Columnar Storage#xff09;是一种优化的数据存储方式#xff0c;与传统的行式存储#xff08;Row Storage#xff09;相比#xff0c;列式存储在数据压缩、查询性能、I/O效率等… ORC与Parquet列式存储 1、ORC与Parquet列式存储2、ORC与Parquet的区别 列式存储Columnar Storage是一种优化的数据存储方式与传统的行式存储Row Storage相比列式存储在数据压缩、查询性能、I/O效率等方面具有明显的优势
在大数据领域中ORCOptimized Row Columnar和Parquet是两种流行的列式存储格式它们在数据压缩、查询性能、存储效率等方面有着各自的特点和优势
1、ORC与Parquet列式存储 Apache ORC是一种自描述类型感知的列式文件格式专为Hadoop工作负载而设计。它针对大型流式读取进行了优化并集成了快速查找所需行的支持。以列式格式存储数据可让读取器仅读取、解压缩和处理当前查询所需的值。由于ORC文件具有类型感知能力因此写入器会选择最适合该类型的编码并在写入文件时构建内部索引
谓词下推使用这些索引来确定需要为特定查询读取文件中的哪些条带而行索引可以将搜索范围缩小到特定的10000行集合ORC支持Hive中的完整数据类型包括复杂类型Struct、List、Map和Union
ORC官网https://orc.apache.org/
Apache Parquet是一种开源的列式数据文件格式旨在实现高效的数据存储和检索。它提供高性能压缩和编码方案来批量处理复杂数据并且受到许多编程语言和分析工具的支持
Parquet官网https://parquet.apache.org/
2、ORC与Parquet的区别 以下是ORC与Parquet的区别与联系
1相同点
基于Hadoop文件系统属于线上格式可以在节点间传递数据采用列式二进制存储结构采用高效的压缩文件可分割具有较强的伸缩性和并行处理能力使用Schema进行自我描述降低存储成本减少磁盘I/O成本
2不同点
比较项ORCParquet默认压缩ZLIB压缩比较高Snappy压缩压缩比较低操作支持delete、update不支持delete、update数据类型支持collection、array、map等复杂类型仅支持普通类型谓词下推支持减少磁盘I/O成本不支持事务支持ACID原子性、隔离性、一致性、持久性但仅限于分桶表不支持事务兼容性Hive、PrestoImpala、Spark、Drill、Arrow场景HiveSpark
两种列式存储格式都具有明显的优势。通过合理选择存储格式、压缩算法和查询优化技术可以最大程度地提升数据处理和分析的效率满足不同业务场景的需求 参考文章https://zhuanlan.zhihu.com/p/257917645