湛江网站建设保定公司,营销类网站 英文,东莞网络公司有哪些,查域名备案信息1#xff0c;ClickHouse#xff08;CK#xff09;
是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。
1#xff09;特性
按列存储#xff0c;列越多速度越慢#xff1b; 按列存储#xff0c;数据更容易压缩#xff08;类型相同、区分度#xff09;#xff1b…1ClickHouseCK
是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。
1特性
按列存储列越多速度越慢 按列存储数据更容易压缩类型相同、区分度》每次读取的数据就更多更少的io。聚合性能高类sql操作仅支持数据的查询、批量写入、批量删除。用于磁盘查询同时也利用SSD和内存支持近似计算
2常见的列式数据库有
Vertica、 Paraccel (Actian MatrixAmazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb。
3ck为什么快
列式存储数据类型相同值范围也可能小稀疏索引更容易压缩压缩之后每次io读取数据更多降低了io。可以把更多的数据放入内存。在ck中数据保存在不同的shard上每一个shard都由一组用于容错的replica组成查询可以并行地在所有shard上进行处理。向量引擎更高效的使用cpu。
插入为什么块顺序批量写入 删除为什么快删除不快一般按表删除比如按天分区。 查询为什么块索引 不支持修改 group by为什么块按列算列数据量小
2索引原理
1主索引Primary Indexes建立LSM树
数据批量入库索引文件组织主键列 其它排序列 升序 每个表都有一个数据文件(*.bin)用于存储索引按稀疏矩阵压缩存储在磁盘上。 Granule 颗粒、行组 是ck进行数据处理的最小的不可分割数据集。 ck每次读取数据不是读取单独的行而是始终读取整个行组Granule。 第一个(根据磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于颗粒0然后下一个8192行(它们的列值)属于颗粒1以此类推。 每个颗粒对应主索引的一个条目。
2索引查询
1颗粒选择
通过主索引二分查找选择可能包含匹配查询的行的颗粒。
2定位颗粒
每个列的标记文件以偏移量的形式存储两个位置:
压缩块位置 包含所选颗粒的压缩版本的压缩列数据文件中定位块。这个压缩块可能包含几个压缩的颗粒。所定位的压缩文件块在读取时被解压到内存中。解压数据的位置 颗粒在解压数据块中的位置。
3二级索引Skipping Indexes)
传统的关系数据库的二级索引并不适用与ck或者列式存储数据库因为磁盘上没有单独的行可以添加到索引中。
如果一级索引查询后基数过大可以考虑建立二级索引 如果二级索引没有太大作用此时可以考虑
新建一个不同的主键的新表创建一个物化视图增加Projecttion
ck主要的二级索引类型有minmax、set、Bloom Filter。
1Minmax
存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组它分别存储元组元素的每个成员的值)。
场景标量、元组表达式 不适用于数组、map数据类型
2Set
这个集合包含块中的所有值。 场景列值相对集中。每组颗粒中基数较低、但总体基数较高的列。
3Bloom Filter Types跳数索引
允许对集合成员进行高效的是否存在测试但代价是有轻微的误报读取更多的块。 场景列有较多离散值、主键和目标列具有很强的相关性。
4MergeTree引擎