软件开发和网站开发有何不同,住建网站需多少钱,wordpress+写php页面,大连建设工程项目管理信息网欢迎全球开发者参与到 Apache TsFile 项目中。 刚刚过去的 2023 年#xff0c;国产开源技术再次获得国际认可。 2023 年 11 月 15 日#xff0c;经全球最大的开源软件基金会 ASF 董事会投票决议#xff0c;时序数据文件格式 TsFile 正式通过#xff0c;直接晋升为 Apache T… 欢迎全球开发者参与到 Apache TsFile 项目中。 刚刚过去的 2023 年国产开源技术再次获得国际认可。 2023 年 11 月 15 日经全球最大的开源软件基金会 ASF 董事会投票决议时序数据文件格式 TsFile 正式通过直接晋升为 Apache Top-Level 项目TLP成为继时序数据库 Apache IoTDB 之后Apache 时序数据领域第二个 Top-Level 项目。 TsFile 由时序数据库 Apache IoTDB 项目团队开发是一种专门用于时序数据管理的文件格式同时也是 IoTDB 的底层存储格式。 自项目成立以来TsFile 社区发展迅速在来自天谋科技、清华大学、华为、eBay、东方国信、用友等企业贡献者的共同努力下于今年 2 月 20 日正式发布了 1.0.0 版本。据悉Apache TsFile 1.0.0 版本支持多种数据类型、编码算法、压缩算法以及多种写入、查询模式。 TsFile 1.0.0 版本内容原文链接https://github.com/apache/tsfile/releases/tag/v1.0.0 事实上TsFile 的意义不仅仅在于其晋升为 Apache TLP 证明着国内开源项目的实力更重要的是TsFile 填补了时序数据领域的一项市场空白。 01 TsFile为时序数据管理提供统一格式 时序数据即时间序列数据是指带时间标签按照时间的顺序变化即时间序列化的数据其来源多元、数据量庞大可广泛应用于物联网、智能制造、金融分析等领域。在数据驱动的当下时序数据的重要性不言而喻。 尽管时序数据如此普遍且重要但长期以来时序数据的管理都缺乏标准化的文件格式。 当前企业会面临着多种时序数据的存储格式如自定义格式的 CSV、自定义的二进制格式或者使用 Parquet、ORC 等通用文件格式这导致时序数据源的统一管理和汇聚十分复杂。 同时通用文件格式没有针对时间、设备、测点等时序数据特有的数据概念可能导致主键信息存储冗余并缺乏时序数据场景常用索引使得快速定位与查询数据性能受限。 这便是 TsFile 针对这一市场空白希望实现的价值为时序数据提供统一和标准化的格式。IoTDB 团队在构思 TsFile 结构时便考虑了几个关键因素 • 时序模型专门为物联网设计的数据模型每个时间序列与特定设备相关联所有设备通过分层结构相互连接 • 高压缩比为时间序列量身定制的列式存储格式将数据按设备进行组织并保证每个序列的数据连续存储最小化存储空间 • 高效写入数据可以按块写入能够达到最大吞吐 • 高效访问为时间、设备、物理量构建了相关索引结构实现快速数据检索。 02 TsFile 的几大特性 下面具体了解一下 TsFile 的性能亮点。 相比其他文件格式TsFile 通过自研实现了时序数据高效率管理、高灵活传输并支持多类软件深度集成。其特性包括 • 可独立使用可以使用 SDK 直接读写 TsFile使得一些轻量级的数据读写场景成为可能。 • 高效存储和压缩TsFile 采用先进的压缩技术可最大限度地减少存储需求磁盘空间消耗并提高系统效率从而减少磁盘空间消耗和优化数据管理。相比通用文件格式压缩比可提升 20% 以上。 • 灵活的元数据管理架构与传统写入方式不同TsFile 支持灵活的元数据管理无需预定义元数据即可实现数据写入。这种适应性结合时序数据的动态特性简化了数据写入和管理过程。结合列式数据写入模式相比通用文件格式写入吞吐可提升 2-3 倍。 • 高查询性能通过设备、传感器和时间维度索引TsFile 实现了基于特定时间范围的时序数据快速过滤和查询。相比通用文件格式查询吞吐可提升 2-10 倍。 • 协同同步TsFile 是时序数据库 IoTDB 的底层存储文件格式可与 IoTDB 形成可插拔的存算分离架构。通过 TsFile用户可对 IoTDB 中的数据进行便捷的加载与导出。同一个 TsFile 可以在嵌入式设备、边缘服务器和云节点中灵活部署和同步。 • 开放集成TsFile 支持与 Spark、Flink 等大数据软件建立无缝生态集成从而确保跨不同数据处理环境的兼容性和互操作性实现时序数据跨生态深度分析。 TsFile 文件格式示意 03 基于时序数据特性的内核创新 在时序数据管理上TsFile 之所以能实现上述这些功能主要源于其在结构层面的多项创新。在此重点介绍 TsFile 采用的列式存储文件结构、编码和压缩技术。 1. 列式存储文件结构 下图为 Apache TsFile 的文件结构。 • Page一段连续的时序数据存储的基本单元按时间升序排序时间戳和值各有单独的列进行存储。 • Chunk由同一序列的多个连续的 Page 组成一个文件同一个序列可以存储多个 Chunk。 • ChunkGroup由一个设备的一至多个 Chunk 组成多个 Chunk 可共享一列时间存储多值模型。 • IndexTsFile 末尾的元数据文件包含序列内部时间维度的索引和序列间的索引信息。 TsFile 文件结构 由于每列数据的同质性TsFile 可实现更好的压缩比通过仅将必要的数据列加载到内存中TsFile 可加快查询速度通过将数据组织成可管理的单元进行处理和检索TsFile 可提高可扩展性。 2. 编码和压缩技术 TsFile 通过采用二阶差分编码、游程编码RLE、位压缩和 Snappy 等先进的编码和压缩技术优化时序数据的存储和访问并支持对时间戳列和数据值列进行单独编码以实现更好的数据处理效能。 其独特之处在于编码算法专为时序数据特性设计聚焦在时间属性和数据之间的相关性。此外TsFile 结合了频域编码利用量化和位宽缩减来高效存储频域数据在不会影响数据准确性的情况下节省空间占用。 TsFile、Parquet 和 ORC 三种文件格式的比较 基于对时序数据应用需求的深刻理解TsFile 有助于实现时序数据高压缩比和实时访问速度并为企业进一步构建高效、可扩展、灵活的数据分析平台提供底层文件技术支撑。 04 共创 Apache TsFile共赢数据时代 通过上述介绍不难看出基于时序数据特性为时序数据管理量身定制的 TsFile 不仅在存储方面具有优势也可提升时序数据的写入、查询、分析等多个核心环节的性能表现。这不仅可以帮助企业更好地控制部署成本同时可以保障时序数据管理的灵活性与易用性。 从 IoTDB 的基础组件到独立项目的发展历程也从侧面证明着 TsFile 的国产技术研发成果正在国际上对时序数据管理产生着重要影响力。此前国际软件领域媒体平台 The New Stack 专门采访介绍了 TsFile 项目。采访直达https://thenewstack.io/tsfile-a-standard-format-for-iot-time-series-data/ 数据时代时序数据作为千行百业数字化转型的核心要素优化其管理方式势在必行。 未来围绕时序数据管理TsFile 将进一步优化性能和多语言支持集成更多的编码和压缩方法并开发更多基于 TsFile 的时序数据可视化、解析和分析工具。 同时随着晋升为 Apache TLP 项目TsFile 希望与全球更多开发者合作从底层文件技术角度重新定义可靠、高效的时序数据管理方案推动更多企业以时序数据价值为驱动实现产能飞跃与业务创新。