绍兴网站制作系统,湖南常德邮编,公众号开发建设,网站开发课程报告心得在日常业务开发过程中#xff0c;通常遇到需要hive数据表中生成一列唯一ID#xff0c;当然连续递增的更好。
最近在结算业务中#xff0c;需要在hive表中生成一列连续且唯一的账单ID#xff0c;于是就了解生成唯一ID的方法
1. 利用row_number函数
语法#xff1a;row_n…在日常业务开发过程中通常遇到需要hive数据表中生成一列唯一ID当然连续递增的更好。
最近在结算业务中需要在hive表中生成一列连续且唯一的账单ID于是就了解生成唯一ID的方法
1. 利用row_number函数
语法row_number() over(order by step)start_num
step表示每次递增多少
start_num表示从哪个值开始递增不写默认是0
如下表示从10000开始每次递增1
SELECT row_number() over(order by 1)10000
因此输出是10001
如果有其他值也可以拼接其它值比如列date是20231010
SELECT CONCAT(date,row_number() over(order by 1)10000) AS auto_increment_id
因此输出是2023101010001
2. 利用自定义函数序列
首先Hive环境要有hive-contrib相关jar包
定义函数row_sequence
create temporary function row_sequence as org.apache.hadoop.hive.contrib.udf.UDFRowSequence;
使用函数row_sequence
SELECT row_sequence() AS auto_increment_id
row_sequence的自增规则是我们自己定义的至于怎么定义就看我们的逻辑是怎么实现
3、二者区别
第一种方法row_number 在一次SQL运行中是全局递增的只不过再次执行SQL就会重复如果不想重复我们可以更改start_num的值把start_num调整到我们认为的不会重复的值开始 或者拼接上日期或者时间戳等前缀这样每次执行就不会重复 第二种方法UDFRowSequence 由于是我们自己定义的函数而SQL任务是以分布式的运行的一个SQL并发可能会有多个job执行每个job可以理解为1个节点或者进程在每个进程上运营的序列都从起始值开始所以不能保证序号全局连续唯一。因此我们可以借助第三方存储记录比如Redis来保证生产序列的全局连续递增