公司的 SEO与网站建设,聊城做网站的公司,中企动力企业邮箱手机登录,做网站优化时代码结构关系大吗在数据处理中#xff0c;尤其是涉及到专利信息等复杂数据时#xff0c;Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数#xff0c;以下是基于给定的 t_patent_detail 表结构的分析和查询步骤。
建表语…在数据处理中尤其是涉及到专利信息等复杂数据时Hive 是一个强大的工具。本文将详细介绍如何使用 Hive 查询语句来获取各类型专利 top10 申请人以及他们对应的专利申请数以下是基于给定的 t_patent_detail 表结构的分析和查询步骤。
建表语句如下
create table t_patent_detail(patent_id string,patent_name string,patent_type string,aplly_date string,authorize_date string,apply_users string
);INSERT INTO t_patent_detail (patent_id, patent_name, patent_type, aplly_date, authorize_date, apply_users)
VALUES
(CN201821413799.7, 一种用于合金板棒材的往复式感应加热设备, 发明创造, 2018-08-30, 2019-08-09, 朱春野),
(CN201911153500.8, 转化DNA回收率的检测方法及引物, 发明创造, 2019-11-22, 2020-01-10, 陶启长韦东),
(CN202011144174.7, 一种经修饰荧光探针及其应用, 发明创造, 2020-10-23, 2020-11-20, 陶启长韦东余明伟),
(CN201920792416.X, 适用于中型桌面仪器的隔离装置, 实用新型, 2019-05-29, 2020-04-17, 许亦琳余明伟杨华),
(CN201920973176.3, 一种高性价离心管冻存盒, 实用新型, 2019-06-26, 2020-04-17, 许亦琳余明伟邬剑星王敏生),
(CN202110256789.4, 一种新型环保材料的制备方法, 发明创造, 2021-03-09, 2021-12-15, 李明),
(CN202220345678.X, 便捷式电子设备支架, 实用新型, 2022-02-18, 2022-08-22, 张华),
(CN202211123456.7, 智能物流配送系统及方法, 发明创造, 2022-09-16, 2023-02-28, 王强赵晓),
(CN202320456789.2, 多功能办公文具收纳盒, 实用新型, 2023-03-20, 2023-10-18, 孙悦刘敏),
(CN202310567890.1, 高效能源转换装置, 发明创造, 2023-04-12, 2023-11-09, 吴涛周琳),
(CN202410123456.8, 人工智能辅助教学方法, 发明创造, 2024-02-05, 2024-07-12, 郑宇林悦),
(CN202420234567.9, 可折叠户外遮阳伞, 实用新型, 2024-01-18, 2024-06-20, 陈晨杨阳),
(CN202120678901.2, 新型保温杯结构, 实用新型, 2021-04-06, 2021-10-25, 刘辉张峰),
(CN202210789012.3, 大数据分析处理平台, 发明创造, 2022-07-05, 2022-12-30, 马丽王鹏),
(CN202320890123.4, 创意灯具设计, 实用新型, 2023-06-15, 2023-12-08, 赵丹李华),
(CN202110345678.5, 一种新型太阳能电池技术, 发明创造, 2021-03-30, 2021-11-18, 王力),
(CN202220456789.X, 便携式空气净化器, 实用新型, 2022-03-15, 2022-09-25, 陈雪),
(CN202211234567.8, 智能医疗诊断系统, 发明创造, 2022-10-12, 2023-03-20, 刘阳张辉),
(CN202320567890.3, 可调节电脑桌, 实用新型, 2023-04-05, 2023-11-12, 李丽王浩),
(CN202310678901.4, 高效农业灌溉方法, 发明创造, 2023-05-10, 2023-12-15, 赵刚孙强),
(CN202410234567.9, 虚拟现实交互技术, 发明创造, 2024-03-08, 2024-08-20, 周明吴俊),
(CN202420345678.0, 防水运动手表, 实用新型, 2024-02-12, 2024-07-25, 林晓郑凯),
(CN202120789012.5, 新型雨伞设计, 实用新型, 2021-04-28, 2021-11-05, 杨波刘悦),
(CN202210890123.6, 区块链数据安全技术, 发明创造, 2022-07-25, 2022-12-12, 马宁赵亮),
(CN202320901234.7, 创意家居装饰品, 实用新型, 2023-07-02, 2023-12-20, 孙琳李阳),
(CN202411167890.1, 新型合金材料制备工艺, 发明创造, 2024-10-05, 2025-01-10, 朱春野陶启长),
(CN202420278901.X, 便捷式电子秤设计, 实用新型, 2024-02-20, 2024-08-05, 许亦琳余明伟),
(CN202411289012.2, 智能数据分析方法, 发明创造, 2024-11-12, 2025-02-25, 韦东余明伟),
(CN202420390123.X, 创意手机支架, 实用新型, 2024-03-18, 2024-09-20, 杨华王敏生),
(CN202411390124.3, 高效能源转化技术, 发明创造, 2024-11-25, 2025-03-15, 邬剑星陶启长),
(CN202420490125.4, 可折叠收纳袋, 实用新型, 2024-04-12, 2024-10-25, 刘敏许亦琳),
(CN202411490126.5, 智能物流管理系统, 发明创造, 2024-12-02, 2025-04-10, 王强韦东),
(CN202420590127.6, 多功能钥匙扣设计, 实用新型, 2024-05-08, 2024-11-15, 赵晓余明伟),
(CN202411590128.7, 新型环保材料研发, 发明创造, 2024-12-10, 2025-04-25, 李明陶启长),
(CN202420690129.8, 便携式手电筒, 实用新型, 2024-06-05, 2024-12-05, 张华许亦琳),
(CN202411690130.1, 智能医疗辅助设备, 发明创造, 2024-12-18, 2025-05-10, 王强韦东余明伟),
(CN202420790131.2, 创意书签设计, 实用新型, 2024-07-02, 2025-01-20, 孙悦刘敏),
(CN202411790132.3, 高效农业生产技术, 发明创造, 2024-12-25, 2025-05-25, 吴涛周琳),
(CN202420890133.4, 可折叠扇子设计, 实用新型, 2024-07-20, 2025-02-15, 郑宇林悦),
(CN202411890134.5, 新型能源存储装置, 发明创造, 2024-12-30, 2025-06-10, 陈晨杨阳),
(CN202420990135.6, 便携式雨伞, 实用新型, 2024-08-15, 2025-03-05, 刘辉张峰),
(CN202411990136.7, 智能交通信号系统, 发明创造, 2025-01-05, 2025-06-25, 马丽王鹏),
(CN202421090137.8, 多功能文具盒设计, 实用新型, 2024-09-02, 2025-04-05, 赵丹李华),
(CN202412090138.9, 新型大数据处理技术, 发明创造, 2025-01-15, 2025-07-10, 王力陈雪),
(CN202421190139.X, 便携式水杯设计, 实用新型, 2024-09-20, 2025-04-20, 刘阳张辉),
(CN202412190140.2, 智能物流配送优化技术, 发明创造, 2025-01-25, 2025-07-25, 李丽王浩),
(CN202421290141.3, 创意笔记本设计, 实用新型, 2024-10-08, 2025-05-10, 赵刚孙强),
(CN202412290142.4, 高效能源利用技术, 发明创造, 2025-02-05, 2025-08-10, 周明吴俊),
(CN202421390143.5, 便携式餐具设计, 实用新型, 2024-10-25, 2025-05-25, 林晓郑凯),
(CN202412390144.6, 新型人工智能算法, 发明创造, 2025-02-15, 2025-08-25, 杨波刘悦),
(CN202421490145.7, 创意手机挂件设计, 实用新型, 2024-11-08, 2025-06-15, 马宁赵亮),
(CN202412490146.8, 大数据安全防护技术, 发明创造, 2025-02-25, 2025-09-10, 孙琳李阳),
(CN202421590147.9, 便携式化妆镜设计, 实用新型, 2024-11-20, 2025-06-20, 张宇王丽),
(CN202412590148.X, 智能交通预测技术, 发明创造, 2025-03-05, 2025-09-25, 李明王强),
(CN202421690149.0, 多功能钱包设计, 实用新型, 2024-12-05, 2025-07-10, 陈刚赵勇),
(CN202412690150.3, 高效农业灌溉优化技术, 发明创造, 2025-03-15, 2025-10-10, 周伟吴昊),
(CN202421790151.4, 创意钥匙链设计, 实用新型, 2024-12-20, 2025-07-20, 林悦郑佳),
(CN202412790152.5, 新型环保能源技术, 发明创造, 2025-03-25, 2025-10-25, 杨辉刘梅),
(CN202421890153.6, 便携式小风扇设计, 实用新型, 2025-01-02, 2025-08-05, 马俊王涛),
(CN202412890154.7, 智能医疗诊断优化技术, 发明创造, 2025-04-05, 2025-11-10, 孙丽李华),
(CN202421990155.8, 创意笔袋设计, 实用新型, 2025-01-20, 2025-08-20, 张勇王辉),
(CN202412990156.9, 新型材料应用技术, 发明创造, 2025-04-15, 2025-11-25, 陈燕刘芳),
(CN202422090157.X, 便携式充电宝设计, 实用新型, 2025-02-10, 2025-09-15, 李明刘刚),
(CN202413090158.0, 智能安防预警技术, 发明创造, 2025-04-25, 2025-12-10, 王芳陈强),
(CN202422190159.1, 创意手机壳设计, 实用新型, 2025-03-05, 2025-10-05, 赵斌许亦琳),
(CN202413190160.3, 高效能源回收技术, 发明创造, 2025-05-05, 2026-01-10, 朱春野陶启长),
(CN202422290161.4, 便携式耳机设计, 实用新型, 2025-03-20, 2025-10-20, 韦东余明伟),
(CN202413290162.5, 智能数据分析优化技术, 发明创造, 2025-05-20, 2026-01-25, 杨华王敏生),
(CN202422390163.6, 创意书签夹设计, 实用新型, 2025-04-05, 2025-11-15, 邬剑星陶启长),
(CN202413390164.7, 新型环保工艺优化技术, 发明创造, 2025-05-30, 2026-02-10, 刘敏许亦琳),
(CN202422490165.8, 便携式小台灯设计, 实用新型, 2025-04-25, 2025-12-05, 王强韦东),
(CN202413490166.9, 智能物流管理优化技术, 发明创造, 2025-06-15, 2026-02-25, 赵晓余明伟),
(CN202422590167.X, 创意笔记本封面设计, 实用新型, 2025-05-15, 2025-12-20, 李明陶启长),
(CN202413590168.0, 新型能源存储优化技术, 发明创造, 2025-06-30, 2026-03-10, 张华许亦琳),
(CN202422690169.1, 便携式梳子设计, 实用新型, 2025-06-10, 2026-01-05, 王强韦东余明伟),
(CN202413690170.4, 智能医疗辅助设备优化技术, 发明创造, 2025-07-15, 2026-03-25, 孙悦刘敏),
(CN202422790171.5, 创意手机支架改良设计, 实用新型, 2025-07-05, 2026-02-05, 吴涛周琳),
(CN202413790172.6, 高效农业生产优化技术, 发明创造, 2025-08-05, 2026-04-10, 郑宇林悦),
(CN202422890173.7, 可折叠购物袋设计, 实用新型, 2025-08-15, 2026-02-20, 陈晨杨阳),
(CN202413890174.7, 新型大数据处理优化技术, 发明创造, 2025-08-30, 2026-04-25, 刘辉张峰),
(CN202422990175.8, 便携式餐具套装设计, 实用新型, 2025-09-10, 2026-03-15, 马丽王鹏),
(CN202413990176.8, 智能交通信号系统优化技术, 发明创造, 2025-09-25, 2026-05-10, 赵丹李华),
(CN202423090177.9, 多功能文具盒改良设计, 实用新型, 2025-10-05, 2026-04-05, 王力陈雪),
(CN202414090178.9, 新型大数据分析技术, 发明创造, 2025-10-20, 2026-05-25, 刘阳张辉),
(CN202423190179.X, 便携式水杯改良设计, 实用新型, 2025-11-05, 2026-04-20, 李丽王浩),
(CN202414190180.2, 智能物流配送精准技术, 发明创造, 2025-11-20, 2026-06-10, 赵刚孙强),
(CN202423290181.3, 创意笔记本内页设计, 实用新型, 2025-12-05, 2026-05-15, 周明吴俊),
(CN202414290182.4, 高效能源利用优化技术, 发明创造, 2025-12-20, 2026-06-25, 林晓郑凯),
(CN202423390183.5, 便携式化妆镜改良设计, 实用新型, 2026-01-05, 2026-06-10, 杨波刘悦),
(CN202414390184.6, 新型人工智能应用技术, 发明创造, 2026-01-20, 2026-07-10, 马宁赵亮),
(CN202423490185.7, 创意手机挂件改良设计, 实用新型, 2026-02-05, 2026-07-20, 孙琳李阳),
(CN202414490186.8, 大数据安全防护优化技术, 发明创造, 2026-02-20, 2026-08-10, 张宇王丽),
(CN202423590187.9, 便携式小风扇改良设计, 实用新型, 2026-03-05, 2026-08-20, 李明王强);一、表结构分析
我们有一个名为 t_patent_detail 的专利明细表它包含以下重要字段 patent_id专利号用于唯一标识每个专利。patent_name专利名称清晰地展示专利的主题。patent_type专利类型区分不同种类的专利。aplly_date申请时间记录专利申请的日期。authorize_date授权时间表明专利获得授权的时间点。apply_users申请人值得注意的是同一个专利可以有 1 到多个申请人多人之间按分号隔开此表记录数约 1 万条。 二、查询思路
为了得到各类型专利 top10 申请人和专利申请数我们采取以下步骤
一处理申请人字段
首先由于申请人字段中可能存在多个申请人以分号分隔我们需要将这个字段 “炸裂”使用 explode 函数。通过 lateral view explode(split(apply_users,;)) t1 as coll我们创建了一个临时的视图将每个申请人单独提取出来并赋予一个新的列名 apply_name。这样原本一行可能对应多个申请人的数据会被扩展成多行每行对应一个申请人。
二分组计数和排名
在处理好申请人字段后我们对新生成的数据集进行分组。使用 group by t1.apply_name 按照申请人进行分组然后使用 count(*) 函数计算每个申请人的专利申请数。接着使用 rank() over(order by count(*) desc) 函数对申请人按照专利申请数进行降序排名。
三、Hive 查询语句
以下是完整的 Hive 查询语句
select t1.apply_name 申请人,count(*) 专利申请数,rank() over(order by count(*) desc) 专利数排名
from (--先将申请人字段炸裂select d.*, t1.coll apply_namefrom t_patent_detail dlateral view explode(split(apply_users,)) t1 as coll
) t1
group by t1.apply_name limit 0,10; --按照申请人分组
查询结果如下: