昆山有名的网站建设公司,装宽带需要多少钱一个月,二级域名免费网站怎么申请,男女做羞羞事网站文章目录 一. 问题描述二. 解决方案2.1 官方文档2.2 XML格式不规范 一. 问题描述
今天接到一个新需求#xff0c;hive表里面有个字段存储的是XML类型数据
数据格式:
abbb/bccc/c
/a二. 解决方案
2.1 官方文档
遇到不懂的… 文章目录 一. 问题描述二. 解决方案2.1 官方文档2.2 XML格式不规范 一. 问题描述
今天接到一个新需求hive表里面有个字段存储的是XML类型数据
数据格式:
abbb/bccc/c
/a二. 解决方案
2.1 官方文档
遇到不懂的问题首先上官方文档查询相关文档然后照着官网的demo改改一般就能解决问题了
官方文档地址: https://cwiki.apache.org/confluence/display/Hive/LanguageManualXPathUDF 丰富的XML相关函数及测试用例
代码:
-- 求路径 a/b下面的值
SELECT xpath_string (abbb/bccc/c/a, a/b) LIMIT 1 ;测试记录:
hive SELECT xpath_string (abbb/bccc/c/a, a/b) LIMIT 1 ;
OK
bb
Time taken: 1.477 seconds, Fetched: 1 row(s)
hive 2.2 XML格式不规范
因为Hive不支持XML数据格式后端写入数据库存的是一个String类型此时格式就没那么规范了会有一些特殊字符
解析xml报错原来是有特殊字符 https://stackoverflow.com/questions/730133/what-are-invalid-characters-in-xml
xml不符合规范的字符 https://blog.csdn.net/u014589856/article/details/107151252
通过正则表达式删除特殊字符:
下面几个是常用的特殊字符
$#%
regexp_replace(the_gifts,[$#%],)只保留 大小写字母 数字 及中文 以及 xml标签
regexp_replace(the_gifts,(^[a-z]|[A-Z]|[0-9]|[\\u4E00-\\u9FA5][/]),)