当前位置: 首页 > news >正文

贵州做网站的西安网页开发

贵州做网站的,西安网页开发,分析网站的外链,大学生网站建设申报书文章目录 数据随机抽样1、随机数排序抽样#xff08;rand()#xff09;2、数据块抽样#xff08;tablesample()#xff09;3、分桶抽样 数据随机抽样 在大规模数据量的数据分析及建模任务中#xff0c;往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源#xff0c… 文章目录 数据随机抽样1、随机数排序抽样rand()2、数据块抽样tablesample()3、分桶抽样 数据随机抽样 在大规模数据量的数据分析及建模任务中往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源因此一般情况下只需要抽取一小部分数据进行分析及建模操作。下面罗列一些常用的数据抽样方法。 1、随机数排序抽样rand() order by 与 rand() 结合 说明limit限制抽样条数order by 全局排序耗时长。示例select* fromtable_name order by rand() limit 1000;distribute 、 sort 、 rand() 结合 说明limit限制抽样条数distribute和sort 根据rand()分桶排序保证数据在mapper和reducer阶段随机分布。示例select* fromtable_name distribute by rand() sort by rand() limit 1000;row_number() 、 rand() 结合 说明这种方式可以根据特定业务场景抽取百分比数据row_number() 开窗后根据业务需求分组按照rand()排序排序值随机根据count() over() 得到窗口内总数据量。通过排序值/总数据量 设定阈值来抽取数据。示例-- 根据用户注册日期每日随机抽取20%的用户。 selectt1.cust_id,t1.nums,t1.rnk from (select cust_id,count(cust_id) over(partition by cust_type,register_date) as nums,row_number() over(partition by cust_type,register_date order by rand()) as rnkfromtable_name) t1 wheret1.rnk/t1.nums 0.22、数据块抽样tablesample() 根据 hive 表数据的大小按比例抽取数据 功能根据 hive 表数据的大小按比例抽取数据。如抽取原 hive 表中 10%的数据示例 -- tablesample(n percent): 百分比(percent) -- 语法tablesample(n percent) select * from table_name tablesample(10 percent);-------------------------------------------------------- -- tablesample(n M) 指定抽样数据的大小单位为 M -- 语法tablesample(n M) -- 按照数据的字节数进行采样 -- 支持 b/B, k/K, m/M, g/G select * from table_name tablesample(1 M);-------------------------------------------------------- -- tablesample(n rows) 指定抽样数据的行数其中 n 代表每个 map 任 取 n 行数 据map 数量可通过 hive 表的简单查询语句确认关键词numbe of mappers: x) -- 语法tablesample(n rows) select * from table_name tablesample(10 rows);3、分桶抽样 hive 中分桶其实就是根据某一个字段 Hash 取模放入指定数据的桶中比如将表 table_1 按照 ID 分成 100 个桶其算法是 hash(id) % 100这样hash(id) % 100 0 的数据被放到第一个桶中hash(id) % 100 1 的记录被放到第二个桶中。创建分桶表的关键语句为CLUSTER BY 语句。 语法TABLESAMPLE (BUCKET x OUT OF y [ON colname]) 说明 x 是要抽样的桶编号桶编号从 1 开始colname 表示抽样的列y 表示桶的数量。 示例 -- 示例1select * from table_name tablesample(bucket 1 out of 10 on rand())-- 示例2-- 如果采样的列与CLUSTERED BY 列(即分桶列)相同则采样的效率会更高。select nameFROM employeetablesample(BUCKET 1 OUT OF 2 ON emp_id) a;
http://www.dnsts.com.cn/news/77145.html

相关文章:

  • 公司网站后台登陆wordpress无域名
  • 四平网站建设联系方式在线旅游网站
  • 做羞羞的事的视频网站潍坊专业网站建设哪家好
  • 章丘网站建设哪家好软件开发班
  • 自己做的网站什么时候可以赚钱建站平台在线提交表格功能
  • 网站网页设计公司有哪些网页小游戏单机
  • 网站建设需求调研方法南宫企业做网站
  • 临沂怎么做网站菜谱网站手机源码
  • 网站空间怎么备份WordPress出现503报错
  • 高要区公路建设规划局网站广东海外建设监理有限公司网站
  • 北京网站设计工作室杭州咨询网站公司
  • django做网站好吗网页设计报价标准
  • 网站建设应注意的问题有哪些百度会收录双域名的网站么
  • 贵溪市城乡建设局网站wordpress 彩色序号
  • 苏州建网站的公司哪家公司好我的世界查询建筑网站
  • 哪家公司的网站做得好网站制作的一般步骤
  • 凡科建站官网入口去掉wordpress副标题
  • 国内做免费视频网站有哪些阿尔及利亚网站后缀
  • 为什么百度地图嵌入网站不显示WordPress改成淘宝客
  • 网站目录优化网站建设和实现
  • 陕西高速建设集团网站品牌企业网站建设公司价格
  • php语言做的大网站wordpress主要函数
  • 网站建设需要哪些知识营销型网站的整体规划
  • 如何做ppt的模板下载网站创建网页快捷方式
  • 下载宝硬盘做网站东莞营销网站建设报价
  • 网站二级目录做优化怎么区分用vs和dw做的网站
  • 模板网站建设开发网站设计的概述
  • 如何更新网站快照中国建设大数据
  • 怎么自己做音乐网站怎样用代码建设一个网站
  • 南昌网站建设公司特色重庆seo技术