Count(Distinct) 怎样去重统计
来源:网络收集 点击: 时间:2024-07-17【导读】:
数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换:方法/步骤1/6分步阅读
2/6
3/6
4/6
5/6
6/6
1. 创建一张大表

2.加载数据

3.设置5个reduce个数

4.执行去重id查询

5.采用GROUP by去重id

虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。
版权声明:
1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。
2、本站仅提供信息发布平台,不承担相关法律责任。
3、若侵犯您的版权或隐私,请联系本站管理员删除。
4、文章链接:http://www.1haoku.cn/art_965183.html
上一篇:新锅怎么处理才能不生锈也不粘锅?
下一篇:自来水交费后如何下载电子发票?