collect_set
是Hive中的一个聚合函数,其作用是将一组列中的值收集成一个数组,并且自动去除数组中的重复元素。这个函数对于进行数据去重并查看某一列中有哪些不同的值特别有用。
1、基本语法
COLLECT_SET(column_name)
column_name
:指定你想要从中收集并去重值的列名。2、示例
假设有一个表orders
,它有两列:order_id
和product_id
。
order_id | product_id |
---|---|
1 | A |
1 | B |
1 | A |
2 | A |
2 | C |
如果你想要查看每个order_id
购买了哪些不同的product_id
,可以使用collect_set
函数:
SELECT order_id, collect_set(product_id) AS products
FROM orders
GROUP BY order_id;
这条查询可能会返回类似下面的结果:
order_id | products |
---|---|
1 | [“A”, “B”] |
2 | [“A”, “C”] |
注意,由于collect_set
自动去除了重复项,所以即便order_id
为1的订单中有两次产品A,结果中只显示了一次。
3、注意事项
collect_set
时,需要注意它会消耗大量内存,尤其是当处理大量数据时。因此,在使用这个函数之前,评估数据大小和内存限制是很重要的。collect_set
仅适用于Hive等支持此函数的SQL方言,不是所有的SQL数据库都支持这个函数。