温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

去重计数有哪些实现方式

发布时间:2021-06-15 15:03:32 来源:亿速云 阅读:194 作者:chen 栏目:编程语言

这篇文章主要讲解了“去重计数有哪些实现方式”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“去重计数有哪些实现方式”吧!

这是一个关于 pandas 从基础到进阶的练习题系列,来源于 github 上的 guipsamora/pandas_exercises  。这个项目从基础到进阶,可以检验你有多么了解 pandas。

我会挑选一些题目,并且提供比原题库更多的解决方法以及更详尽的解析。

如下数据:

去重计数有哪些实现方式

数据描述:

  • 此数据是订单明细表。一个订单会包含很多明细项,表中每个样本(每一行)表示一个明细项

  • order_id 列存在重复

  • quantity 是明细项数量

需求:数据中共有多少个订单?

下面是答案了

方式1

因为 order_id 列是存在重复的,那么一种比较直观的方式就是去重+计数:

len(df.order_id.drop_duplicates()) 1834
  • Series.drop_duplicates() 返回的仍然是一个 Series

  • len 函数可以计算 Series 值数量

但是你可能不知道的是,这个方式是不准确的!

方式2

之所以说上一种方式是不准确,是因为没有考虑到空值的问题。

len 函数不会忽略空值(nan) ,因此如果列中有空值,那么就比正确结果数量多。

正确的做法是:

len(df.order_id.drop_duplicates().dropna())
  • 使用 Series.dropna() 方法可以去掉 nan 值

提示:

即使列中有多个 nan ,经过去重后只会保留一个 nan 值

方式3

实际上,pandas 本身有提供一个忽略 nan 的计数方法:

df.order_id.drop_duplicates().count()

点评:

这种方式个人认为最合适

方式4

pandas 为列(Series)提供了一个快速汇总计数方法:

df.order_id.value_counts()

去重计数有哪些实现方式

  • Series.value_counts() 相当于 根据 order id 分组,统计数量。并且排除 nan

这相当于实现了去重,因此:

df.order_id.value_counts().count()

感谢各位的阅读,以上就是“去重计数有哪些实现方式”的内容了,经过本文的学习后,相信大家对去重计数有哪些实现方式这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI