本篇文章给大家分享的是有关Python中missingno如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
pip install missingno
import missingno as msno
missingno一般配合numpy和pandas一起使用:
import numpy as np
import pandas as pd
案例中还会用到quilt,这是一个数据包管理器,可以让你像管理代码一样管理数据,anaconda没有内置,所以需要安装一下。
from quilt.data.ResidentMario import missingno_data
collisions = missingno_data.nyc_collision_factors()
collisions = collisions.replace("nan", np.nan)
## 绘制缺失值矩阵图
msno.matrix无效矩阵是一个数据密集的显示,它可以快速直观地看出数据完整度。
msno.matrix(collisions.sample(250))
空白越多说明缺失越严重
右侧的迷你图概述了数据完整性的一般形状,并指出了数据集中具有最大和最小无效值的行数。需要说明的是,这个矩阵图最多容纳50个变量,超过此范围的标签开始重叠或变得不可读,默认情况下,大尺寸显示器会忽略它们。
如果要处理时间序列数据,则可以使用关键字参数指定周期性freq:
null_pattern = (np.random.random(1000).reshape((50, 20)) > 0.5).astype(bool)
null_pattern = pd.DataFrame(null_pattern).replace({False: None})
msno.matrix(null_pattern.set_index(pd.period_range('1/1/2011', '2/1/2015', freq='M')) , freq='BQ')
![](https://my-wechat.oss-cn-beijing.aliyuncs.com/image_20200403162803.png)
条形图提供与矩阵图相同的信息,但格式更简单。msno.bar(collisions.sample(1000))
missingno相关性热力图可以显示无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在。
数值为1:两个变量一个缺失另一个必缺失;
数值为-1:一个变量缺失另一个变量必然不缺失。
数值为0:变量缺失值出现或不出现彼此没有影响。
热力图非常适合于选择变量对之间的数据完整性关系,但是当涉及到较大的关系时,其解释力有限,并且它不特别支持超大型数据集。
注:始终为满或始终为空的变量没有任何有意义的关联,因此会从可视化中删除。
msno.heatmap(collisions)
通过树状图,可以更全面地观察缺失变量的关联性,揭示比关联热力图更深刻的相关关系:
msno.dendrogram(collisions)
以上就是Python中missingno如何使用,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。