Pandas中如何进行数据清洗

发布时间：2025-12-02 16:02:35 来源：亿速云阅读：92 作者：小樊栏目：编程语言

在Pandas中进行数据清洗通常涉及以下步骤：

导入必要的库：
```
import pandas as pd
```

读取数据：

df = pd.read_csv('your_data.csv')  # 或者使用其他读取函数，如read_excel, read_sql等

查看数据：

使用head(), tail(), info(), describe()等方法来查看数据的基本情况。

print(df.head())  # 查看前5行
print(df.info())  # 查看数据类型和非空值数量
print(df.describe())  # 查看数值型数据的统计描述

处理缺失值：

检查缺失值：df.isnull().sum()
填充缺失值：df.fillna(value) 或 df.dropna()

# 填充缺失值
df.fillna(df.mean(), inplace=True)  # 用均值填充数值型列的缺失值
df.fillna('Unknown', inplace=True)  # 用字符串填充非数值型列的缺失值

# 删除包含缺失值的行或列
df.dropna(inplace=True)  # 删除包含任何缺失值的行
df.dropna(axis=1, inplace=True)  # 删除包含任何缺失值的列

处理重复值：
- 检查重复值：df.duplicated().sum()
- 删除重复值：df.drop_duplicates()
```
df.drop_duplicates(inplace=True)
```

数据类型转换：

使用astype()方法转换数据类型。

df['column_name'] = df['column_name'].astype('int')  # 将列转换为整数类型

字符串处理：

使用str访问器进行字符串操作，如分割、连接、替换等。

df['new_column'] = df['column_name'].str.split(' ').str[0]  # 分割字符串并取第一个部分
df['column_name'] = df['column_name'].str.replace('old', 'new')  # 替换字符串中的内容

数值处理：

使用数学运算符和Pandas函数进行数值计算。

df['new_column'] = df['column_name1'] + df['column_name2']  # 数值相加

数据筛选：

使用布尔索引进行数据筛选。

filtered_df = df[df['column_name'] > 10]  # 筛选出某列大于10的行

数据排序：

使用sort_values()方法对数据进行排序。

sorted_df = df.sort_values(by='column_name', ascending=False)  # 按某列降序排序

数据合并：

使用merge()或concat()方法合并数据集。

merged_df = pd.merge(df1, df2, on='common_column')  # 根据公共列合并两个DataFrame
concatenated_df = pd.concat([df1, df2], axis=0)  # 沿着行方向连接两个DataFrame

数据分组和聚合：

使用groupby()方法进行数据分组，并使用聚合函数进行计算。

grouped_df = df.groupby('column_name').agg({'another_column': 'sum'})  # 按某列分组并计算另一列的和

这些步骤通常会根据具体的数据集和分析需求进行调整。数据清洗是一个迭代的过程，可能需要多次尝试和调整才能得到满意的结果。

向AI问一下细节

Pandas中如何进行数据清洗

猜你喜欢

最新资讯

相关推荐

相关标签