Python数据分析怎样清洗数据

发布时间：2026-01-10 16:07:47 来源：亿速云阅读：98 作者：小樊栏目：编程语言

在Python中进行数据分析时，数据清洗是一个非常重要的步骤。数据清洗的目的是确保数据的质量，以便后续的分析和建模能够得到准确和可靠的结果。以下是一些常见的数据清洗步骤和相应的Python代码示例：

1. 导入必要的库

import pandas as pd
import numpy as np

2. 加载数据

# 假设数据存储在一个CSV文件中
df = pd.read_csv('data.csv')

3. 查看数据

# 查看数据的前几行
print(df.head())

# 查看数据的统计信息
print(df.describe())

# 查看数据的缺失值
print(df.isnull().sum())

4. 处理缺失值

4.1 删除包含缺失值的行或列

# 删除包含缺失值的行
df.dropna(inplace=True)

# 删除包含缺失值的列
df.dropna(axis=1, inplace=True)

4.2 填充缺失值

# 使用均值填充缺失值
df.fillna(df.mean(), inplace=True)

# 使用中位数填充缺失值
df.fillna(df.median(), inplace=True)

# 使用众数填充缺失值
df.fillna(df.mode().iloc[0], inplace=True)

5. 处理重复值

# 删除重复的行
df.drop_duplicates(inplace=True)

6. 数据类型转换

# 将某一列的数据类型转换为整数
df['column_name'] = df['column_name'].astype(int)

# 将某一列的数据类型转换为浮点数
df['column_name'] = df['column_name'].astype(float)

# 将某一列的数据类型转换为字符串
df['column_name'] = df['column_name'].astype(str)

7. 处理异常值

7.1 使用统计方法检测和处理异常值

# 使用Z-score检测异常值
from scipy import stats

z_scores = np.abs(stats.zscore(df['column_name']))
threshold = 3
df = df[(z_scores < threshold)]

# 使用IQR检测异常值
Q1 = df['column_name'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df = df[(df['column_name'] >= lower_bound) & (df['column_name'] <= upper_bound)]

8. 数据标准化和归一化

# 标准化（Z-score标准化）
df['column_name'] = (df['column_name'] - df['column_name'].mean()) / df['column_name'].std()

# 归一化（Min-Max归一化）
df['column_name'] = (df['column_name'] - df['column_name'].min()) / (df['column_name'].max() - df['column_name'].min())

9. 特征工程

# 创建新的特征
df['new_feature'] = df['column1'] + df['column2']

# 删除不必要的特征
df.drop(['unnecessary_column'], axis=1, inplace=True)

10. 保存清洗后的数据

df.to_csv('cleaned_data.csv', index=False)

通过以上步骤，你可以对数据进行全面的清洗，确保数据的质量和一致性，从而为后续的数据分析和建模打下坚实的基础。

向AI问一下细节