安装Python及工具
sudo apt update && sudo apt install python3 python3-pip # 安装Python和pip
pip3 install pandas numpy matplotlib seaborn scikit-learn jupyterlab # 安装核心库
验证安装
python3 --version # 检查Python版本
pip3 show pandas # 检查库是否安装成功
数据收集与导入
import pandas as pd
data = pd.read_csv('data.csv') # 替换为你的文件路径
print(data.head()) # 查看前5行数据
数据清洗
data.dropna(inplace=True) # 删除缺失值行
data.drop_duplicates(inplace=True) # 删除重复行
data['列名'] = data['列名'].fillna(0) # 填充缺失值(示例:用0填充)
数据探索与可视化
print(data.describe()) # 数值型数据的均值、标准差等
import matplotlib.pyplot as plt
import seaborn as sns
sns.boxplot(x='类别列', y='数值列', data=data)
plt.title('箱线图示例')
plt.show()
数据分析与建模
# 按类别分组计算平均值
grouped = data.groupby('类别列')['数值列'].mean()
print(grouped)
# 计算两列相关性
correlation = data['数值列1'].corr(data['数值列2'])
print(correlation)
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
X = data[['特征1', '特征2']] # 自变量
y = data['目标列'] # 因变量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model = LinearRegression()
model.fit(X_train, y_train)
print(model.predict(X_test)) # 预测结果
| 类型 | 库/工具 | 用途 |
|---|---|---|
| 数据处理 | Pandas | 数据清洗、转换、合并 |
| 数值计算 | NumPy | 数组操作、数学运算 |
| 可视化 | Matplotlib/Seaborn | 绘制图表(折线图、柱状图、箱线图等) |
| 机器学习 | Scikit-learn | 分类、回归、聚类等算法 |
| 交互式开发 | Jupyter Lab | 实时编写、运行代码并展示结果 |
sudo pip安装库,优先用虚拟环境隔离依赖。通过以上步骤,可快速在Debian系统上搭建Python数据分析环境并完成基础任务,后续可根据需求深入学习特定领域的库(如时间序列分析用statsmodels)。