CentOS 常用 Python 数据分析库清单
在 CentOS 上进行数据分析,常用的 Python 库可按用途分为:数据处理与统计、可视化、机器学习与建模、交互式计算与开发工具、数据库与数据获取。下面给出常用库及简要用途,便于快速选型与搭建环境。
常用库分类与用途
| 分类 |
代表库 |
主要用途 |
| 数据处理与统计 |
NumPy、Pandas、SciPy |
ndarray 与矩阵运算、结构化数据处理、缺失值/异常值处理、统计与科学计算 |
| 可视化 |
Matplotlib、Seaborn、Plotly、Bokeh |
静态图表、统计图、交互式可视化与仪表盘 |
| 机器学习与建模 |
scikit-learn |
分类、回归、聚类、降维、模型选择与评估 |
| 统计建模 |
Statsmodels |
回归诊断、时间序列分析、统计检验 |
| 交互式计算与开发工具 |
Jupyter Notebook |
交互式笔记本,便于探索式分析与报告 |
| 数据库与数据获取 |
pymysql、SQLAlchemy |
连接 MySQL 等数据库、执行查询并将结果载入 DataFrame |
快速安装与起步
- 使用系统包管理器安装基础环境(示例为 CentOS 7/8):
- 安装 Python 3 与 pip:sudo yum install python3 python3-pip -y
- 安装常用库:pip3 install numpy pandas matplotlib seaborn scipy scikit-learn
- 可选:安装 Jupyter Notebook:pip3 install notebook,启动:jupyter notebook
- 使用 Anaconda 管理环境与依赖(适合多项目与复杂依赖):
- 下载安装脚本并安装:wget https://repo.anaconda.com/archive/Anaconda3-2023.07-2-Linux-x86_64.sh,bash Anaconda3-2023.07-2-Linux-x86_64.sh
- 使配置生效:source ~/.bashrc
- 之后可用 conda 创建环境并安装上述库(如:conda create -n data python=3.11 numpy pandas scikit-learn)