温馨提示×

Python数据分析在CentOS上如何配置

小樊
36
2025-11-14 04:43:57
栏目: 编程语言

在 CentOS 上配置 Python 数据分析环境的实用步骤

一 基础环境准备

  • 更新系统并安装常用工具与仓库:建议先执行系统更新并启用 EPEL,以获得更完整的软件包。
    • 命令:sudo yum update -y
    • 命令:sudo yum install -y epel-release
  • 安装 Python 3pip3(若系统已自带可跳过安装,但建议确保版本为 3.x)。
    • 命令:sudo yum install -y python3 python3-pip
  • 建议将 pip 升级到最新版本,减少依赖解析与编译问题。
    • 命令:python3 -m pip install --upgrade pip
  • 可选:安装构建依赖(编译某些科学计算包如 NumPy/ SciPy 时很有用)。
    • 命令:sudo yum groupinstall -y "Development Tools"
    • 命令:sudo yum install -y gcc gcc-c++ make cmake3 blas-devel lapack-devel openblas-devel
      以上步骤完成后,系统已具备运行数据分析所需的基础运行时与包管理工具。

二 方案一 使用系统 Python 与虚拟环境(轻量、贴近系统)

  • 创建并激活虚拟环境(避免依赖冲突,推荐为每个项目单独创建)。
    • 命令:python3 -m venv ~/venvs/data310
    • 命令:source ~/venvs/data310/bin/activate
  • 在虚拟环境中升级 pip 并安装常用数据分析库(按需增删)。
    • 命令:pip install --upgrade pip
    • 命令:pip install numpy pandas matplotlib seaborn scipy scikit-learn jupyter
  • 启动 Jupyter Notebook(远程服务器建议配合 --ip--no-browser 使用)。
    • 命令:jupyter notebook --ip=0.0.0.0 --no-browser --allow-root
  • 退出虚拟环境:deactivate
    该方案依赖少、可控性强,适合服务器或资源较紧张的环境。

三 方案二 使用 Anaconda(包与环境管理一体化,适合数据科学)

  • 下载并安装 Anaconda(选择适合 x86_64 的 Linux 安装脚本,示例为 2023.07-2 版本;如需最新版请到官网获取)。
    • 命令:wget https://repo.anaconda.com/archive/Anaconda3-2023.07-2-Linux-x86_64.sh
    • 命令:bash Anaconda3-2023.07-2-Linux-x86_64.sh
    • 安装完成后执行:source ~/.bashrc(或新开终端)以加载 conda 环境。
  • 使用 conda 创建数据分析环境并安装常用库(示例环境名为 ds310)。
    • 命令:conda create -n ds310 python=3.10 -y
    • 命令:conda activate ds310
    • 命令:conda install -c conda-forge numpy pandas matplotlib seaborn scipy scikit-learn jupyter
  • 启动 Jupyter Notebookjupyter notebook --ip=0.0.0.0 --no-browser --allow-root
    Anaconda 提供强大的环境隔离与二进制包管理,能显著减少在 CentOS 上编译扩展模块的成本。

四 常用扩展与数据库对接(按需)

  • 数据库对接示例(以 MySQL 为例):
    • 安装与启动 MySQL(示例):
      • 命令:sudo yum install -y mysql-community-server
      • 命令:sudo systemctl start mysqld
      • 命令:sudo systemctl enable mysqld
      • 查看初始密码:grep 'temporary password' /var/log/mysqld.log
    • Python 读取数据(示例):
      • 安装驱动:pip install pymysql
      • 代码示例:
        • import pandas as pd, pymysql
        • conn = pymysql.connect(host='localhost', user='root', password='your_password', db='your_db')
        • df = pd.read_sql('SELECT * FROM your_table', conn); conn.close()
  • 其他常用库(按需安装):Statsmodels(统计建模)、Plotly/Bokeh(交互式可视化)、XGBoost(梯度提升树)。
    • 命令示例:pip install statsmodels plotly bokeh xgboost
      上述扩展覆盖从数据接入、统计分析到机器学习建模的常见需求,可按项目逐步引入。

五 常见问题与优化建议

  • 编译失败或性能不佳:优先使用 Anaconda 提供的预编译包;若用系统 Python,确保已安装 BLAS/LAPACK/OpenBLAS 等数值库开发包,可显著提升 NumPy/SciPy 的构建质量与运行速度。
  • 升级 Python 3.6 → 3.8(仅在确有兼容性需求时执行):升级后可使用国内镜像源加速安装常用数据分析库,例如:
    • 命令:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy pandas matplotlib seaborn scipy scikit-learn
  • 服务器使用 Jupyter 的安全建议:绑定内网或指定 IP,开启登录口令或 token,必要时配合 Nginx/TLS 做反向代理与加密访问。

0