温馨提示×

dolphin在centos上有哪些应用

小樊
38
2025-12-17 18:10:01
栏目: 智能运维

Dolphin 在 CentOS 上的主要应用

CentOS 环境中,常见的 “Dolphin” 主要对应两类开源产品:Apache DolphinScheduler(工作流任务调度)与 DolphinDB(分布式时序数据库)。二者在数据处理与数据基础设施中常被组合使用:前者负责任务编排与依赖管理,后者负责高性能时序数据的存储与计算。

Apache DolphinScheduler 在 CentOS 的应用

  • 典型场景

    • 数据研发 ETL 依赖管理:以 DAG 方式编排任务,解决复杂依赖、支持失败重试、从指定节点恢复、暂停/恢复/终止等,适合大规模 ETL/数据管道 的稳定运行与监控。
    • 多类型任务编排与对接:内置 Shell、SQL、Spark、Hive、MR、Python、Sub_Process、Procedure、DEPENDENT 等任务类型,可通过 API 与第三方系统集成,覆盖批处理、数据质量、报表生成等日常数据作业。
    • 企业级调度管控:支持 多租户在线资源管理告警补数定时/依赖/手动调度优先级与失败策略 等,适配从小规模到大规模集群的调度需求。
  • 部署与运行要点

    • 运行环境:JDK 1.8+、关系型数据库 MySQL 5.7+ 或 PostgreSQL 8.2.15+ZooKeeper 3.4.6+;部署用户建议配置 sudo 免密SSH 免密;资源上传可对接 Hadoop HDFS 或 MinIO(可选)。
    • 端口与访问:前端 ApiApplicationServer 默认端口 12345MasterServer 5678WorkerServer 1234 为本地端口;浏览器建议使用 Chrome/Chromium
    • 模式选择:提供 Standalone(快速体验)、伪集群(单机多服务)、集群(多 Master/Worker 高可用)等部署模式,便于从验证到生产的平滑升级。

DolphinDB 在 CentOS 的应用

  • 典型场景

    • 量化金融与因子计算:在量化金融领域用于复杂因子计算与回测,例如 WorldQuant 101 Alpha 在 DolphinDB 中的实现模块 wq101alpha,性能相较传统 Python 实现平均提升约 250 倍、中位数约 15.5 倍,并支持 批流一体 的计算模式。
    • 高性能时序数据场景:面向需要快速写入与即时分析的场景,如 物联网时序数据工业监控金融行情 等,提供高效的分布式存储与计算能力。
  • 部署与运行要点

    • 系统要求:支持 Linux x86/ARM/龙芯 等平台,推荐 CentOS 7 稳定版;依赖 gcc 4.8.5+;建议 Linux 内核 2.6.19+
    • 存储与文件系统:推荐 XFS(支持动态调整 inode);元数据与 redo log 建议配 SSD(RAID1 提升可靠性),数据实体按成本与性能选择 多 SSD 或多 HDD 并行;遇到 “磁盘空间充足但写入失败” 可检查并调大 inode 配额。

选型与组合建议

  • 任务编排/依赖管理/多作业类型调度 为主,选用 Apache DolphinScheduler;以 高性能时序数据写入与即时分析 为主,选用 DolphinDB
  • CentOS 上构建数据平台时,常用组合是:用 DolphinScheduler 编排 Spark/Hive/Python/Shell 等作业,读写 DolphinDB 中的时序数据,实现从数据接入、处理到分析的一体化流水线。

0