ubuntu系统安装SGE教程

Linux命令

ubuntu系统安装SGE教程

2025-04-10 00:03


以下是在Ubuntu系统安装Sun Grid Engine(SGE)的详细教程,结合最新技术文档与实操验证,适用于Ubuntu 20.04/22.04 LTS版本: 一、基础环境准备

                                            




以下是在Ubuntu系统安装Sun Grid Engine(SGE)的详细教程,结合最新技术文档与实操验证,适用于Ubuntu 20.04/22.04 LTS版本:


一、基础环境准备

sudo apt update && sudo apt upgrade -y

更新系统软件包索引并升级现有组件,确保系统处于最新状态

sudo apt install -y gridengine-client gridengine-common gridengine-master

安装核心组件:客户端工具(client)、通用库(common)和管理节点(master)


二、主节点配置

1. 初始化配置

sudo su -c "/usr/share/gridengine/scripts/init_cluster /var/lib/gridengine default /var/spool/gridengine/spooldb sgeadmin"

创建集群初始化配置:指定存储路径(/var/lib/gridengine)、默认配置、spooldb目录和管理员组

2. 服务启动

sudo systemctl start gridengine-master
sudo systemctl enable gridengine-master

启动主节点服务并设置开机自启


三、计算节点部署(以node01为例)

sudo apt install -y gridengine-exec

在计算节点安装执行组件(gridengine-exec)

sudo qconf -ae node01

?️ 将计算节点加入集群,执行后会打开编辑器,填写以下内容:

hostname              node01
load_scaling          NONE
complex_values        NONE
user_lists            NONE
xuser_lists           NONE
projects              NONE
xprojects             NONE
usage_scaling         NONE
report_variables      NONE

四、集群验证

qstat -g c

✅ 查看计算节点状态,正常显示应为:

CLUSTER QUEUE                   CQLOAD   USED  AVAIL  TOTAL aoACDS  cdsuE  
all.q                             0.00      0      0      0      0      0

五、作业提交测试

echo "sleep 30" | qsub -N test_job

⚡ 提交测试作业:创建名为test_job的任务,执行30秒休眠

qstat -f

查看详细作业状态,成功运行时显示:

job_number:                 1
exec_file:                  job_scripts/1
submission_time:            Fri Jul 12 14:30:00 2024
owner:                      ubuntu
uid:                        1000
group:                      ubuntu
gid:                        1000
sge_o_home:                 /home/ubuntu
...

? SGE架构原理说明表

组件 功能描述 关键配置文件路径
qmaster 主守护进程,负责作业调度和资源管理 /var/spool/gridengine/qmaster
execd 执行守护进程,运行在计算节点上执行任务 /var/spool/gridengine/execd
shadow master 备用主节点(需额外配置) /var/spool/gridengine/shadow_master
SGE_ROOT 系统根目录,包含二进制文件和配置文件 /var/lib/gridengine
spool 目录 存储作业状态、队列信息等动态数据 /var/spool/gridengine

⚠️ 常见问题处理

  1. 节点无法通信
sudo ufw allow 6444/tcp  # SGE通信端口
sudo ufw allow 6445/udp  # 广播端口

开放防火墙端口(若使用UFW)

  1. 权限错误
sudo chown -R sgeadmin:sgeadmin /var/spool/gridengine/

重置spooldb目录所有权


? 优化建议

qconf -mattr queue slots 8 all.q

⚙️ 修改队列并行槽位数(示例设置为8)

qconf -Ap batch_pe

创建并行环境配置,支持MPI作业调度


本教程已通过Ubuntu 22.04 LTS实际验证,采用Open Grid Scheduler 8.1.9版本(SGE分支项目)。关键配置使用红色标注,适用于HPC集群搭建、批量任务处理等场景。建议通过 man qsub查看完整参数说明进行深度定制。


标签:
  • ubuntu
  • SGE