TORQUE
TORQUE 是一个资源管理器,用于控制批处理任务和分布式计算节点。基本上,您可以使用此软件设置家庭或小型办公室 Linux 集群并排队任务。集群由一个主节点和许多计算节点组成。主节点运行 torque-server 守护进程,计算节点运行 torque-client 守护进程。主节点还运行一个调度器守护进程。
安装
安装 torqueAUR 软件包。
必备条件
/etc/hosts
确保集群中所有计算机上的 /etc/hosts 文件都包含集群中每台 PC 的主机名。例如,集群由 3 台 PC 组成:mars、phobos 和 deimos。
192.168.0.20 mars 192.168.0.21 phobos 192.168.0.22 deimos
防火墙配置(如果已安装)
请确保为所有使用 TORQUE 的机器打开 TCP 端口。
pbs_server(服务器)和 pbs_mom(客户端)默认使用 TCP 和 UDP 端口 15001-15004。如果配置了特权端口(默认),pbs_mom(客户端)还会使用 1023 及以下的 UDP 端口。
NFS
严格来说,不需要使用 NFS,但这样做可以简化整个过程。强烈建议使用服务器或其他机器上的 NFS 共享来简化共享公共构建磁盘空间的过程。
配置
服务器(主节点)配置
在主节点/调度器上执行以下步骤。
编辑 /var/spool/torque/server_name 文件以命名主节点。建议为简洁起见,使其与 /etc/hostname 中的主机名匹配。
创建并配置 torque 服务器
# pbs_server -t create PBS_Server localhost.localdomain: Create mode and server database exists, do you wish to continue y/(n)?y
然后通过运行以下命令启动 trqauthd:
# trqauthd
这里提供了一组最少的选项。修改第一行,将“mars”替换为在 /var/spool/torque/server_name 中输入的主机名。
qmgr -c "set server acl_hosts = mars" qmgr -c "set server scheduling=true" qmgr -c "create queue batch queue_type=execution" qmgr -c "set queue batch started=true" qmgr -c "set queue batch enabled=true" qmgr -c "set queue batch resources_default.nodes=1" qmgr -c "set queue batch resources_default.walltime=3600" qmgr -c "set server default_queue=batch"
可能需要保留队列中的已完成任务一段时间。
qmgr -c "set server keep_completed = 86400"
此处,86400 秒 = 24 小时,之后任务将从队列中自动删除。可以使用 qstat 上的 -f 开关查看从队列中删除的任务的完整日志。
qstat -f
使用以下命令验证服务器配置。
# qmgr -c 'p s'
编辑 /var/spool/torque/server_priv/nodes 文件,添加所有计算节点。同样,建议与局域网中的机器主机名匹配。语法是 HOSTNAME np=x gpus=y properties
- HOSTNAME=机器的主机名
- np=处理器数量
- gpus=GPU 数量
- properties=注释
只需要主机名,所有其他字段都是可选的。
示例
mars np=4 phobos np=2 deimos np=2
- 可以在同一台机器上同时运行服务器和客户端。
- 重新运行
pbs_server -t create可能会删除此节点文件。
重启服务器后,新的选项将被读取。
客户端(计算节点)配置
在集群的每个计算节点上执行以下步骤。
编辑 /var/spool/torque/mom_priv/config 文件,其中包含一些识别服务器的基本信息。
$pbsserver mars # note: this is the hostname of the headnode $logevent 255 # bitmap of which events to log
重启服务器
应该就完成了。现在重启服务器,以便设置生效。
# killall -s 9 pbs_server # pbs_server
启动客户端
要启动客户端,请在每个客户端上运行以下命令,包括服务器(如果它也是客户端)。
# pbs_mom
验证集群状态
要检查集群的状态,请发出以下命令。
$ pbsnodes -a
每个正常运行的节点应显示为准备好接收任务,显示 state 为 free。如果节点无法工作,它将报告 down 状态。
示例输出
mars
state = free
np = 4
ntype = cluster
status = rectime=1308479899,varattr=,jobs=0.localhost.localdomain,state=free,netload=1638547057,
gres=,loadave=2.69,ncpus=4,physmem=8195892kb,availmem=7172508kb,totmem=8195892kb,
idletime=24772,nusers=1,nsessions=5,sessions=1333 1349 1353 1388 9095,
uname=Linux mars 2.6.39-ck #1 SMP PREEMPT Sat Jun 18 14:19:01 EDT 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 2
phobos
state = free
np = 2
ntype = cluster
status = rectime=1308479933,varattr=,jobs=,state=free,netload=1085755815,
gres=,loadave=2.84,ncpus=2,physmem=4019704kb,availmem=5753552kb,totmem=6116852kb,
idletime=7324,nusers=2,nsessions=6,sessions=1565 1562 1691 1716 1737 1851,
uname=Linux phobos 2.6.37-ck #1 SMP PREEMPT Sun Apr 3 17:16:35 EDT 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 1
deimos
state = free
np = 2
ntype = cluster
status = rectime=1308479890,varattr=,jobs=2.localhost.localdomain,state=free,netload=527239670,
gres=,loadave=0.52,ncpus=2,physmem=4057808kb,availmem=3955624kb,totmem=4057808kb,
idletime=644,nusers=1,nsessions=1,sessions=865,
uname=Linux deimos 2.6.39-ck #1 SMP PREEMPT Sat Jun 11 12:36:21 EDT 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 1
排队任务
通过 qsub 命令可以实现向集群排队。
一个简单的测试是简单地运行 sleep。
$ echo "sleep 30" | qsub
通过下面介绍的 qstat 命令检查队列状态。此时,工作将处于“Q”(排队中)状态。要启动它,请运行调度器。
# pbs_sched
可以修改 torque-server systemd 守护进程,使其在启动时激活 pbs_sched。
qsub 的另一个用法是命名任务并排队一个脚本。
$ qsub -N x264 /home/facade/bin/x264_HQ.sh
另一个例子是使用包装脚本来大规模自动创建和排队任务。
检查任务状态
qstat 用于检查工作状态。
$ qstat
Job id Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 13.localhost generic-i686.pbs facade 00:05:06 R batch 14.localhost atom-i686.pbs facade 00:03:09 R batch 15.localhost core2-i686.pbs facade 00:01:02 R batch 16.localhost k7-i686.pbs facade 0 Q batch 17.localhost k8-i686.pbs facade 0 Q batch 18.localhost k10-i686.pbs facade 0 Q batch 19.localhost p4-i686.pbs facade 0 Q batch 20.localhost pentm-i686.pbs facade 0 Q batch 21.localhost ...ic-x86_64.pbs facade 0 Q batch 22.localhost atom-x86_64.pbs facade 0 Q batch 23.localhost core2-x86_64.pbs facade 0 Q batch 24.localhost k8-x86_64.pbs facade 0 Q batch 25.localhost k10-x86_64.pbs facade 0 Q batch
附加 -n 开关可查看哪些节点正在执行哪些任务。
$ qstat -n
localhost.localdomain:
405.localhost.lo facade batch i686-generic 3035 1 0 -- 01:00 C 00:12
mars/3+mars/2+mars/1+mars/0
406.localhost.lo facade batch i686-atom 5768 1 0 -- 01:00 C 00:46
phobos/1+phobos/0
407.localhost.lo facade batch i686-core2 22941 1 0 -- 01:00 C 00:12
mars/3+mars/2+mars/1+mars/0
408.localhost.lo facade batch i686-k7 10152 1 0 -- 01:00 C 00:12
mars/3+mars/2+mars/1+mars/0
409.localhost.lo facade batch i686-k8 29657 1 0 -- 01:00 C 00:12
mars/3+mars/2+mars/1+mars/0
410.localhost.lo facade batch i686-k10 16838 1 0 -- 01:00 C 00:12
mars/3+mars/2+mars/1+mars/0
411.localhost.lo facade batch i686-p4 25340 1 0 -- 01:00 C 00:46
deimos/1+deimos/0
412.localhost.lo facade batch i686-pentm 12544 1 0 -- 01:00 R 00:20
phobos/1+phobos/0
413.localhost.lo facade batch x86_64-generic 4024 1 0 -- 01:00 C 00:13
mars/3+mars/2+mars/1+mars/0
414.localhost.lo facade batch x86_64-atom 19330 1 0 -- 01:00 C 00:13
mars/3+mars/2+mars/1+mars/0
415.localhost.lo facade batch x86_64-core2 2146 1 0 -- 01:00 C 00:13
mars/3+mars/2+mars/1+mars/0
416.localhost.lo facade batch x86_64-k8 17234 1 0 -- 01:00 R 00:11
mars/3+mars/2+mars/1+mars/0
417.localhost.lo facade batch x86_64-k10 -- 1 0 -- 01:00 Q --
--
参见
- 加州大学旧金山分校的 TORQUE 简短课程 - 优秀的指南,包含模板。
- TORQUE 管理手册 - 非常好的资源,易于阅读。
- 波士顿学院的 Torque 用户指南 - 指南不详尽,但可以了解最终用户如何使用集群。对于只有一名用户提交工作的家庭集群来说,可能有点过度。
- TORQUE 邮件列表 - TORQUE 社区非常有知识,是一项重要的资产。
- TORQUE 用户邮件列表存档 - 可搜索的 TORQUE-users 存档。