跳转至

计算集群概况

集群试运行阶段:2025 年 8 月 25 日至 2025 年 9 月 30 日;正式运行阶段:自 2025 年 10 月 1 日起。

计算集群已于 2025 年 10 月 1 日进入正式运行阶段。

硬件环境

节点配置

节点类别 节点名 主要规格 节点数
GPU 节点(A800) gpu[1-5] 2 * Intel Xeon Platinum 8358P CPU @ 2.60GHz, 1TB, NVIDIA A800 SXM4 8-GPU 80GB 5
GPU 节点(RTX4090) gpu[6-8] 2 * Intel Xeon Gold 6426Y CPU @ 2.5GHz, 512GB, NVIDIA GeForce RTX 4090 8-GPU 24GB 3
GPU 节点(L40) gpu[9-10] 2 * Intel Xeon Platinum 8360Y CPU @ 2.40GHz, 1TB, NVIDIA L40 8-GPU 48GB 2
GPU 节点(A100) gpu[11-21] 2 * Intel Xeon Platinum 8358P CPU @ 2.60GHz, 1TB, NVIDIA A100 SXM4 8-GPU 80GB 11
登录节点 / 管理节点 login/master 2 * Intel Xeon Gold 6226R CPU @ 2.90GHz, 384GB 1
存储节点 1 data1 2 * Intel Xeon Silver 4310 @ 2.10GHz, 128GB, 36 * 3.84TB SSD 1
存储节点 2 data2 2 * Intel Xeon Silver 4310 @ 2.10GHz, 128GB, 34 * 16TB HDD 1

计算节点性能

GPU 型号 GPU 数 / 节点 CUDA Cores / 节点 Tensor Cores / 节点 FP64 (TFLOPS / 节点) FP16 Tensor Core (PFLOPS / 节点) 节点数
A800 8 55,296 3,456 77.6 2.496 5
RTX4090 8 131,072 4,096 10.3 2.642 3
L40 8 145,408 4,544 11.3 1.448 2
A100 8 55,296 3,456 77.6 2.496 11

集群共包含 21 个 GPU 计算节点、168 张 GPU 加速卡,在忽略通信与并行效率损失的理想条件下,其 GPU 侧理论 FP64 峰值性能约为 1.30 PFLOPS,FP16 Tensor Core 理论峰值性能可达 50.758 PFLOPS。

存储配置

节点类别 主要规格 可用容量
存储节点 1 36 * 3.84TB SSD 配置硬件 RAID 后约为 120TB
存储节点 2 34 * 16TB HHD 配置硬件 RAID 后约为 470TB

存储容量合计:682.24TB,可用容量合计约 590TB。

分区设置

分区 节点列表 单节点规格 数量 备注
A800 gpu[1-5] 128 核,1TB 内存,8 张 GPU 卡 5 推荐每申请 1 张 GPU 卡搭配申请 16 核 CPU 和 128 GB 内存
RTX4090 gpu[6-8] 64 核,512GB 内存,8 张 GPU 卡 3 推荐每申请 1 张 GPU 卡搭配申请 8 核 CPU 和 64 GB 内存
L40 gpu[9-10] 144 核,1TB 内存,8 张 GPU 卡 2 推荐每申请 1 张 GPU 卡搭配申请 18 核 CPU 和 128 GB 内存
A100 gpu[11-21] 128 核,1TB 内存,8 张 GPU 卡 11 推荐每申请 1 张 GPU 卡搭配申请 16 核 CPU 和 128 GB 内存

当前资源配置策略:

  • 每个计算任务仅支持在单一计算节点上运行;
  • 在 A800 和 A100 分区中运行的作业,必须至少申请 1 张 GPU 卡。

QOS 设置

QOS 名称 MaxJobsPU MaxSubmitPU
normal 3 4

PU = per user(每用户)

  • MaxJobsPU:每用户在此 QoS 下可同时运行的作业数上限:3。
  • MaxSubmitPU:每用户在此 QoS 下运行 + 排队的作业数上限:4。例如 2 个运行 + 2 个排队。

计费标准

为保障 GPU 资源的公平使用,我们实行“等效占用”的计费原则:若作业申请并使用了大量 CPU,即使未实际使用 GPU, 也需承担相应比例的 GPU 成本。该机制旨在防止变相独占稀缺资源,引导用户按需精确申请资源,从而提升整体资源利用率。

作业费用将根据实际占用的加速卡与 CPU 资源量计算,公式如下:

\[ \text{usageHours} \times \max \left\{ \text{gpusUsed}, \lceil \text{cpusAlloc} \times \frac{\text{gpusPerPartition}}{\text{coresPerPartition}} \rceil \right\} \times \text{unitPrice}. \]

分区计费标准:

分区 单价(元) 费用计算公式
A800 2.00 \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{128} \rceil\right\} \times 2.00\)
RTX4090 0.50 \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{64} \rceil\right\} \times 0.50\)
L40 1.00 \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{144} \rceil\right\} \times 1.00\)
A100 2.00 \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{128} \rceil\right\} \times 2.00\)

作业费用计算示例

某作业被分配至 L40 分区,资源分配情况(AllocTRES)为 cpu=64,mem=64G,node=1,运行时长(Elapsed)为 3-00:00:03。根据费用计算公式:

\[ \frac{259203}{60 \times 60} \times \max\left\{0,\ \left\lceil 64 \times \frac{8}{144} \right\rceil \right\} \times 1.00 = 288.003 \text{ 元}. \]

最终计算得出该作业费用为 288.003 元。

费用充值

充值功能目前正在内部测试与流程拟定中。