计算集群概况¶
集群试运行阶段:2025 年 8 月 25 日至 2025 年 9 月 30 日;正式运行阶段:自 2025 年 10 月 1 日起。
计算集群已于 2025 年 10 月 1 日进入正式运行阶段。
硬件环境¶
节点配置¶
| 节点类别 | 节点名 | 主要规格 | 节点数 |
|---|---|---|---|
| GPU 节点(A800) | gpu[1-5] | 2 * Intel Xeon Platinum 8358P CPU @ 2.60GHz, 1TB, NVIDIA A800 SXM4 8-GPU 80GB | 5 |
| GPU 节点(RTX4090) | gpu[6-8] | 2 * Intel Xeon Gold 6426Y CPU @ 2.5GHz, 512GB, NVIDIA GeForce RTX 4090 8-GPU 24GB | 3 |
| GPU 节点(L40) | gpu[9-10] | 2 * Intel Xeon Platinum 8360Y CPU @ 2.40GHz, 1TB, NVIDIA L40 8-GPU 48GB | 2 |
| GPU 节点(A100) | gpu[11-21] | 2 * Intel Xeon Platinum 8358P CPU @ 2.60GHz, 1TB, NVIDIA A100 SXM4 8-GPU 80GB | 11 |
| 登录节点 / 管理节点 | login/master | 2 * Intel Xeon Gold 6226R CPU @ 2.90GHz, 384GB | 1 |
| 存储节点 1 | data1 | 2 * Intel Xeon Silver 4310 @ 2.10GHz, 128GB, 36 * 3.84TB SSD | 1 |
| 存储节点 2 | data2 | 2 * Intel Xeon Silver 4310 @ 2.10GHz, 128GB, 34 * 16TB HDD | 1 |
计算节点性能¶
| GPU 型号 | GPU 数 / 节点 | CUDA Cores / 节点 | Tensor Cores / 节点 | FP64 (TFLOPS / 节点) | FP16 Tensor Core (PFLOPS / 节点) | 节点数 |
|---|---|---|---|---|---|---|
| A800 | 8 | 55,296 | 3,456 | 77.6 | 2.496 | 5 |
| RTX4090 | 8 | 131,072 | 4,096 | 10.3 | 2.642 | 3 |
| L40 | 8 | 145,408 | 4,544 | 11.3 | 1.448 | 2 |
| A100 | 8 | 55,296 | 3,456 | 77.6 | 2.496 | 11 |
集群共包含 21 个 GPU 计算节点、168 张 GPU 加速卡,在忽略通信与并行效率损失的理想条件下,其 GPU 侧理论 FP64 峰值性能约为 1.30 PFLOPS,FP16 Tensor Core 理论峰值性能可达 50.758 PFLOPS。
存储配置¶
| 节点类别 | 主要规格 | 可用容量 |
|---|---|---|
| 存储节点 1 | 36 * 3.84TB SSD | 配置硬件 RAID 后约为 120TB |
| 存储节点 2 | 34 * 16TB HHD | 配置硬件 RAID 后约为 470TB |
存储容量合计:682.24TB,可用容量合计约 590TB。
分区设置¶
| 分区 | 节点列表 | 单节点规格 | 数量 | 备注 |
|---|---|---|---|---|
| A800 | gpu[1-5] | 128 核,1TB 内存,8 张 GPU 卡 | 5 | 推荐每申请 1 张 GPU 卡搭配申请 16 核 CPU 和 128 GB 内存 |
| RTX4090 | gpu[6-8] | 64 核,512GB 内存,8 张 GPU 卡 | 3 | 推荐每申请 1 张 GPU 卡搭配申请 8 核 CPU 和 64 GB 内存 |
| L40 | gpu[9-10] | 144 核,1TB 内存,8 张 GPU 卡 | 2 | 推荐每申请 1 张 GPU 卡搭配申请 18 核 CPU 和 128 GB 内存 |
| A100 | gpu[11-21] | 128 核,1TB 内存,8 张 GPU 卡 | 11 | 推荐每申请 1 张 GPU 卡搭配申请 16 核 CPU 和 128 GB 内存 |
当前资源配置策略:
- 每个计算任务仅支持在单一计算节点上运行;
- 在 A800 和 A100 分区中运行的作业,必须至少申请 1 张 GPU 卡。
QOS 设置¶
| QOS 名称 | MaxJobsPU | MaxSubmitPU |
|---|---|---|
| normal | 3 | 4 |
PU = per user(每用户)
- MaxJobsPU:每用户在此 QoS 下可同时运行的作业数上限:3。
- MaxSubmitPU:每用户在此 QoS 下运行 + 排队的作业数上限:4。例如 2 个运行 + 2 个排队。
计费标准¶
为保障 GPU 资源的公平使用,我们实行“等效占用”的计费原则:若作业申请并使用了大量 CPU,即使未实际使用 GPU, 也需承担相应比例的 GPU 成本。该机制旨在防止变相独占稀缺资源,引导用户按需精确申请资源,从而提升整体资源利用率。
作业费用将根据实际占用的加速卡与 CPU 资源量计算,公式如下:
\[
\text{usageHours} \times \max \left\{ \text{gpusUsed}, \lceil \text{cpusAlloc} \times \frac{\text{gpusPerPartition}}{\text{coresPerPartition}} \rceil \right\} \times \text{unitPrice}.
\]
分区计费标准:
| 分区 | 单价(元) | 费用计算公式 |
|---|---|---|
| A800 | 2.00 | \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{128} \rceil\right\} \times 2.00\) |
| RTX4090 | 0.50 | \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{64} \rceil\right\} \times 0.50\) |
| L40 | 1.00 | \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{144} \rceil\right\} \times 1.00\) |
| A100 | 2.00 | \(\text{usageHours} \times \max \left\{\text{gpusUsed},\;\lceil \text{cpusAlloc} \times \frac{8}{128} \rceil\right\} \times 2.00\) |
费用充值¶
充值功能目前正在内部测试与流程拟定中。
作业费用计算示例
某作业被分配至 L40 分区,资源分配情况(AllocTRES)为
cpu=64,mem=64G,node=1,运行时长(Elapsed)为3-00:00:03。根据费用计算公式:最终计算得出该作业费用为 288.003 元。