Skip to content

昇腾超节点交付方案

版本:V1.0
日期:2026年5月
适用产品:Atlas 900 A3 SuperPoD / CloudMatrix 384 / Atlas 800I A3


目录

  1. 项目概述
  2. 系统架构设计
  3. 详细实施方案
  4. 软件栈部署指南
  5. 性能验收标准
  6. 运维与保障体系
  7. 项目进度计划
  8. 风险管理

1. 项目概述

1.1 项目背景

超节点架构已成为AI基础设施建设的业界共识和主流选择。面对大模型从生成式AI向Agentic AI演进的趋势,MoE架构、百万级序列长度、多Agent调用等新需求对算力基础设施提出了前所未有的挑战。昇腾超节点通过系统级创新,实现超大带宽、超低时延、内存统一编址三大核心能力,成为万亿参数大模型训练与推理的理想底座。

截至2025年9月,昇腾384超节点累计部署量已突破300套,服务20多家客户。

1.2 交付目标

  • **超大规模AI算力集群建设,满足大模型训练、高并发推理、多模态AIGC等业务场景需求
  • 实现超节点核心技术指标:784GB/s通信带宽、200ns通信时延、48TB统一显存编址
  • 构建完整的软件栈生态,支持主流AI框架与模型无缝迁移
  • 建立标准化验收体系,确保集群稳定运行与业务连续

1.3 适用场景

场景类型典型应用推荐配置
大模型训练LLM预训练、MoE模型训练、多模态训练384卡超节点起步
高并发推理在线推理服务、Agent服务、RAG检索64/128卡灵活配置
强化学习RLHF、后训练、对齐弹性扩缩容架构
多模态AIGC文生图、视频生成、3D生成灵活算力调度

2. 系统架构设计

2.1 超节点核心架构

2.1.1 物理拓扑结构

                    ┌─────────────────────────────────────────┐
                    │          Scale-Up 交换层 (4机柜)         │
                    │  16800台模块化交换机 扁平化拓扑  │
                    └─────────────┬───────────────────┘

         ┌────────────────────────┼────────────────────────┐
         │                        │                        │
┌────────▼───────┐   ┌────────▼───────┐   ┌────────▼───────┐
│  计算机柜01-04 │   │  计算机柜05-08 │   │  计算机柜09-12 │
│  32卡/柜 × 4柜 │   │  32卡/柜 × 4柜 │   │  32卡/柜 × 4柜 │
└──────────────────┘   └──────────────────┘   └──────────────────┘
                                                    
总计:12个计算机柜 + 4个交换机柜 = 16机柜完整超节点
      384张昇腾910C芯片全互联

2.1.2 核心技术指标

指标项CloudMatrix 384对比传统方案提升倍数
总算力 (BF16)307 PFLOPS--
通信带宽784 GB/s50 GB/s15倍
通信时延200 ns2 μs降低10倍
单机显存容量48 TB512 GB94倍
HBM总容量49.2 TB-3.6倍(vs GB200)
总内存带宽1229 TB/s-2.1倍(vs GB200)
总功率559.4 kW--

2.1.3 互联技术方案

**灵衢总线全光互联架构:

  • 每颗昇腾910C芯片配置7个400G光收发器
  • 堆叠设计实现2800 Gbit/s Scale-Up带宽
  • 全集群配置6912个400G光模块(5376个Scale-Up + 1536个Scale-Out)
  • 单层扁平化拓扑,极致降低通信延迟

2.2 机柜布局设计

2.2.1 标准384超节点机柜配置

机柜类型数量单柜配置功能说明
计算机柜1232张昇腾910C / 柜提供AI算力
Scale-Up交换柜4高密度400G交换机实现芯片全互联
存储机柜2分布式存储节点训练数据与模型存储
管理机柜1管理/监控/登录节点集群管控
总计19-完整超节点集群

2.2.2 机房要求

项目最低要求推荐配置
机柜规格标准42U机柜48U高密度机柜
单柜供电20kW30kW
冷却方式风冷或液冷LAAC风液混合散热
网络布线结构化布线预端接光缆
承重要求1000kg/㎡1200kg/㎡

2.3 网络架构

2.3.1 三层网络架构

┌─────────────────────────────────────────────────────────┐
│                    业务接入层                         │
│           100G Ethernet,业务访问与管理流量               │
└──────────────────────┬──────────────────────────────┘

┌──────────────────────▼──────────────────────────────┐
│                    Scale-Out层                        │
│           400G RoCEv2,超节点间互联                    │
└──────────────────────┬──────────────────────────────┘

┌──────────────────────▼──────────────────────────────┐
│                    Scale-Up层                         │
│           全光互联,384芯片全互联                          │
│           单级无阻塞,200ns极致时延                       │
└───────────────────────────────────────────────────────┘

2.3.2 网络关键技术

  • Scale-Up网络:单层全互联架构,实现任意两颗芯片间一跳可达
  • Scale-Out网络:Fat-Tree拓扑,支持超节点线性扩展至万卡级别
  • RoCEv2无损网络:PFC + ECN 流量控制
  • 智能网卡卸载:通信协议卸载,释放CPU算力

3. 详细实施方案

3.1 实施阶段划分

阶段主要工作工期交付物
**阶段一:前期准备环境勘测、方案确认、物资进场2周环境勘测报告、实施方案
**阶段二:硬件部署机柜安装、布线、硬件上架3周硬件安装报告、布线验收报告
**阶段三:软件部署OS、驱动、固件、平台软件2周软件部署手册、配置文档
**阶段四:联调测试性能测试、功能验证、稳定性测试3周测试报告、性能基准
**阶段五:验收交付正式验收、文档交付、知识转移1周验收报告、运维手册
总计-11周-

3.2 硬件部署流程

3.2.1 机柜安装标准

  1. **机柜定位与固定

    • 按机房布局图精确定位
    • 机柜水平调节:误差≤1mm
    • 机柜接地:接地电阻≤4Ω
  2. **服务器上架

    • 采用8U机框正交盲插架构
    • 导轨安装,确保服务器承重分布均匀
    • 标签规范:设备名称、位置、IP、资产编号
  3. **布线规范 | 线缆类型 | 布线路由 | 弯曲半径 | 标签规范 | |---------|---------|---------|---------| | 光纤 | 上走线 | ≥30mm | 两端标记源目端口 | | 铜缆 | 下走线 | ≥20mm | 两端标记源目端口 | | 电源线 | 独立路由 | - | A/B路独立标记 |

3.2.2 光模块部署

  • 400G光模块数量:6912个/384卡超节点
  • 统一品牌与型号,确保兼容性
  • 光功率预算:发送端-1~+3dBm,接收端>-10dBm
  • 误码率:≤1e-12

3.3 硬件验收检查项

3.3.1 服务器硬件检查

bash
# 设备识别检查
npu-smi info

# 硬件健康状态检查
npu-smi info -t health

# 温度检查
npu-smi info -t temp

# 功耗检查
npu-smi info -t power

# 固件版本检查
npu-smi info -t version

3.3.2 网络连通性检查

bash
# 网卡状态检查
ibdev2netdev
ibstatus

# 带宽测试
ib_write_bw -d mlx5_0 -a
ib_read_bw -d mlx5_0 -a

# 延迟测试
ib_write_lat -d mlx5_0 -a
ib_read_lat -d mlx5_0 -a

# RoCE无损网络验证
ping -f -s 65507 <对端IP>

4. 软件栈部署指南

4.1 软件栈架构

┌─────────────────────────────────────────────────────────┐
│                业务应用层                                     │
│  MindIE Motor / 训练框架 / 推理服务 / 行业应用          │
├─────────────────────────────────────────────────────────┤
│                框架适配层                                    │
│  MindSpore 3.0 / PyTorch / TensorFlow               │
├─────────────────────────────────────────────────────────┤
│                CANN 6.0 计算架构                        │
│  算子库 / 图编译 / 通信库 / 调优工具                 │
├─────────────────────────────────────────────────────────┤
│                驱动与固件层                                  │
│  NPU Driver / Firmware / MCU / HDK                  │
├─────────────────────────────────────────────────────────┤
│                操作系统层                                │
│  EulerOS / Kylin / Ubuntu 认证发行版                     │
└─────────────────────────────────────────────────────────┘

4.2 操作系统与驱动部署

4.2.1 OS选型与配置

推荐操作系统

  • EulerOS 2.0 SP10 / SP11
  • Kylin V10 SP3
  • Ubuntu 20.04.4 LTS / 22.04 LTS

**内核版本要求

kernel >= 4.19.90
glibc >= 2.28
gcc >= 7.3.0

4.2.2 驱动安装流程

bash
# 1. 依赖检查
rpm -qa | grep -E "(gcc|cmake|python3|glibc)

# 2. 创建运行用户与用户组
groupadd ascend_group
useradd -g ascend_group -d /home/ascend_user -m -s /bin/bash ascend_user

# 3. 驱动安装(首次安装:驱动→固件顺序
./Ascend-hdk-910c-npu-driver_x.x.x_linux-aarch64.run --full

# 4. 固件安装
./Ascend-hdk-910c-npu-firmware_x.x.x.run --full

# 5. 驱动加载验证
npu-smi info

4.2.3 版本兼容性矩阵

驱动版本固件版本CANN版本备注
V23.0.rc1>= 6.4.0.5.2206.0.RC1910C推荐
V22.0.4>= 6.3.0.5.2106.0.3稳定版

严格遵循版本配套关系,避免兼容性问题

4.3 CANN 6.0 部署

4.3.1 CANN组件清单

组件功能必选/可选
Ascend-CANN-Toolkit开发套件必选
Ascend-CANN-NNRT离线推理引擎必选
Ascend-CANN-TFPluginTensorFlow插件依框架
Ascend-CANN-PyTorchPluginPyTorch插件依框架
Ascend-Toolbox工具集必选

4.3.2 安装流程

bash
# 1. 安装Toolkit(开发环境
./Ascend-cann-toolkit_x.x.x_linux-aarch64.run --install-path=/usr/local/Ascend --install

# 2. 安装NNRT(推理/训练运行环境
./Ascend-cann-nnrt_x.x.x_linux-aarch64.run --install

# 3. 框架插件
./Ascend-cann-tfplugin_x.x.x_linux-aarch64.run --install
./Ascend-cann-pytorchplugin_x.x.x_linux-aarch64.run --install

# 4. 环境变量配置
source /usr/local/Ascend/ascend-toolkit/set_env.sh

4.4 MindSpore 3.0 部署

bash
# 安装MindSpore
pip install mindspore==3.0.0

# 验证安装
python -c "import mindspore; mindspore.run_check()"

4.5 容器化部署(MindIE Motor)

4.5.1 前置依赖组件

  • Volcano 调度器
  • Ascend Device Plugin
  • Ascend Docker Runtime
  • Ascend Operator (enableGangScheduling=true)
  • ClusterD / NodeD 集群管理组件

4.5.2 MindIE Motor 部署架构

MindIE Motor采用微服务架构,支持推理服务容器化部署、故障重调度、弹性扩缩容:

组件实例数NPU需求功能
MS Controller1-2任务管控
MS Coordinator1-2调度协调
MindIE Server (Prefill)x预填充处理
MindIE Server (Decode)y解码生成

4.5.3 AscendJob 部署示例

yaml
# controller.yaml
apiVersion: mindxdl.gitee.com/v1
kind: AscendJob
metadata:
  name: deepseek-v4-controller
  labels:
    app: mindie-ms
    jobID: deepseek-v4-001
spec:
  replicaSpecs:
    - replicas: 1
      template:
        spec:
          containers:
            - name: controller
              image: mindie-ms:v1.0
              resources:
                requests:
                  cpu: "16"
                  memory: 32Gi
              command: ["/start_controller.sh"]
          restartPolicy: Never

5. 性能验收标准

5.1 验收测试体系

验收测试覆盖四大维度、多级验证体系,参考《华为384超节点验收白皮书标准:

测试维度测试项验收标准
硬件基础芯片算力、CPU算力、存储IO、网络带宽达到设计指标
模型训练多机训练线性加速比、收敛性验证线性加速比≥0.85
模型推理吞吐、时延、并发能力DeepSeek 671B性能提升9.2%+
稳定性72小时长时间运行稳定性无故障运行

5.2 硬件基准测试

5.2.1 单卡算力测试

bash
# 使用ascend-dmi工具进行算力测试
ascend-dmi -f -i 0

**验收指标(昇腾910C):

  • FP16算力:≥32 TFLOPS
  • BF16算力:≥32 TFLOPS
  • INT8算力:≥256 TOPS

5.2.2 集合通信性能测试

测试项指标要求
AllReduce带宽≥700 GB/s (384卡聚合)
AllReduce时延≤200 ns
AlltoAll带宽符合设计规格
线性加速比≥0.90 (384卡规模

5.2.3 存储性能测试

使用FIO工具进行:

  • 顺序读带宽:≥3000 MB/s
  • 随机读IOPS:≥30000
  • 顺序写带宽:≥2000 MB/s

5.3 模型训练验收

5.3.1 基准模型测试矩阵

模型参数量测试规模验收指标
Qwen3-7B7B8节点线性加速比≥0.85
Qwen3-72B72B32节点线性加速比≥0.80
DeepSeek-V3671B128节点线性加速比≥0.75

5.3.2 训练性能参考

**DeepSeek-R1 70B训练性能:

  • 迭代速度:vs H100集群提升1.8倍(CloudMatrix 384实测)
  • 训练吞吐:tokens/秒达到设计目标
  • 收敛性:loss曲线与GPU一致

5.4 推理性能验收

5.4.1 推理基准测试

模型配置输入长度单卡吞吐(TPS)TPOT
DeepSeek V4-Pro昇腾950PR8K4700~20ms
DeepSeek V4-Flash昇腾950PR8K1600~10ms
DeepSeek V4-Flash64卡超节点大EP8K/1K2000+持续优化

5.4.2 关键优化技术验证

  • ✅ 动态CP/DP技术:变长序列场景吞吐提升40%+
  • ✅ Prefill动态调度技术:资源利用率最大化
  • ✅ 百万级上下文长度支持
  • ✅ 专家并行(EP)优化

5.5 稳定性测试

测试项时长通过标准
连续运行测试72小时0故障、性能无衰减
故障注入测试-故障隔离、自动恢复
压力测试24小时系统稳定、无宕机
长时间满载运行7天ECC错误率<1e-15

6. 运维与保障体系

6.1 监控体系

6.1.1 监控架构

┌─────────────────────────────────────────────────┐
│              监控大盘 (Grafana)                   │
│  硬件状态 / 性能指标 / 业务监控 / 告警             │
└──────────────────┬──────────────────────────────┘

┌──────────────────▼──────────────────────────────┐
│              数据存储 (Prometheus + InfluxDB)         │
└──────────────────┬──────────────────────────────┘

┌──────────────────▼───────────────────────────────┐
│ 采集层:npu-exporter / node-exporter / 日志采集    │
└───────────────────────────────────────────────────┘

6.1.2 关键监控指标

**硬件健康类

  • NPU芯片温度、功耗、利用率
  • 显存占用、HBM带宽
  • ECC错误计数
  • 风扇、电源状态
  • 光模块功率、误码率

**性能类

  • 训练/推理吞吐、迭代速度
  • 通信带宽利用率
  • 存储IO性能
  • 网络延迟

**业务类

  • 任务成功率
  • 队列等待时间
  • 资源利用率

6.2 告警策略

告警级别响应时间通知方式典型场景
P1 紧急15分钟电话+短信+邮件硬件故障、集群不可用
P2 高30分钟短信+邮件性能严重下降、节点故障
P3 中2小时邮件资源告警、性能下降
P4 低24小时邮件预警信息、容量告警

6.3 日常运维流程

6.3.1 日常检查清单

频率检查项工具/方法
每日NPU健康状态检查npu-smi info
每日集群资源利用率监控大盘
每日告警汇总分析告警系统
每周固件/驱动版本检查版本管理
每周性能基线对比性能报表
每月硬件深度健康巡检全面巡检工具
每月容量规划分析容量报告

6.3.2 故障处理流程

  1. 故障发现:监控告警、用户反馈
  2. 故障定位:日志分析、诊断工具
  3. 故障隔离:节点隔离、任务重调度
  4. 故障修复:硬件更换、软件修复
  5. 验证恢复:功能验证、性能验证
  6. 根因分析:问题复盘、预防措施

7. 项目进度计划

7.1 详细甘特图(11周实施计划

周次: 1    2    3    4    5    6    7    8    9   10   11
     ─────┼────┼────┼────┼────┼────┼────┼────┼────┼────┼─────
准备: ██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
硬件: ░░█████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░
软件: ░░░░░░░░███████████░░░░░░░░░░░░░░░░░░░░░░░
测试: ░░░░░░░░░░░░░░█████████████████░░░░░░░░░░░
验收: ░░░░░░░░░░░░░░░░░░░░░░░░░░█████████████

7.2 里程碑节点

里程碑时间节点交付内容
M1:项目启动会第1周初项目计划、分工界面确认
M2:环境验收通过第2周末机房环境验收报告
M3:硬件部署完成第5周末硬件安装验收
M4:软件部署完成第7周末软件栈部署完成
M5:性能测试通过第9周末性能测试报告
M6:正式验收交付第11周末验收通过、项目交付

8. 风险管理

8.1 技术风险

风险项风险等级影响应对措施
硬件到货延迟项目延期提前备货、建立缓冲期
兼容性问题功能异常严格版本配套、预验证
性能不达预期业务影响性能优化团队支持、提前调优
机房环境不满足无法部署前期勘测、环境整改
光模块兼容性通信异常统一采购、批量验证

8.2 项目管理风险

风险项应对措施
需求变更变更管理流程、影响评估
人员流失知识转移、文档完备、备份机制
沟通不畅定期例会、周报机制、 escalation
质量问题多轮验证、QA检查、验收把关

8.3 应急预案

场景预案措施
硬件故障备件池、快速更换流程
软件故障版本回滚、快速恢复
集群故障容灾备份、快速重建
性能下降性能分析、快速定位、优化方案

附录A:参考文档

  1. 《Atlas 900 A3 SuperPoD 产品文档
  2. 《昇腾384超节点验收白皮书》
  3. 《CANN 6.0 开发指南
  4. 《MindIE Motor 开发指南》
  5. 《DeepSeek V3/R1 昇腾部署最佳实践》

**文档结束

褚成志 · 简历中心