华为昇腾芯片全家桶介绍
版本:V2.0
更新日期:2026年5月
覆盖产品:310全系列 / 910全系列 / 950/960/970规划系列
目录
1. 概述
昇腾(Ascend)是华为自研的人工智能计算芯片系列,基于达芬奇架构设计,专为AI训练和推理任务优化。自2018年首款昇腾310发布以来,已形成覆盖边缘推理、数据中心训练、超大规模集群的完整产品矩阵。
截至2026年5月,昇腾芯片已部署超30万片,支撑全国25个城市人工智能计算中心建设,服务政企、金融、能源、工业等核心行业。
1.1 产品家族总览
昇腾芯片家族
├─ 推理芯片系列(310家族)
│ ├─ 昇腾310(初代,2018)
│ ├─ 昇腾310P(高性能,2022)
│ └─ 昇腾310B(低功耗,2023)
│
├─ 训练芯片系列(910家族)
│ ├─ 昇腾910A(初代,2019)
│ ├─ 昇腾910B系列(B1/B2/B3/B4,2021-2022)
│ └─ 昇腾910C(双芯合封旗舰,2025Q1)
│
└─ 新一代产品规划(950/960/970)
├─ 昇腾950PR(推理Prefill专用,2026Q1)
├─ 昇腾950DT(训练/Decode专用,2026Q4)
├─ 昇腾960(次代旗舰,2027Q4)
└─ 昇腾970(下一代旗舰,2028Q4)2. 推理芯片系列 - 310家族
2.1 昇腾310 - 初代推理芯片
发布时间:2018年10月
架构:达芬奇架构(单核AI Core)
制程:12nm
| 参数项 | 规格 |
|---|---|
| INT8 算力 | 16 TOPS |
| FP16 算力 | 8 TFLOPS |
| 内存容量 | 8GB LPDDR4X |
| 内存带宽 | 51.2 GB/s |
| 典型功耗 | 8W |
典型产品:
- Atlas 200 DK 开发者套件
- Atlas 200 AI加速模块
- Atlas 500 智能小站
应用场景:
- 边缘AI推理
- 视频结构化分析
- 智能安防
- 工业质检
2.2 昇腾310P - 高性能边缘推理
发布时间:2022年
定位:高性能边缘推理主力芯片
架构:达芬奇2.0架构(双核协同调度)
| 参数项 | 规格 |
|---|---|
| INT8 算力 | 160 TOPS(Atlas 300I Pro单卡) |
| FP16 算力 | 70 TFLOPS(单卡) |
| AI Core数量 | 8个 |
| CPU Core数量 | 8个ARM A55 |
| 内存容量 | 24GB LPDDR4X |
| 内存带宽 | 204.8 GB/s |
| 总线位宽 | 384位 |
| 典型功耗 | 72W |
典型产品:
- Atlas 300I Pro 推理卡
- Atlas 300I Duo 推理卡(双310P,280TOPS INT8)
- Atlas 800I A2 推理服务器
技术亮点:
- ✅ 双核协同调度引擎,支持跨核Tensor Fusion
- ✅ 双通道LPDDR4X-4266,高带宽低功耗
- ✅ 支持INT8/FP16混合精度推理
- ✅ 内置DVPP数字视觉预处理硬件加速
实测性能(YOLOv5s,640×640输入):
- 平均延迟:18.3ms
- 吞吐性能:54.6 FPS
- 精度损失:+0.4%
2.3 昇腾310B - 低成本低功耗推理
发布时间:2023年
定位:嵌入式、无风扇、高性价比推理芯片
| 参数项 | 规格 |
|---|---|
| INT8 算力 | 8 TOPS |
| FP16 算力 | 4 TFLOPS |
| AI Core数量 | 单核锁定模式 |
| 内存容量 | 4-8GB LPDDR4X |
| 内存带宽 | 14.9 GB/s |
| 典型功耗 | ≤4.7W |
| 散热设计 | 支持无风扇自然对流 |
封装特性:
- 23mm×23mm POP封装
- 可直焊于4层PCB
- BGA pitch 0.65mm
- 石墨烯贴片散热
应用场景:
- 工业IPC嵌入式部署
- 户外边缘设备(-40℃~55℃宽温)
- 低功耗物联网AI节点
- 空间受限的嵌入式设备
实测性能(YOLOv5s INT8):
- 平均延迟:39.7ms
- 吞吐性能:25.2 FPS
- 精度损失:-1.2%(受L1缓存限制)
2.4 310家族对比总表
| 对比项 | 昇腾310 | 昇腾310P | 昇腾310B |
|---|---|---|---|
| 发布时间 | 2018 | 2022 | 2023 |
| INT8算力 | 16 TOPS | 160 TOPS(单卡) | 8 TOPS |
| FP16算力 | 8 TFLOPS | 70 TFLOPS(单卡) | 4 TFLOPS |
| 内存容量 | 8GB | 24GB | 4-8GB |
| 内存带宽 | 51.2GB/s | 204.8GB/s | 14.9GB/s |
| 典型功耗 | 8W | 72W | ≤4.7W |
| 散热方式 | 风冷 | 强制风冷 | 无风扇/石墨烯 |
| 封装尺寸 | - | 27×27mm | 23×23mm POP |
| 定位 | 通用边缘 | 高性能边缘 | 低成本嵌入式 |
| 典型场景 | 通用推理 | 高密度推理服务器 | 工业IPC/户外设备 |
3. 训练芯片系列 - 910家族
3.1 昇腾910A - 初代旗舰
发布时间:2019年8月
定位:国产AI训练芯片开山之作
制程:7nm
| 参数项 | 规格 |
|---|---|
| FP16 算力 | 256 TFLOPS |
| INT8 算力 | 512 TOPS |
| 内存容量 | 32GB HBM2 |
| 内存带宽 | 1.5 TB/s |
| 典型功耗 | 350W |
历史意义:
- 华为首款7nm AI训练芯片
- 标志华为完成全栈全场景AI解决方案构建
- 同期性能对标英伟达V100
3.2 昇腾910B系列 - 四型号精准覆盖
发布时间:2021-2022年
架构:达芬奇架构增强版
制程:7nm
910B系列分为四款型号,从边缘推理到超算全覆盖:
| 型号 | FP16算力 | 显存容量 | 对应整机 | 核心场景 |
|---|---|---|---|---|
| 910B1 | 414 TFLOPS | 64GB HBM2 | HuaKun AT900 A2(液冷) | 超算中心、千亿参数大模型训练 |
| 910B2 | 376 TFLOPS | 64GB HBM2 | Atlas 800T A2 | 高精度科研训练、金融风控 |
| 910B3 | 313 TFLOPS | 64GB HBM2 | Atlas 800T A2 | 通用训练/推理、智算中心主力 |
| 910B4 | 280 TFLOPS | 32GB HBM2 | Atlas 800I A2 | 边缘推理、工业质检、轻量化任务 |
3.2.1 共同技术规格
| 参数项 | 规格 |
|---|---|
| 内存带宽 | 392 GB/s |
| 互联带宽 | 1.6 Tbps HCCS + 200 Gbps RoCE |
| 典型功耗 | 310W |
| 支持精度 | FP32/FP16/BF16/INT8 |
3.2.2 部署规模(截至2025年7月)
| 城市/节点 | 部署规模 | 核心场景 |
|---|---|---|
| 北京中关村智算中心 | 70%节点为910B | 大模型研发、生物医药 |
| 上海松江人工智能计算中心 | 5000张910B | 金融科技、自动驾驶 |
| 武汉光谷人工智能算力中心 | 3000张910B | 工业仿真、智能制造 |
| 重庆省级智算中心 | 6台Atlas 800T A2 | 电网智能检修 |
价格竞争力:910B 8卡服务器月租约3.4万元,仅为英伟达H100同级配置的38%
3.3 昇腾910C - 双芯合封旗舰
发布时间:2025年Q1
定位:CloudMatrix 384超节点核心计算单元
架构创新:双910B芯片合封(Chiplet技术)
| 参数项 | 规格 |
|---|---|
| FP16 算力 | 780-800 TFLOPS |
| INT8 算力 | 1600 TOPS |
| 内存容量 | 128GB HBM3 |
| 内存带宽 | 3.2 TB/s |
| 互联带宽 | 2.8 Tbps(Scale-Up) |
| 工艺制程 | 7nm DUV |
| 单片成本 | 约14.5万元 |
| 良率现状 | 35-36%(目标40%) |
3.3.1 CloudMatrix 384超节点集群性能
| 指标项 | 规格 |
|---|---|
| 总算力(FP16) | 300+ PFLOPS(384卡聚合) |
| 总显存容量 | 49.2 TB |
| 总内存带宽 | 1229 TB/s |
| 通信带宽 | 784 GB/s |
| 通信时延 | 200 ns |
| 机柜配置 | 16机柜(12计算+4交换) |
| 单机柜功耗 | 约80kW(液冷) |
| PUE值 | ≤1.1 |
3.3.2 实际应用表现
大模型训练:
- 支撑万亿参数MoE模型训练
- 时延较传统架构降低30%
- DeepSeek-R1训练效率超越H100集群1.8倍
推理性能:
- 单卡Token生成速度:2300 Tokens/s
- 较非超节点方案提升近4倍
- DeepSeek 671B推理性能较业界最佳提升9.2%
3.3.3 规模化部署
截至2026年5月,昇腾384超节点已累计部署300+套,服务20+行业客户:
- 深圳鹏城实验室:首期384张910C,支撑"盘古"千亿模型训练
- 中国电信粤港澳算力集群:全球首个商用昇腾超节点
- 芜湖地区:规模部署CloudMatrix 384超节点
3.4 910家族性能对比总表
| 对比项 | 910A | 910B1 | 910B3 | 910B4 | 910C |
|---|---|---|---|---|---|
| 发布时间 | 2019 | 2022 | 2022 | 2022 | 2025Q1 |
| FP16算力 | 256T | 414T | 313T | 280T | 800T |
| 显存容量 | 32GB | 64GB | 64GB | 32GB | 128GB |
| 内存带宽 | 1.5TB/s | 392GB/s | 392GB/s | 392GB/s | 3.2TB/s |
| 互联带宽 | - | 1.6Tbps | 1.6Tbps | - | 2.8Tbps |
| 功耗 | 350W | 310W | 310W | 310W | - |
| 制程 | 7nm | 7nm | 7nm | 7nm | 7nm双芯合封 |
| 定位 | 初代旗舰 | 超算旗舰 | 通用主力 | 边缘训练/推理 | 超节点旗舰 |
| 典型场景 | 科研训练 | 超算中心 | 智算中心 | 边缘部署 | 万亿模型训练 |
4. 新一代产品 - 950/960/970系列
发布时间:2025年9月18日(华为全联接大会公布路线图)
核心战略:三年四代、场景细分、算力倍增、自主可控
4.1 核心技术突破(相比910系列)
4.1.1 SIMD/SIMT双编程模型新同构
| 技术特性 | 910系列(SIMD) | 950+系列(SIMD+SIMT) |
|---|---|---|
| 向量处理 | 大块数据流水线 | 大块+碎片化数据灵活调度 |
| 内存访问颗粒度 | 512字节 | 128字节 |
| 离散访问效率 | 基础水平 | 提升4倍 |
| 场景适配 | 训练强推理弱 | 训练+推理全场景高效 |
4.1.2 自研HBM内存技术突破
| HBM类型 | 应用芯片 | 容量 | 带宽 | 定位 |
|---|---|---|---|---|
| HiBL 1.0 | 950PR | 128GB | 1.6TB/s | 成本优化、Prefill/推荐场景 |
| HiZQ 2.0 | 950DT | 144GB | 4TB/s | 性能优化、Decode/训练场景 |
4.1.3 低精度格式创新
新增支持10种数据格式,完美适配大模型训练与推理:
- 标准格式:FP32 / HF32 / FP16 / BF16 / FP8 / MXFP8 / MXFP4
- 自研格式:HiF8(FP8效率+FP16精度)、HiF4(业界最优4bit精度实现)
4.2 昇腾950PR - 推理Prefill专用芯片
上市时间:2026年Q1
定位:推理Prefill阶段 + 推荐业务场景优化
首发产品:Atlas 350加速卡(2026年3月合作伙伴大会发布)
| 参数项 | 规格 |
|---|---|
| FP8 / MXFP8 / HiF8 算力 | 1 PFLOPS |
| MXFP4 算力 | 2 PFLOPS |
| 内存方案 | 自研HiBL 1.0 HBM |
| 内存容量 | 128GB |
| 内存带宽 | 1.6 TB/s |
| 互联带宽 | 2 TB/s(较910C提升2.5倍) |
| 编程模型 | SIMD + SIMT 双模型 |
设计理念:
- 面向推理Prefill阶段和推荐算法计算密集特征优化
- 低成本HBM方案,降低推理部署TCO
- 多模态内容生成速度较前代提升60%
实测性能(DeepSeek V4):
| 模型版本 | 输入场景 | 单卡Decode吞吐 | TPOT(单Token耗时) |
|---|---|---|---|
| V4-Pro | 8K输入 | 4700 Tokens/s | ~20ms |
| V4-Flash | 8K输入 | 1600 Tokens/s | ~10ms |
昇腾950PR是目前国内唯一支持FP4精度的推理加速产品
4.3 昇腾950DT - 训练/Decode专用芯片
上市时间:2026年Q4
定位:推理Decode阶段 + 大模型训练双重优化
| 参数项 | 规格 |
|---|---|
| FP8 / MXFP8 / HiF8 算力 | 1 PFLOPS |
| MXFP4 / HiF4 算力 | 2 PFLOPS |
| 内存方案 | 自研HiZQ 2.0 HBM |
| 内存容量 | 144GB |
| 内存带宽 | 4 TB/s |
| 互联带宽 | 2 TB/s |
| 编程模型 | SIMD + SIMT 双模型 |
技术亮点:
- ✅ 4TB/s超高带宽,彻底破解访存瓶颈
- ✅ 支持专家并行(EP)优化,适配MoE架构
- ✅ 内存访问颗粒度128字节,离散访问效率提升4倍
- ✅ 在精度损失<1%的前提下,推理吞吐量是910C的3.8倍
4.4 昇腾960 - 次代旗舰
预计上市:2027年Q4
迭代逻辑:相比950系列全面规格翻倍
| 参数项 | 预计规格 |
|---|---|
| FP8 算力 | 2 PFLOPS |
| FP4 / HiF4 算力 | 4 PFLOPS |
| 内存容量 | 288GB HBM |
| 内存带宽 | 8 TB/s |
| 互联带宽 | 3 TB/s |
| 支持精度 | 全面兼容950系列格式 |
产品形态:
- Atlas 950 SuperPoD超节点(8192卡规模)
- 支撑10万卡级超大规模集群
4.5 昇腾970 - 下一代旗舰
预计上市:2028年Q4
迭代逻辑:相比960系列再次规格翻倍
| 参数项 | 预计规格 |
|---|---|
| FP8 算力 | 4 PFLOPS |
| FP4 / HiF4 算力 | 8 PFLOPS |
| 内存容量 | 576GB HBM |
| 内存带宽 | 14.4 TB/s |
| 互联带宽 | 4 TB/s |
| 工艺制程 | N+3 |
| 封装设计 | 660mm²四Die封装 |
能效比目标:
- 较910C提升30%以上
- 破解"算力提升伴随功耗激增"行业难题
集群规划:
- Atlas 960 SuperPoD超节点:15488卡规模
- Atlas 960 SuperCluster:百万卡级超节点集群
4.6 新一代芯片性能对比总表
| 对比项 | 950PR | 950DT | 960 | 970 |
|---|---|---|---|---|
| 上市时间 | 2026Q1 | 2026Q4 | 2027Q4 | 2028Q4 |
| FP8 算力 | 1P | 1P | 2P | 4P |
| FP4 算力 | 2P | 2P | 4P | 8P |
| 内存容量 | 128GB | 144GB | 288GB | 576GB |
| 内存带宽 | 1.6TB/s | 4TB/s | 8TB/s | 14.4TB/s |
| 互联带宽 | 2TB/s | 2TB/s | 3TB/s | 4TB/s |
| 内存方案 | HiBL 1.0 | HiZQ 2.0 | 自研HBM | 自研HBM |
| 场景定位 | Prefill+推荐 | Decode+训练 | 全能旗舰 | 下一代旗舰 |
| 编程模型 | SIMD+SIMT | SIMD+SIMT | SIMD+SIMT | SIMD+SIMT |
| 支持精度 | HiF8/HiF4 | HiF8/HiF4 | HiF8/HiF4 | HiF8/HiF4 |
5. 技术演进路线图
5.1 代际演进总览
2018 ── 昇腾310 发布
│
2019 ── 昇腾910A 发布
│ 奠定国产AI训练基础
│
2021-2022 ── 昇腾910B系列 发布
│ B1/B2/B3/B4 四型号覆盖
│ 910P/910B 推理芯片完善
│
2025Q1 ── 昇腾910C 发布
│ 双芯合封,300P超节点
│ 累计部署300+套
│
2025.09 ── 全联接大会发布三年四代路线图
│
2026Q1 ── 昇腾950PR 上市
│ Atlas 350 加速卡发布
│
2026Q4 ── 昇腾950DT 上市
│
2027Q4 ── 昇腾960 上市
│ Atlas 950 SuperPoD (8192卡)
│
2028Q4 ── 昇腾970 上市
Atlas 960 SuperPoD (15488卡)
百万卡级超节点集群5.2 核心技术演进脉络
| 技术维度 | 910A/B | 910C | 950系列 | 960/970 |
|---|---|---|---|---|
| 编程模型 | SIMD | SIMD | SIMD+SIMT | SIMD+SIMT增强 |
| 内存方案 | 外部HBM2 | 外部HBM3 | 自研HBM双方案 | 自研HBM增强 |
| 精度支持 | FP32/16/INT8 | FP32/16/INT8 | 10种格式含HiF8/4 | 格式继续扩展 |
| 互联带宽 | 1.6Tbps | 2.8Tbps | 2Tbps | 3-4Tbps |
| 封装技术 | 单Die | 双Die合封 | 四Die合封 | N+3工艺四Die |
| 算力密度 | 基础 | 翻倍 | 2.5-5倍 | 每代翻倍 |
| 场景适配 | 通用为主 | 超节点训练 | 场景细分优化 | 全场景极致优化 |
6. 应用场景与选型指南
6.1 场景-芯片匹配矩阵
| 应用场景 | 推荐芯片 | 配置建议 |
|---|---|---|
| 大模型训练(千亿参数) | 910C | 384卡超节点起步 |
| 大模型训练(万亿参数MoE) | 910C / 950DT | 多超节点级联 |
| 大模型推理(高并发) | 950PR + 950DT | EP分离部署 |
| 通用AI训练(百亿参数) | 910B3 | 8-32卡集群 |
| 高精度科研训练 | 910B1 / 910B2 | 液冷高密度部署 |
| 数据中心推理服务 | 910B4 / 310P | Atlas 800I服务器 |
| 边缘推理(园区/工厂) | 310P | Atlas 500 Pro |
| 嵌入式/工业IPC | 310B | 无风扇宽温设计 |
| 视频结构化分析 | 310 / 310P | 依路数选择 |
| 推荐算法训练 | 950PR | 高吞吐低TCO |
| MoE专家并行推理 | 950DT | 大EP模式优化 |
6.2 成本效益分析
6.2.1 推理场景TCO对比(单卡年成本)
| 芯片 | 单卡吞吐 | 单位Token成本 | 相对H100 |
|---|---|---|---|
| 昇腾950PR | 4700 Tokens/s | 0.85 | 55%成本 |
| 昇腾910C | 2300 Tokens/s | 1.0 | 38%成本 |
| 昇腾310P | 140 Tokens/s | 2.5 | 高性价比边缘 |
6.2.2 训练场景成本对比(每PFLOPS年成本)
| 方案 | 总算力 | 年租金 | 单位算力成本 |
|---|---|---|---|
| 910C 384卡超节点 | 300P | ~400万 | ~1.3万/PFLOPS |
| 910B 8卡服务器 | 2.5P | ~40万 | ~16万/PFLOPS |
| H100 8卡同级 | ~4P | ~105万 | ~26万/PFLOPS |
昇腾方案单位算力成本仅为英伟达的约50%
6.3 软件生态配套
| 软件栈 | 支持状态 | 说明 |
|---|---|---|
| CANN 6.0 | ✅ 生产级 | 算子完备率>95% |
| MindSpore 3.0 | ✅ 原生优化 | 最佳性能路径 |
| PyTorch适配 | ✅ 生产级 | Ascend adapter,算子基本完备 |
| TensorFlow适配 | ⚠️ 功能级 | 投入较少,建议优先MindSpore/PyTorch |
| MindIE Motor | ✅ 容器化 | 推理服务弹性扩缩容 |
| vLLM社区移植 | 🚧 进行中 | 预计2026Q3完成 |
| DeepSeek全系列适配 | ✅ 已完成 | V3/V4全系列官方支持 |
6.4 选型决策树
业务需求输入
│
├─ 是否需要训练?
│ ├─ 是 → 模型规模?
│ │ ├─ 千亿+参数 → 昇腾910C 超节点
│ │ ├─ 百亿参数 → 昇腾910B3/B2
│ │ └─ 百亿以下 → 评估910B4或推理卡
│ │
│ └─ 否(纯推理)→ 部署位置?
│ ├─ 数据中心 → 并发?
│ │ ├─ 极高并发 → 950PR + 950DT 混合
│ │ ├─ 高并发 → 910C / 910B4
│ │ └─ 中低并发 → 310P 系列
│ │
│ └─ 边缘/嵌入式 → 功耗?
│ ├─ 8W以内 → 310B
│ └─ 72W可接受 → 310P
│
└─ 特殊场景?
├─ 推荐算法 → 优先950PR
├─ MoE模型推理 → 优先950DT大EP
├─ 长上下文推理 → 950DT(高带宽)
└─ 无风扇要求 → 310B附录:昇腾芯片性能速查表
| 芯片 | FP16 | FP8 | FP4 | 显存 | 带宽 | 功耗 | 时间 |
|---|---|---|---|---|---|---|---|
| 310 | 8T | - | - | 8GB | 51GB/s | 8W | 2018 |
| 310P | 70T | - | - | 24GB | 205GB/s | 72W | 2022 |
| 310B | 4T | - | - | 8GB | 15GB/s | 5W | 2023 |
| 910A | 256T | - | - | 32GB | 1.5TB/s | 350W | 2019 |
| 910B1 | 414T | - | - | 64GB | 392GB/s | 310W | 2022 |
| 910B3 | 313T | - | - | 64GB | 392GB/s | 310W | 2022 |
| 910B4 | 280T | - | - | 32GB | 392GB/s | 310W | 2022 |
| 910C | 800T | - | - | 128GB | 3.2TB/s | - | 2025Q1 |
| 950PR | - | 1P | 2P | 128GB | 1.6TB/s | - | 2026Q1 |
| 950DT | - | 1P | 2P | 144GB | 4TB/s | - | 2026Q4 |
| 960 | - | 2P | 4P | 288GB | 8TB/s | - | 2027Q4 |
| 970 | - | 4P | 8P | 576GB | 14.4TB/s | - | 2028Q4 |
单位:T=TFLOPS, P=PFLOPS, GB/s=Gigabytes per second
文档结束