华为昇腾芯片全家桶介绍

版本：V2.0
更新日期：2026年5月
覆盖产品：310全系列 / 910全系列 / 950/960/970规划系列

1. 概述

昇腾（Ascend）是华为自研的人工智能计算芯片系列，基于达芬奇架构设计，专为AI训练和推理任务优化。自2018年首款昇腾310发布以来，已形成覆盖边缘推理、数据中心训练、超大规模集群的完整产品矩阵。

截至2026年5月，昇腾芯片已部署超30万片，支撑全国25个城市人工智能计算中心建设，服务政企、金融、能源、工业等核心行业。

1.1 产品家族总览

昇腾芯片家族
├─ 推理芯片系列（310家族）
│  ├─ 昇腾310（初代，2018）
│  ├─ 昇腾310P（高性能，2022）
│  └─ 昇腾310B（低功耗，2023）
│
├─ 训练芯片系列（910家族）
│  ├─ 昇腾910A（初代，2019）
│  ├─ 昇腾910B系列（B1/B2/B3/B4，2021-2022）
│  └─ 昇腾910C（双芯合封旗舰，2025Q1）
│
└─ 新一代产品规划（950/960/970）
   ├─ 昇腾950PR（推理Prefill专用，2026Q1）
   ├─ 昇腾950DT（训练/Decode专用，2026Q4）
   ├─ 昇腾960（次代旗舰，2027Q4）
   └─ 昇腾970（下一代旗舰，2028Q4）

2. 推理芯片系列 - 310家族

2.1 昇腾310 - 初代推理芯片

发布时间：2018年10月
架构：达芬奇架构（单核AI Core）
制程：12nm

参数项	规格
INT8 算力	16 TOPS
FP16 算力	8 TFLOPS
内存容量	8GB LPDDR4X
内存带宽	51.2 GB/s
典型功耗	8W

典型产品：

Atlas 200 DK 开发者套件
Atlas 200 AI加速模块
Atlas 500 智能小站

应用场景：

边缘AI推理
视频结构化分析
智能安防
工业质检

2.2 昇腾310P - 高性能边缘推理

发布时间：2022年
定位：高性能边缘推理主力芯片
架构：达芬奇2.0架构（双核协同调度）

参数项	规格
INT8 算力	160 TOPS（Atlas 300I Pro单卡）
FP16 算力	70 TFLOPS（单卡）
AI Core数量	8个
CPU Core数量	8个ARM A55
内存容量	24GB LPDDR4X
内存带宽	204.8 GB/s
总线位宽	384位
典型功耗	72W

典型产品：

Atlas 300I Pro 推理卡
Atlas 300I Duo 推理卡（双310P，280TOPS INT8）
Atlas 800I A2 推理服务器

技术亮点：

✅ 双核协同调度引擎，支持跨核Tensor Fusion
✅ 双通道LPDDR4X-4266，高带宽低功耗
✅ 支持INT8/FP16混合精度推理
✅ 内置DVPP数字视觉预处理硬件加速

实测性能（YOLOv5s，640×640输入）：

平均延迟：18.3ms
吞吐性能：54.6 FPS
精度损失：+0.4%

2.3 昇腾310B - 低成本低功耗推理

发布时间：2023年
定位：嵌入式、无风扇、高性价比推理芯片

参数项	规格
INT8 算力	8 TOPS
FP16 算力	4 TFLOPS
AI Core数量	单核锁定模式
内存容量	4-8GB LPDDR4X
内存带宽	14.9 GB/s
典型功耗	≤4.7W
散热设计	支持无风扇自然对流

封装特性：

23mm×23mm POP封装
可直焊于4层PCB
BGA pitch 0.65mm
石墨烯贴片散热

应用场景：

工业IPC嵌入式部署
户外边缘设备（-40℃~55℃宽温）
低功耗物联网AI节点
空间受限的嵌入式设备

实测性能（YOLOv5s INT8）：

平均延迟：39.7ms
吞吐性能：25.2 FPS
精度损失：-1.2%（受L1缓存限制）

2.4 310家族对比总表

对比项	昇腾310	昇腾310P	昇腾310B
发布时间	2018	2022	2023
INT8算力	16 TOPS	160 TOPS（单卡）	8 TOPS
FP16算力	8 TFLOPS	70 TFLOPS（单卡）	4 TFLOPS
内存容量	8GB	24GB	4-8GB
内存带宽	51.2GB/s	204.8GB/s	14.9GB/s
典型功耗	8W	72W	≤4.7W
散热方式	风冷	强制风冷	无风扇/石墨烯
封装尺寸	-	27×27mm	23×23mm POP
定位	通用边缘	高性能边缘	低成本嵌入式
典型场景	通用推理	高密度推理服务器	工业IPC/户外设备

3. 训练芯片系列 - 910家族

3.1 昇腾910A - 初代旗舰

发布时间：2019年8月
定位：国产AI训练芯片开山之作
制程：7nm

参数项	规格
FP16 算力	256 TFLOPS
INT8 算力	512 TOPS
内存容量	32GB HBM2
内存带宽	1.5 TB/s
典型功耗	350W

历史意义：

华为首款7nm AI训练芯片
标志华为完成全栈全场景AI解决方案构建
同期性能对标英伟达V100

3.2 昇腾910B系列 - 四型号精准覆盖

发布时间：2021-2022年
架构：达芬奇架构增强版
制程：7nm

910B系列分为四款型号，从边缘推理到超算全覆盖：

型号	FP16算力	显存容量	对应整机	核心场景
910B1	414 TFLOPS	64GB HBM2	HuaKun AT900 A2（液冷）	超算中心、千亿参数大模型训练
910B2	376 TFLOPS	64GB HBM2	Atlas 800T A2	高精度科研训练、金融风控
910B3	313 TFLOPS	64GB HBM2	Atlas 800T A2	通用训练/推理、智算中心主力
910B4	280 TFLOPS	32GB HBM2	Atlas 800I A2	边缘推理、工业质检、轻量化任务

3.2.1 共同技术规格

参数项	规格
内存带宽	392 GB/s
互联带宽	1.6 Tbps HCCS + 200 Gbps RoCE
典型功耗	310W
支持精度	FP32/FP16/BF16/INT8

3.2.2 部署规模（截至2025年7月）

城市/节点	部署规模	核心场景
北京中关村智算中心	70%节点为910B	大模型研发、生物医药
上海松江人工智能计算中心	5000张910B	金融科技、自动驾驶
武汉光谷人工智能算力中心	3000张910B	工业仿真、智能制造
重庆省级智算中心	6台Atlas 800T A2	电网智能检修

价格竞争力：910B 8卡服务器月租约3.4万元，仅为英伟达H100同级配置的38%

3.3 昇腾910C - 双芯合封旗舰

发布时间：2025年Q1
定位：CloudMatrix 384超节点核心计算单元
架构创新：双910B芯片合封（Chiplet技术）

参数项	规格
FP16 算力	780-800 TFLOPS
INT8 算力	1600 TOPS
内存容量	128GB HBM3
内存带宽	3.2 TB/s
互联带宽	2.8 Tbps（Scale-Up）
工艺制程	7nm DUV
单片成本	约14.5万元
良率现状	35-36%（目标40%）

3.3.1 CloudMatrix 384超节点集群性能

指标项	规格
总算力（FP16）	300+ PFLOPS（384卡聚合）
总显存容量	49.2 TB
总内存带宽	1229 TB/s
通信带宽	784 GB/s
通信时延	200 ns
机柜配置	16机柜（12计算+4交换）
单机柜功耗	约80kW（液冷）
PUE值	≤1.1

3.3.2 实际应用表现

大模型训练：

支撑万亿参数MoE模型训练
时延较传统架构降低30%
DeepSeek-R1训练效率超越H100集群1.8倍

推理性能：

单卡Token生成速度：2300 Tokens/s
较非超节点方案提升近4倍
DeepSeek 671B推理性能较业界最佳提升9.2%

3.3.3 规模化部署

截至2026年5月，昇腾384超节点已累计部署300+套，服务20+行业客户：

深圳鹏城实验室：首期384张910C，支撑"盘古"千亿模型训练
中国电信粤港澳算力集群：全球首个商用昇腾超节点
芜湖地区：规模部署CloudMatrix 384超节点

3.4 910家族性能对比总表

对比项	910A	910B1	910B3	910B4	910C
发布时间	2019	2022	2022	2022	2025Q1
FP16算力	256T	414T	313T	280T	800T
显存容量	32GB	64GB	64GB	32GB	128GB
内存带宽	1.5TB/s	392GB/s	392GB/s	392GB/s	3.2TB/s
互联带宽	-	1.6Tbps	1.6Tbps	-	2.8Tbps
功耗	350W	310W	310W	310W	-
制程	7nm	7nm	7nm	7nm	7nm双芯合封
定位	初代旗舰	超算旗舰	通用主力	边缘训练/推理	超节点旗舰
典型场景	科研训练	超算中心	智算中心	边缘部署	万亿模型训练

4. 新一代产品 - 950/960/970系列

发布时间：2025年9月18日（华为全联接大会公布路线图）
核心战略：三年四代、场景细分、算力倍增、自主可控

4.1 核心技术突破（相比910系列）

4.1.1 SIMD/SIMT双编程模型新同构

技术特性	910系列（SIMD）	950+系列（SIMD+SIMT）
向量处理	大块数据流水线	大块+碎片化数据灵活调度
内存访问颗粒度	512字节	128字节
离散访问效率	基础水平	提升4倍
场景适配	训练强推理弱	训练+推理全场景高效

4.1.2 自研HBM内存技术突破

HBM类型	应用芯片	容量	带宽	定位
HiBL 1.0	950PR	128GB	1.6TB/s	成本优化、Prefill/推荐场景
HiZQ 2.0	950DT	144GB	4TB/s	性能优化、Decode/训练场景

4.1.3 低精度格式创新

新增支持10种数据格式，完美适配大模型训练与推理：

标准格式：FP32 / HF32 / FP16 / BF16 / FP8 / MXFP8 / MXFP4
自研格式：HiF8（FP8效率+FP16精度）、HiF4（业界最优4bit精度实现）

4.2 昇腾950PR - 推理Prefill专用芯片

上市时间：2026年Q1
定位：推理Prefill阶段 + 推荐业务场景优化
首发产品：Atlas 350加速卡（2026年3月合作伙伴大会发布）

参数项	规格
FP8 / MXFP8 / HiF8 算力	1 PFLOPS
MXFP4 算力	2 PFLOPS
内存方案	自研HiBL 1.0 HBM
内存容量	128GB
内存带宽	1.6 TB/s
互联带宽	2 TB/s（较910C提升2.5倍）
编程模型	SIMD + SIMT 双模型

设计理念：

面向推理Prefill阶段和推荐算法计算密集特征优化
低成本HBM方案，降低推理部署TCO
多模态内容生成速度较前代提升60%

实测性能（DeepSeek V4）：

模型版本	输入场景	单卡Decode吞吐	TPOT（单Token耗时）
V4-Pro	8K输入	4700 Tokens/s	~20ms
V4-Flash	8K输入	1600 Tokens/s	~10ms

昇腾950PR是目前国内唯一支持FP4精度的推理加速产品

4.3 昇腾950DT - 训练/Decode专用芯片

上市时间：2026年Q4
定位：推理Decode阶段 + 大模型训练双重优化

参数项	规格
FP8 / MXFP8 / HiF8 算力	1 PFLOPS
MXFP4 / HiF4 算力	2 PFLOPS
内存方案	自研HiZQ 2.0 HBM
内存容量	144GB
内存带宽	4 TB/s
互联带宽	2 TB/s
编程模型	SIMD + SIMT 双模型

技术亮点：

✅ 4TB/s超高带宽，彻底破解访存瓶颈
✅ 支持专家并行（EP）优化，适配MoE架构
✅ 内存访问颗粒度128字节，离散访问效率提升4倍
✅ 在精度损失<1%的前提下，推理吞吐量是910C的3.8倍

4.4 昇腾960 - 次代旗舰

预计上市：2027年Q4
迭代逻辑：相比950系列全面规格翻倍

参数项	预计规格
FP8 算力	2 PFLOPS
FP4 / HiF4 算力	4 PFLOPS
内存容量	288GB HBM
内存带宽	8 TB/s
互联带宽	3 TB/s
支持精度	全面兼容950系列格式

产品形态：

Atlas 950 SuperPoD超节点（8192卡规模）
支撑10万卡级超大规模集群

4.5 昇腾970 - 下一代旗舰

预计上市：2028年Q4
迭代逻辑：相比960系列再次规格翻倍

参数项	预计规格
FP8 算力	4 PFLOPS
FP4 / HiF4 算力	8 PFLOPS
内存容量	576GB HBM
内存带宽	14.4 TB/s
互联带宽	4 TB/s
工艺制程	N+3
封装设计	660mm²四Die封装

能效比目标：

较910C提升30%以上
破解"算力提升伴随功耗激增"行业难题

集群规划：

Atlas 960 SuperPoD超节点：15488卡规模
Atlas 960 SuperCluster：百万卡级超节点集群

4.6 新一代芯片性能对比总表

对比项	950PR	950DT	960	970
上市时间	2026Q1	2026Q4	2027Q4	2028Q4
FP8 算力	1P	1P	2P	4P
FP4 算力	2P	2P	4P	8P
内存容量	128GB	144GB	288GB	576GB
内存带宽	1.6TB/s	4TB/s	8TB/s	14.4TB/s
互联带宽	2TB/s	2TB/s	3TB/s	4TB/s
内存方案	HiBL 1.0	HiZQ 2.0	自研HBM	自研HBM
场景定位	Prefill+推荐	Decode+训练	全能旗舰	下一代旗舰
编程模型	SIMD+SIMT	SIMD+SIMT	SIMD+SIMT	SIMD+SIMT
支持精度	HiF8/HiF4	HiF8/HiF4	HiF8/HiF4	HiF8/HiF4

5. 技术演进路线图

5.1 代际演进总览

2018 ── 昇腾310 发布
  │
2019 ── 昇腾910A 发布
  │        奠定国产AI训练基础
  │
2021-2022 ── 昇腾910B系列 发布
  │        B1/B2/B3/B4 四型号覆盖
  │        910P/910B 推理芯片完善
  │
2025Q1 ── 昇腾910C 发布
  │        双芯合封，300P超节点
  │        累计部署300+套
  │
2025.09 ── 全联接大会发布三年四代路线图
  │
2026Q1 ── 昇腾950PR 上市
  │        Atlas 350 加速卡发布
  │
2026Q4 ── 昇腾950DT 上市
  │
2027Q4 ── 昇腾960 上市
  │        Atlas 950 SuperPoD (8192卡)
  │
2028Q4 ── 昇腾970 上市
           Atlas 960 SuperPoD (15488卡)
           百万卡级超节点集群

5.2 核心技术演进脉络

技术维度	910A/B	910C	950系列	960/970
编程模型	SIMD	SIMD	SIMD+SIMT	SIMD+SIMT增强
内存方案	外部HBM2	外部HBM3	自研HBM双方案	自研HBM增强
精度支持	FP32/16/INT8	FP32/16/INT8	10种格式含HiF8/4	格式继续扩展
互联带宽	1.6Tbps	2.8Tbps	2Tbps	3-4Tbps
封装技术	单Die	双Die合封	四Die合封	N+3工艺四Die
算力密度	基础	翻倍	2.5-5倍	每代翻倍
场景适配	通用为主	超节点训练	场景细分优化	全场景极致优化

6. 应用场景与选型指南

6.1 场景-芯片匹配矩阵

应用场景	推荐芯片	配置建议
大模型训练（千亿参数）	910C	384卡超节点起步
大模型训练（万亿参数MoE）	910C / 950DT	多超节点级联
大模型推理（高并发）	950PR + 950DT	EP分离部署
通用AI训练（百亿参数）	910B3	8-32卡集群
高精度科研训练	910B1 / 910B2	液冷高密度部署
数据中心推理服务	910B4 / 310P	Atlas 800I服务器
边缘推理（园区/工厂）	310P	Atlas 500 Pro
嵌入式/工业IPC	310B	无风扇宽温设计
视频结构化分析	310 / 310P	依路数选择
推荐算法训练	950PR	高吞吐低TCO
MoE专家并行推理	950DT	大EP模式优化

6.2 成本效益分析

6.2.1 推理场景TCO对比（单卡年成本）

芯片	单卡吞吐	单位Token成本	相对H100
昇腾950PR	4700 Tokens/s	0.85	55%成本
昇腾910C	2300 Tokens/s	1.0	38%成本
昇腾310P	140 Tokens/s	2.5	高性价比边缘

6.2.2 训练场景成本对比（每PFLOPS年成本）

方案	总算力	年租金	单位算力成本
910C 384卡超节点	300P	~400万	~1.3万/PFLOPS
910B 8卡服务器	2.5P	~40万	~16万/PFLOPS
H100 8卡同级	~4P	~105万	~26万/PFLOPS

昇腾方案单位算力成本仅为英伟达的约50%

6.3 软件生态配套

软件栈	支持状态	说明
CANN 6.0	✅ 生产级	算子完备率>95%
MindSpore 3.0	✅ 原生优化	最佳性能路径
PyTorch适配	✅ 生产级	Ascend adapter，算子基本完备
TensorFlow适配	⚠️ 功能级	投入较少，建议优先MindSpore/PyTorch
MindIE Motor	✅ 容器化	推理服务弹性扩缩容
vLLM社区移植	🚧 进行中	预计2026Q3完成
DeepSeek全系列适配	✅ 已完成	V3/V4全系列官方支持

6.4 选型决策树

业务需求输入
    │
    ├─ 是否需要训练？
    │   ├─ 是 → 模型规模？
    │   │   ├─ 千亿+参数 → 昇腾910C 超节点
    │   │   ├─ 百亿参数 → 昇腾910B3/B2
    │   │   └─ 百亿以下 → 评估910B4或推理卡
    │   │
    │   └─ 否（纯推理）→ 部署位置？
    │       ├─ 数据中心 → 并发？
    │       │   ├─ 极高并发 → 950PR + 950DT 混合
    │       │   ├─ 高并发 → 910C / 910B4
    │       │   └─ 中低并发 → 310P 系列
    │       │
    │       └─ 边缘/嵌入式 → 功耗？
    │           ├─ 8W以内 → 310B
    │           └─ 72W可接受 → 310P
    │
    └─ 特殊场景？
        ├─ 推荐算法 → 优先950PR
        ├─ MoE模型推理 → 优先950DT大EP
        ├─ 长上下文推理 → 950DT（高带宽）
        └─ 无风扇要求 → 310B

附录：昇腾芯片性能速查表

芯片	FP16	FP8	FP4	显存	带宽	功耗	时间
310	8T	-	-	8GB	51GB/s	8W	2018
310P	70T	-	-	24GB	205GB/s	72W	2022
310B	4T	-	-	8GB	15GB/s	5W	2023
910A	256T	-	-	32GB	1.5TB/s	350W	2019
910B1	414T	-	-	64GB	392GB/s	310W	2022
910B3	313T	-	-	64GB	392GB/s	310W	2022
910B4	280T	-	-	32GB	392GB/s	310W	2022
910C	800T	-	-	128GB	3.2TB/s	-	2025Q1
950PR	-	1P	2P	128GB	1.6TB/s	-	2026Q1
950DT	-	1P	2P	144GB	4TB/s	-	2026Q4
960	-	2P	4P	288GB	8TB/s	-	2027Q4
970	-	4P	8P	576GB	14.4TB/s	-	2028Q4

单位：T=TFLOPS, P=PFLOPS, GB/s=Gigabytes per second

文档结束

华为昇腾芯片全家桶介绍 ​

目录 ​

1. 概述 ​

1.1 产品家族总览 ​

2. 推理芯片系列 - 310家族 ​

2.1 昇腾310 - 初代推理芯片 ​

2.2 昇腾310P - 高性能边缘推理 ​

2.3 昇腾310B - 低成本低功耗推理 ​

2.4 310家族对比总表 ​

3. 训练芯片系列 - 910家族 ​

3.1 昇腾910A - 初代旗舰 ​

3.2 昇腾910B系列 - 四型号精准覆盖 ​

3.2.1 共同技术规格 ​

3.2.2 部署规模（截至2025年7月） ​

3.3 昇腾910C - 双芯合封旗舰 ​

3.3.1 CloudMatrix 384超节点集群性能 ​

3.3.2 实际应用表现 ​

3.3.3 规模化部署 ​

3.4 910家族性能对比总表 ​

4. 新一代产品 - 950/960/970系列 ​

4.1 核心技术突破（相比910系列） ​

4.1.1 SIMD/SIMT双编程模型新同构 ​

4.1.2 自研HBM内存技术突破 ​

4.1.3 低精度格式创新 ​

4.2 昇腾950PR - 推理Prefill专用芯片 ​

4.3 昇腾950DT - 训练/Decode专用芯片 ​

4.4 昇腾960 - 次代旗舰 ​

4.5 昇腾970 - 下一代旗舰 ​

4.6 新一代芯片性能对比总表 ​

5. 技术演进路线图 ​

5.1 代际演进总览 ​

5.2 核心技术演进脉络 ​

6. 应用场景与选型指南 ​

6.1 场景-芯片匹配矩阵 ​

6.2 成本效益分析 ​

6.2.1 推理场景TCO对比（单卡年成本） ​

6.2.2 训练场景成本对比（每PFLOPS年成本） ​

6.3 软件生态配套 ​

6.4 选型决策树 ​

附录：昇腾芯片性能速查表 ​