Skip to content

华为昇腾芯片全家桶介绍

版本:V2.0
更新日期:2026年5月
覆盖产品:310全系列 / 910全系列 / 950/960/970规划系列


目录

  1. 概述
  2. 推理芯片系列 - 310家族
  3. 训练芯片系列 - 910家族
  4. 新一代产品 - 950/960/970系列
  5. 技术演进路线图
  6. 应用场景与选型指南

1. 概述

昇腾(Ascend)是华为自研的人工智能计算芯片系列,基于达芬奇架构设计,专为AI训练和推理任务优化。自2018年首款昇腾310发布以来,已形成覆盖边缘推理、数据中心训练、超大规模集群的完整产品矩阵。

截至2026年5月,昇腾芯片已部署超30万片,支撑全国25个城市人工智能计算中心建设,服务政企、金融、能源、工业等核心行业。

1.1 产品家族总览

昇腾芯片家族
├─ 推理芯片系列(310家族)
│  ├─ 昇腾310(初代,2018)
│  ├─ 昇腾310P(高性能,2022)
│  └─ 昇腾310B(低功耗,2023)

├─ 训练芯片系列(910家族)
│  ├─ 昇腾910A(初代,2019)
│  ├─ 昇腾910B系列(B1/B2/B3/B4,2021-2022)
│  └─ 昇腾910C(双芯合封旗舰,2025Q1)

└─ 新一代产品规划(950/960/970)
   ├─ 昇腾950PR(推理Prefill专用,2026Q1)
   ├─ 昇腾950DT(训练/Decode专用,2026Q4)
   ├─ 昇腾960(次代旗舰,2027Q4)
   └─ 昇腾970(下一代旗舰,2028Q4)

2. 推理芯片系列 - 310家族

2.1 昇腾310 - 初代推理芯片

发布时间:2018年10月
架构:达芬奇架构(单核AI Core)
制程:12nm

参数项规格
INT8 算力16 TOPS
FP16 算力8 TFLOPS
内存容量8GB LPDDR4X
内存带宽51.2 GB/s
典型功耗8W

典型产品

  • Atlas 200 DK 开发者套件
  • Atlas 200 AI加速模块
  • Atlas 500 智能小站

应用场景

  • 边缘AI推理
  • 视频结构化分析
  • 智能安防
  • 工业质检

2.2 昇腾310P - 高性能边缘推理

发布时间:2022年
定位:高性能边缘推理主力芯片
架构:达芬奇2.0架构(双核协同调度)

参数项规格
INT8 算力160 TOPS(Atlas 300I Pro单卡)
FP16 算力70 TFLOPS(单卡)
AI Core数量8个
CPU Core数量8个ARM A55
内存容量24GB LPDDR4X
内存带宽204.8 GB/s
总线位宽384位
典型功耗72W

典型产品

  • Atlas 300I Pro 推理卡
  • Atlas 300I Duo 推理卡(双310P,280TOPS INT8)
  • Atlas 800I A2 推理服务器

技术亮点

  • ✅ 双核协同调度引擎,支持跨核Tensor Fusion
  • ✅ 双通道LPDDR4X-4266,高带宽低功耗
  • ✅ 支持INT8/FP16混合精度推理
  • ✅ 内置DVPP数字视觉预处理硬件加速

实测性能(YOLOv5s,640×640输入):

  • 平均延迟:18.3ms
  • 吞吐性能:54.6 FPS
  • 精度损失:+0.4%

2.3 昇腾310B - 低成本低功耗推理

发布时间:2023年
定位:嵌入式、无风扇、高性价比推理芯片

参数项规格
INT8 算力8 TOPS
FP16 算力4 TFLOPS
AI Core数量单核锁定模式
内存容量4-8GB LPDDR4X
内存带宽14.9 GB/s
典型功耗≤4.7W
散热设计支持无风扇自然对流

封装特性

  • 23mm×23mm POP封装
  • 可直焊于4层PCB
  • BGA pitch 0.65mm
  • 石墨烯贴片散热

应用场景

  • 工业IPC嵌入式部署
  • 户外边缘设备(-40℃~55℃宽温)
  • 低功耗物联网AI节点
  • 空间受限的嵌入式设备

实测性能(YOLOv5s INT8):

  • 平均延迟:39.7ms
  • 吞吐性能:25.2 FPS
  • 精度损失:-1.2%(受L1缓存限制)

2.4 310家族对比总表

对比项昇腾310昇腾310P昇腾310B
发布时间201820222023
INT8算力16 TOPS160 TOPS(单卡)8 TOPS
FP16算力8 TFLOPS70 TFLOPS(单卡)4 TFLOPS
内存容量8GB24GB4-8GB
内存带宽51.2GB/s204.8GB/s14.9GB/s
典型功耗8W72W≤4.7W
散热方式风冷强制风冷无风扇/石墨烯
封装尺寸-27×27mm23×23mm POP
定位通用边缘高性能边缘低成本嵌入式
典型场景通用推理高密度推理服务器工业IPC/户外设备

3. 训练芯片系列 - 910家族

3.1 昇腾910A - 初代旗舰

发布时间:2019年8月
定位:国产AI训练芯片开山之作
制程:7nm

参数项规格
FP16 算力256 TFLOPS
INT8 算力512 TOPS
内存容量32GB HBM2
内存带宽1.5 TB/s
典型功耗350W

历史意义

  • 华为首款7nm AI训练芯片
  • 标志华为完成全栈全场景AI解决方案构建
  • 同期性能对标英伟达V100

3.2 昇腾910B系列 - 四型号精准覆盖

发布时间:2021-2022年
架构:达芬奇架构增强版
制程:7nm

910B系列分为四款型号,从边缘推理到超算全覆盖:

型号FP16算力显存容量对应整机核心场景
910B1414 TFLOPS64GB HBM2HuaKun AT900 A2(液冷)超算中心、千亿参数大模型训练
910B2376 TFLOPS64GB HBM2Atlas 800T A2高精度科研训练、金融风控
910B3313 TFLOPS64GB HBM2Atlas 800T A2通用训练/推理、智算中心主力
910B4280 TFLOPS32GB HBM2Atlas 800I A2边缘推理、工业质检、轻量化任务

3.2.1 共同技术规格

参数项规格
内存带宽392 GB/s
互联带宽1.6 Tbps HCCS + 200 Gbps RoCE
典型功耗310W
支持精度FP32/FP16/BF16/INT8

3.2.2 部署规模(截至2025年7月)

城市/节点部署规模核心场景
北京中关村智算中心70%节点为910B大模型研发、生物医药
上海松江人工智能计算中心5000张910B金融科技、自动驾驶
武汉光谷人工智能算力中心3000张910B工业仿真、智能制造
重庆省级智算中心6台Atlas 800T A2电网智能检修

价格竞争力:910B 8卡服务器月租约3.4万元,仅为英伟达H100同级配置的38%


3.3 昇腾910C - 双芯合封旗舰

发布时间:2025年Q1
定位:CloudMatrix 384超节点核心计算单元
架构创新:双910B芯片合封(Chiplet技术)

参数项规格
FP16 算力780-800 TFLOPS
INT8 算力1600 TOPS
内存容量128GB HBM3
内存带宽3.2 TB/s
互联带宽2.8 Tbps(Scale-Up)
工艺制程7nm DUV
单片成本约14.5万元
良率现状35-36%(目标40%)

3.3.1 CloudMatrix 384超节点集群性能

指标项规格
总算力(FP16)300+ PFLOPS(384卡聚合)
总显存容量49.2 TB
总内存带宽1229 TB/s
通信带宽784 GB/s
通信时延200 ns
机柜配置16机柜(12计算+4交换)
单机柜功耗约80kW(液冷)
PUE值≤1.1

3.3.2 实际应用表现

大模型训练

  • 支撑万亿参数MoE模型训练
  • 时延较传统架构降低30%
  • DeepSeek-R1训练效率超越H100集群1.8倍

推理性能

  • 单卡Token生成速度:2300 Tokens/s
  • 较非超节点方案提升近4倍
  • DeepSeek 671B推理性能较业界最佳提升9.2%

3.3.3 规模化部署

截至2026年5月,昇腾384超节点已累计部署300+套,服务20+行业客户:

  • 深圳鹏城实验室:首期384张910C,支撑"盘古"千亿模型训练
  • 中国电信粤港澳算力集群:全球首个商用昇腾超节点
  • 芜湖地区:规模部署CloudMatrix 384超节点

3.4 910家族性能对比总表

对比项910A910B1910B3910B4910C
发布时间20192022202220222025Q1
FP16算力256T414T313T280T800T
显存容量32GB64GB64GB32GB128GB
内存带宽1.5TB/s392GB/s392GB/s392GB/s3.2TB/s
互联带宽-1.6Tbps1.6Tbps-2.8Tbps
功耗350W310W310W310W-
制程7nm7nm7nm7nm7nm双芯合封
定位初代旗舰超算旗舰通用主力边缘训练/推理超节点旗舰
典型场景科研训练超算中心智算中心边缘部署万亿模型训练

4. 新一代产品 - 950/960/970系列

发布时间:2025年9月18日(华为全联接大会公布路线图)
核心战略:三年四代、场景细分、算力倍增、自主可控

4.1 核心技术突破(相比910系列)

4.1.1 SIMD/SIMT双编程模型新同构

技术特性910系列(SIMD)950+系列(SIMD+SIMT)
向量处理大块数据流水线大块+碎片化数据灵活调度
内存访问颗粒度512字节128字节
离散访问效率基础水平提升4倍
场景适配训练强推理弱训练+推理全场景高效

4.1.2 自研HBM内存技术突破

HBM类型应用芯片容量带宽定位
HiBL 1.0950PR128GB1.6TB/s成本优化、Prefill/推荐场景
HiZQ 2.0950DT144GB4TB/s性能优化、Decode/训练场景

4.1.3 低精度格式创新

新增支持10种数据格式,完美适配大模型训练与推理:

  • 标准格式:FP32 / HF32 / FP16 / BF16 / FP8 / MXFP8 / MXFP4
  • 自研格式:HiF8(FP8效率+FP16精度)、HiF4(业界最优4bit精度实现)

4.2 昇腾950PR - 推理Prefill专用芯片

上市时间:2026年Q1
定位:推理Prefill阶段 + 推荐业务场景优化
首发产品:Atlas 350加速卡(2026年3月合作伙伴大会发布)

参数项规格
FP8 / MXFP8 / HiF8 算力1 PFLOPS
MXFP4 算力2 PFLOPS
内存方案自研HiBL 1.0 HBM
内存容量128GB
内存带宽1.6 TB/s
互联带宽2 TB/s(较910C提升2.5倍)
编程模型SIMD + SIMT 双模型

设计理念

  • 面向推理Prefill阶段和推荐算法计算密集特征优化
  • 低成本HBM方案,降低推理部署TCO
  • 多模态内容生成速度较前代提升60%

实测性能(DeepSeek V4):

模型版本输入场景单卡Decode吞吐TPOT(单Token耗时)
V4-Pro8K输入4700 Tokens/s~20ms
V4-Flash8K输入1600 Tokens/s~10ms

昇腾950PR是目前国内唯一支持FP4精度的推理加速产品


4.3 昇腾950DT - 训练/Decode专用芯片

上市时间:2026年Q4
定位:推理Decode阶段 + 大模型训练双重优化

参数项规格
FP8 / MXFP8 / HiF8 算力1 PFLOPS
MXFP4 / HiF4 算力2 PFLOPS
内存方案自研HiZQ 2.0 HBM
内存容量144GB
内存带宽4 TB/s
互联带宽2 TB/s
编程模型SIMD + SIMT 双模型

技术亮点

  • ✅ 4TB/s超高带宽,彻底破解访存瓶颈
  • ✅ 支持专家并行(EP)优化,适配MoE架构
  • ✅ 内存访问颗粒度128字节,离散访问效率提升4倍
  • ✅ 在精度损失<1%的前提下,推理吞吐量是910C的3.8倍

4.4 昇腾960 - 次代旗舰

预计上市:2027年Q4
迭代逻辑:相比950系列全面规格翻倍

参数项预计规格
FP8 算力2 PFLOPS
FP4 / HiF4 算力4 PFLOPS
内存容量288GB HBM
内存带宽8 TB/s
互联带宽3 TB/s
支持精度全面兼容950系列格式

产品形态

  • Atlas 950 SuperPoD超节点(8192卡规模)
  • 支撑10万卡级超大规模集群

4.5 昇腾970 - 下一代旗舰

预计上市:2028年Q4
迭代逻辑:相比960系列再次规格翻倍

参数项预计规格
FP8 算力4 PFLOPS
FP4 / HiF4 算力8 PFLOPS
内存容量576GB HBM
内存带宽14.4 TB/s
互联带宽4 TB/s
工艺制程N+3
封装设计660mm²四Die封装

能效比目标

  • 较910C提升30%以上
  • 破解"算力提升伴随功耗激增"行业难题

集群规划

  • Atlas 960 SuperPoD超节点:15488卡规模
  • Atlas 960 SuperCluster:百万卡级超节点集群

4.6 新一代芯片性能对比总表

对比项950PR950DT960970
上市时间2026Q12026Q42027Q42028Q4
FP8 算力1P1P2P4P
FP4 算力2P2P4P8P
内存容量128GB144GB288GB576GB
内存带宽1.6TB/s4TB/s8TB/s14.4TB/s
互联带宽2TB/s2TB/s3TB/s4TB/s
内存方案HiBL 1.0HiZQ 2.0自研HBM自研HBM
场景定位Prefill+推荐Decode+训练全能旗舰下一代旗舰
编程模型SIMD+SIMTSIMD+SIMTSIMD+SIMTSIMD+SIMT
支持精度HiF8/HiF4HiF8/HiF4HiF8/HiF4HiF8/HiF4

5. 技术演进路线图

5.1 代际演进总览

2018 ── 昇腾310 发布

2019 ── 昇腾910A 发布
  │        奠定国产AI训练基础

2021-2022 ── 昇腾910B系列 发布
  │        B1/B2/B3/B4 四型号覆盖
  │        910P/910B 推理芯片完善

2025Q1 ── 昇腾910C 发布
  │        双芯合封,300P超节点
  │        累计部署300+套

2025.09 ── 全联接大会发布三年四代路线图

2026Q1 ── 昇腾950PR 上市
  │        Atlas 350 加速卡发布

2026Q4 ── 昇腾950DT 上市

2027Q4 ── 昇腾960 上市
  │        Atlas 950 SuperPoD (8192卡)

2028Q4 ── 昇腾970 上市
           Atlas 960 SuperPoD (15488卡)
           百万卡级超节点集群

5.2 核心技术演进脉络

技术维度910A/B910C950系列960/970
编程模型SIMDSIMDSIMD+SIMTSIMD+SIMT增强
内存方案外部HBM2外部HBM3自研HBM双方案自研HBM增强
精度支持FP32/16/INT8FP32/16/INT810种格式含HiF8/4格式继续扩展
互联带宽1.6Tbps2.8Tbps2Tbps3-4Tbps
封装技术单Die双Die合封四Die合封N+3工艺四Die
算力密度基础翻倍2.5-5倍每代翻倍
场景适配通用为主超节点训练场景细分优化全场景极致优化

6. 应用场景与选型指南

6.1 场景-芯片匹配矩阵

应用场景推荐芯片配置建议
大模型训练(千亿参数)910C384卡超节点起步
大模型训练(万亿参数MoE)910C / 950DT多超节点级联
大模型推理(高并发)950PR + 950DTEP分离部署
通用AI训练(百亿参数)910B38-32卡集群
高精度科研训练910B1 / 910B2液冷高密度部署
数据中心推理服务910B4 / 310PAtlas 800I服务器
边缘推理(园区/工厂)310PAtlas 500 Pro
嵌入式/工业IPC310B无风扇宽温设计
视频结构化分析310 / 310P依路数选择
推荐算法训练950PR高吞吐低TCO
MoE专家并行推理950DT大EP模式优化

6.2 成本效益分析

6.2.1 推理场景TCO对比(单卡年成本)

芯片单卡吞吐单位Token成本相对H100
昇腾950PR4700 Tokens/s0.8555%成本
昇腾910C2300 Tokens/s1.038%成本
昇腾310P140 Tokens/s2.5高性价比边缘

6.2.2 训练场景成本对比(每PFLOPS年成本)

方案总算力年租金单位算力成本
910C 384卡超节点300P~400万~1.3万/PFLOPS
910B 8卡服务器2.5P~40万~16万/PFLOPS
H100 8卡同级~4P~105万~26万/PFLOPS

昇腾方案单位算力成本仅为英伟达的约50%

6.3 软件生态配套

软件栈支持状态说明
CANN 6.0✅ 生产级算子完备率>95%
MindSpore 3.0✅ 原生优化最佳性能路径
PyTorch适配✅ 生产级Ascend adapter,算子基本完备
TensorFlow适配⚠️ 功能级投入较少,建议优先MindSpore/PyTorch
MindIE Motor✅ 容器化推理服务弹性扩缩容
vLLM社区移植🚧 进行中预计2026Q3完成
DeepSeek全系列适配✅ 已完成V3/V4全系列官方支持

6.4 选型决策树

业务需求输入

    ├─ 是否需要训练?
    │   ├─ 是 → 模型规模?
    │   │   ├─ 千亿+参数 → 昇腾910C 超节点
    │   │   ├─ 百亿参数 → 昇腾910B3/B2
    │   │   └─ 百亿以下 → 评估910B4或推理卡
    │   │
    │   └─ 否(纯推理)→ 部署位置?
    │       ├─ 数据中心 → 并发?
    │       │   ├─ 极高并发 → 950PR + 950DT 混合
    │       │   ├─ 高并发 → 910C / 910B4
    │       │   └─ 中低并发 → 310P 系列
    │       │
    │       └─ 边缘/嵌入式 → 功耗?
    │           ├─ 8W以内 → 310B
    │           └─ 72W可接受 → 310P

    └─ 特殊场景?
        ├─ 推荐算法 → 优先950PR
        ├─ MoE模型推理 → 优先950DT大EP
        ├─ 长上下文推理 → 950DT(高带宽)
        └─ 无风扇要求 → 310B

附录:昇腾芯片性能速查表

芯片FP16FP8FP4显存带宽功耗时间
3108T--8GB51GB/s8W2018
310P70T--24GB205GB/s72W2022
310B4T--8GB15GB/s5W2023
910A256T--32GB1.5TB/s350W2019
910B1414T--64GB392GB/s310W2022
910B3313T--64GB392GB/s310W2022
910B4280T--32GB392GB/s310W2022
910C800T--128GB3.2TB/s-2025Q1
950PR-1P2P128GB1.6TB/s-2026Q1
950DT-1P2P144GB4TB/s-2026Q4
960-2P4P288GB8TB/s-2027Q4
970-4P8P576GB14.4TB/s-2028Q4

单位:T=TFLOPS, P=PFLOPS, GB/s=Gigabytes per second


文档结束

褚成志 · 简历中心