褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: AI基础设施运维工程师 / 算力平台运维 | 期望城市: 杭州
核心优势
- AI 推理集群运维与调优:主导 DeepSeek 大模型多机推理集群交付,负责昇腾 NPU 算力设备维护,通过 HCCL RDMA 协议启用、动态批处理、W8A8 量化推理等手段系统性优化推理性能,推理吞吐量与首 token 延迟均达到政务场景高并发调用标准
- 算力资源管理与可观测性:具备 GPU/CPU/NPU 异构算力资源调度优化经验,构建 Prometheus+Grafana+ELK 全链路可观测性体系,建立标准化故障排查路径,P1 级故障快速定位止血
- 自动化运维与稳定性保障:Python/Ansible 构建自动化运维工具,显著提升部署效率;建立分层变更风险评估机制,沉淀典型场景 SOP,通过混沌演练将潜在风险前置暴露
- 跨领域技术背景:华为原厂TD技术经理项目交付与运维经验,电气工程专业背景与工业嵌入式开发经历,具有工业控制、物联网、能源互联网等项目经验,能快速适应 AI 算力基础设施运维开发工作
技术能力
- AI 基础设施:昇腾 NPU(910)调度优化、HCCL 通信库/RDMA、动态批处理、W8A8 量化推理、昇腾 Profiler、ModelArts、MindIE 推理引擎、DeepSeek/盘古大模型部署
- 集群调度与编排:Kubernetes(集群运维/调度策略/HPA/RBAC)、Docker、CCE、Harbor;了解 Slurm 调度原理
- 可观测性:Prometheus/Grafana、ELK、AOM/APM、告警编排与降噪
- 自动化与 DevOps:Python(运维脚本)、Shell、Ansible、Jenkins、GitLab CI/CD
- 云计算平台:华为云 Stack(HCS)IaaS/PaaS、OpenStack、KVM 虚拟化、SDN/VXLAN 网络
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL
- 嵌入式与工业协议:嵌入式开发、Linux shell、IEC104/Modbus/DL/T645/MQTT、边缘计算部署、IoT 设备接入与消息总线
工作经历
华为技术有限公司 | 技术经理(华为云TD) | 2019.08 - 至今 | 杭州
作为华为云原厂 TD,主导浙江区域大中型政企云项目从方案评审、交付实施到稳定运维的全流程。
- AI 推理集群运维与调优:负责昇腾 910 NPU 算力设备维护与集群运维,主导 DeepSeek-R1 大模型多机推理集群交付;启用 HCCL RDMA 协议降低节点间通信延迟,通过动态批处理与 W8A8 量化推理提升吞吐量;部署昇腾 Profiler 分析算子执行热点,协助算法团队定位性能瓶颈
- 集群监控与故障响应:构建 Prometheus+Grafana+ELK 全链路可观测平台;建立「日志→配置→资源→网络→周边依赖」标准排查路径,P1 级故障启动 WarRoom 响应,快速定位止血,主导历史遗留问题闭环
- Kubernetes 集群运维:负责多个 K8s 容器平台交付与运维,熟悉集群调度策略、HPA 弹性扩缩容、RBAC 权限管控;推进传统应用容器化改造,保障训练/推理任务稳定运行
- 自动化运维与稳定性保障:Python/Ansible 构建自动化运维工具,落实训练/推理混合调度方案;建立分层变更风险评估机制,沉淀应急切换、算力节点故障隔离等典型场景 SOP,通过混沌演练验证预案有效性
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计,负责数据采集组网方案规划、模块选型与通信协议开发对接,服务国网、华能等大型电网客户
- 构建网关设备主动式运维体系,实现设备故障预判与智能调度,显著缩短运维响应时间
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责 GDW376.1/IEC104 等电力通信规约嵌入式开发调试,优化协议解析引擎性能,具备从硬件驱动到应用层的全栈调试能力;设计低功耗嵌入式网关,支持 Modbus、IEC104、DL/T645 等多种工业协议
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于 Spring/Struts 开发企业级 Web 应用,负责权限控制与数据库查询性能优化
项目经验
衢州数据局 DeepSeek 大模型多机推理项目 | 产品技术经理 | 2025/03
国内较早落地的昇腾 NPU 多机多卡 DeepSeek-R1(671B MoE 满血版)生产推理项目,基于 HCS+ModelArts 架构完成方案设计与交付,解决昇腾适配、分布式通信、性能调优等核心工程难题,为政务场景提供高可用大模型推理服务。
技术栈: ModelArts、MindIE、DeepSeek-R1/V3、昇腾 910B NPU、Kubernetes、HCCL 通信库、MsModelSlim 量化工具、昇腾 Profiler
项目职责
- 主导多机多卡分布式推理架构设计,规划张量并行策略与跨节点 HCCL RDMA 通信方案;完成昇腾驱动/CANN 版本适配、多节点 HCCN 网络互联调试及 FP8 权重到 BF16 的格式转换,逐一攻克昇腾环境特有的兼容性问题
- POC 阶段采用 W8A8 量化方案完成可行性验证,生产阶段切换 BF16 满血部署,完整经历从验证到上线的全流程
- 落地 MindIE Service 服务化配置,完成 OpenAI 兼容接口与客户侧业务系统集成
- 部署昇腾 Profiler 监控体系,定位算子执行瓶颈与跨节点通信耗时,针对性调优 HCCL 缓冲区与 MoE 专家并行参数
项目业绩:衢州市首个全血版 DeepSeek 政务部署项目,671B MoE 模型在昇腾 NPU 集群上稳定运行;"衢州 AI"政务助手上线后接入市应急局、公安局、卫健委、教育局、发改委等 13 个政府部门,覆盖公文写作、知识库问答、智能体等核心政务场景
国网浙江省电力禾城外网云 | 产品技术经理 | 2023/10
技术栈: 华为云 Stack(HCS8.0X)、OpenStack、FusionStorage、KVM 虚拟化、CCE、Prometheus/Grafana、MRS
项目职责
- 跨版本升级零中断交付:主导 HCS 8.0.2→8.3.1 跨版本升级,制定版本演进方案,协调产品线完成组件兼容性验证,分批次完成控制节点、计算节点升级,全程业务零中断
- 平台运维与网络优化:负责私有云平台日常运维与容量管理,推进物理机上架、存储扩容与网络变更;优化 VDC 建模与 SDN 网络模型,解决多租户间路由冲突,通过 vFW 策略实现南北向/东西向访问隔离
项目业绩:跨版本升级全程业务零中断,资源利用率显著提升,MTTR 大幅下降,平台持续稳定支撑电力核心业务运行
衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023/12
技术栈: 华为云 Stack(鲲鹏架构)、政务云 IaaS/PaaS、统一监控体系(MO 平台)、CMDB、ITSM
项目职责
- 国产化兼容性攻关:评估多项政务应用与鲲鹏架构的兼容性,识别依赖 x86 指令集的组件,制定逐应用改造方案与回滚预案,分批次完成迁移,规避业务中断风险
- 运维体系从零构建:对接 MO 统一监控平台,配置计算/存储/网络资源采集指标与告警规则,覆盖 CPU 超载、磁盘 IO 异常、网络丢包等核心故障场景;制定标准运维流程,将依赖外包的运维工作转为政务云团队自主可控;联合安全厂商完成等保三级合规适配
项目业绩:多项政务应用平滑迁移至国产化平台,业务平滑过渡;项目团队迁移能力显著提升;通过等保三级测评
国网浙江省电力泛在电力物联网项目 | IoT 产品技术专家 | 2020/03
技术栈: ROMA Connect、IoT 平台、边缘计算网关、HCS8.X、LVS/OBS、防火墙安全策略
项目职责
- 多协议统一接入:通过 ROMA Connect 实现 IEC104/Modbus/DL/T645 多协议统一接入,打破能管、调度、营销系统间数据孤岛,实现电力数据跨系统实时共享
- 网络规划与边缘运维变革:主导网络拓扑规划,完成多网段、VLAN、VRF 隔离,满足电力等保合规要求;实现 IoT 设备可信远程升级与容器化运维,替代人工现场运维模式
项目业绩:解决电力行业协议异构与数据孤岛问题,运维模式从被动响应转变为主动预警,设备运维效率显著提升
浙能智云私有云建设项目 | 产品与技术工程师 | 2019/12
技术栈: 华为云 Stack、CCE、SDN/VXLAN、ROMA/MRS/RDS 等云服务、OBS、虚拟墙
项目职责
- 平台架构规划与交付:主导 HCS8.X 平台 LLD 规划,输出网络拓扑、IP 规划、存储分区等详细设计文档;参与技术中台(ROMA/MRS)与数据中台(DGC/DWS)部署与配置调试
- 容器迁移攻关与多租户隔离:排查 CCE 高阶服务组件启动失败问题,通过调整 Pod 资源配额与镜像版本兼容性解决部署异常;通过 VRF 实例与虚拟墙实现多租户网络隔离,应对跨版本升级变更并完成升级验证
项目业绩:提前完成基础底座、技术中台、数据中台交付,核心业务云化迁移全程无中断,实现租户间全维度安全隔离
教育背景
重庆大学 | 本科
电气工程及自动化专业
