褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: SRE(大模型/MaaS方向) | 期望城市: 杭州
核心优势
- 大模型推理服务运维:主导 DeepSeek-R1 大模型多机推理项目交付,覆盖推理集群架构设计、昇腾 NPU 资源调度优化、推理性能调优全流程,推理吞吐量提升约 40%,首 token 延迟降低约 30%,业务零宕机运行
- MaaS 平台可靠性保障:具备大模型推理服务高可用架构设计经验,熟悉推理延迟激增、并发调用雪崩等典型故障场景的应急响应与根因分析,能输出可落地的优化方案并推动问题闭环
- 全链路可观测性体系:构建 Prometheus+Grafana+ELK 全链路可观测性体系,贯通指标/日志/链路三位一体监控,设置 200+ 告警阈值,P1 级故障 WarRoom 响应,平均 30 分钟内定位故障方向并止血
- 自动化运维能力:具备 Python 运维脚本与自动化工具开发能力,结合 Ansible 实现批量配置管理与自动化运维,应用部署自动化率达 90%;熟悉 CI/CD 流水线设计与落地
- 大规模平台稳定性运维:6 年华为云原厂经验,主导 50+ 政企云平台稳定性保障,管理资源池超 8000 台服务器,制定 33 项核心运维流程,基于业务场景设计混沌演练与应急预案,实现生产变更零事故
技术能力
- AI 基础设施:大模型推理环境建设(ModelArts/MindIE)、昇腾 NPU 调度优化、DeepSeek/盘古大模型部署、HCCL 通信库、动态批处理、W8A8 量化推理、RDMA 协议优化、昇腾 Profiler 性能分析
- 容器与编排:Kubernetes(集群运维/HPA/RBAC/调度策略)、Docker、CCE、Harbor、微服务治理
- 可观测性:Prometheus/Grafana、ELK(Elasticsearch/Logstash/Kibana)、AOM/APM、SkyWalking、告警编排与降噪、全链路追踪
- 自动化与 DevOps:Python(运维脚本/自动化工具)、Shell、Ansible、Jenkins、GitLab CI/CD、CodeArts
- 云计算平台:华为云 Stack(HCS)IaaS/PaaS、OpenStack、KVM 虚拟化、SDN/VXLAN 网络
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB
- 开发技术栈:Java(Spring/SpringBoot)、Python、Shell、Golang(了解)
- 安全合规:等保合规适配、变更管控体系、RBAC 权限管理、混沌演练与应急预案
工作经历
华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州
作为华为云原厂 TD,深耕 AI 基础设施与云原生运维领域 6 年,主导浙江区域 50+ 大中型政企云项目从方案评审、交付实施到稳定运维的全流程。
- 大模型推理服务运维:主导 DeepSeek-R1 大模型多机推理集群交付,规划 Kubernetes 节点亲和性调度策略与 NPU 资源隔离方案,解决昇腾芯片跨节点通信瓶颈;通过动态批处理、W8A8 量化推理、HCCL RDMA 协议优化推理性能;部署昇腾 Profiler 监控平台,分析算子执行热点,定位并解决推理延迟与吞吐量瓶颈
- 故障应急响应与根因分析:建立「日志→配置→资源→网络→周边依赖」标准排查路径,P1 级故障启动 WarRoom 响应,平均 30 分钟内定位故障方向并止血;主导 600+ 问题闭环,MTTR 显著下降;基于业务场景设计混沌联合演练与应急预案,持续验证系统容灾能力
- 可观测性平台建设:构建 ManageOne+APM+AOM+Prometheus+Grafana 全栈可观测平台,实现指标、日志、链路三位一体监控;设置 200+ 告警阈值,推动告警降噪与智能预警,覆盖绝大多数故障场景
- 自动化运维与 SLA 保障:使用 Python/Ansible 构建自动化运维工具,应用部署自动化率 90%;依据「九要素+三授权+现场四确认」变更管控体系,落实 TD+PM 双人复核授权;主导多 Region/多 AZ 高可用架构设计,建立标准化切换演练流程,核心业务未发生变更引发的人为故障
- 容量规划与性能优化:主导大规模私有云平台容量治理与资源调度优化,针对 GPU/CPU 利用率、显存占用等核心指标开展专项优化,支撑高并发模型调用场景需求
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 集成边缘计算网关、IoT 平台及行业应用,构建网关设备主动式运维体系,运维响应时间缩短 40%,故障处理效率提升 35%
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责电力行业通信规约嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至 99%
项目经验
衢州数据局 DeepSeek 大模型多机推理项目 | 产品技术经理 | 2025/03
项目描述
国内较早落地的昇腾 NPU 多机多卡 DeepSeek-R1(671B MoE 满血版)生产推理项目,基于 HCS+ModelArts 架构完成方案设计与交付,解决昇腾适配、分布式通信、性能调优等核心工程难题,为政务场景提供高可用大模型推理服务。
技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾 910B NPU、Kubernetes、HCCL 通信库、MsModelSlim 量化工具、昇腾 Profiler
项目职责
- 主导多机多卡分布式推理架构设计,规划张量并行策略与跨节点 HCCL RDMA 通信方案;完成昇腾驱动/CANN 版本适配、多节点 HCCN 网络互联调试及 FP8 权重到 BF16 的格式转换,逐一攻克昇腾环境特有的兼容性问题
- POC 阶段采用 W8A8 量化方案完成可行性验证,生产阶段切换 BF16 满血部署,完整经历从验证到上线的全流程
- 落地 MindIE Service 服务化配置,完成 OpenAI 兼容接口与客户侧业务系统集成
- 部署昇腾 Profiler 监控体系,定位算子执行瓶颈与跨节点通信耗时,针对性调优 HCCL 缓冲区与 MoE 专家并行参数
项目业绩
衢州市首个全血版 DeepSeek 政务部署项目,671B MoE 模型在昇腾 NPU 集群上稳定运行;"衢州 AI"政务助手上线后接入市应急局、公安局、卫健委、教育局、发改委等 13 个政府部门,覆盖公文写作、知识库问答、智能体等核心政务场景
衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023/12
项目描述
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,涵盖云底座规划、应用迁移、安全集成与运维能力构建。
技术栈:政务云 IaaS/PaaS 平台、统一监控体系(MO 平台)、Ansible 自动化运维平台、CMDB 管理系统、ITSM 工具
项目职责
- 构建可观测统一监控体系,设置 200+ 项告警阈值;制定 33 项核心运维流程(含事件/变更/应急管理)与 50+ 个交付物清单
- 主导自动化运维平台对接配置,实现计算、存储、网络等资源及应用性能的实时可视化监控
- 联合安全厂商落地网络安全、虚拟化安全、数据安全等防护措施,完成等保合规适配
项目业绩
运维响应速度大幅提升,故障处理时长显著缩短,成功支撑 20+ 项政务应用平滑迁移,通过等保测评
国网浙江省电力禾城外网云 | 产品技术经理 | 2023/10
项目描述
基于华为云 Stack 构建电力行业私有云平台,完成跨版本迭代,支撑 10+ 部门 500+ 核心业务,涵盖电力物联网能管系统、能源大数据平台等关键业务。
技术栈:华为云 Stack(HCS8.0X)、OpenStack、FusionStorage、KVM 虚拟化、CCE 容器平台、Prometheus/Grafana、中间件(DCS/DMS)、数据库 RDS/DWS、大数据 MRS
项目职责
- 构建统一观测与告警编排体系,沉淀平台演练回切流程,开展容量治理,实现生产变更零事故
- 主导跨产品线应急问题处置,推进统一服务治理,提升关键链路稳定性
- 主导云平台架构设计与版本演进,完成新旧业务平滑迁移
项目业绩
资源利用率提升 30%,MTTR 显著下降,稳定运行 6000+ 台虚拟机,完成 600+ 问题闭环
教育背景
重庆大学 | 本科
电气工程及自动化专业
