Skip to content
💬 打招呼语

您好,本人有 6 年华为云原生领域资深实践经验,主导多个大规模 K8s 容器平台交付,具备集群规划、容器化迁移改造、微服务治理、HPA 弹性伸缩及控制器二次开发全栈能力;管理资源池超 8000 台服务器,稳定运行 6000+ 虚拟机,完成 600+ 问题闭环,实现生产变更零事故。期待与您详聊。

褚成志简历

联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: K8S / 容器云平台工程师 | 期望城市: 杭州


核心优势

  • K8S深度实践:华为云原厂 6 年云原生领域资深专家,具备 Kubernetes 集群规划、部署、调优与安全治理全栈能力,熟悉 Deployment/StatefulSet/DaemonSet/HPA/VPA/RBAC/NetworkPolicy 等核心场景,主导多个政企大规模容器平台从 0 到 1 交付落地
  • 大规模容器集群运维:管理资源池规模超 8000 台服务器,稳定运行 6000+ 虚拟机,具备 48708 核算力规模私有云平台的容量治理、资源调度优化与多租户隔离实战经验,完成 600+ 问题闭环,实现生产变更零事故
  • 容器化迁移改造:具备传统应用容器化改造完整交付经验,涵盖 Dockerfile 规范编写、镜像多阶段构建优化、Harbor 仓库管理、无状态化改造与配置外置,能主导业务系统从虚机到容器的平滑迁移
  • 微服务治理与服务网格:熟悉基于 Istio/Spring Cloud 的微服务治理体系,具备服务网格流量管理、熔断限流、灰度发布等场景实际运维经验,能处理服务间调用异常与性能瓶颈
  • 云原生可观测性体系:构建 Prometheus+Grafana+ELK 全链路可观测性体系,贯通指标/日志/链路三位一体监控,设置 200+ 告警阈值,P1 级故障 WarRoom 响应,平均 30 分钟内定位故障方向并止血
  • DevOps 与基础设施自动化:主导 CI/CD 流水线设计与落地(CodeArts/Jenkins/GitLab CI),使用 Ansible 实现批量自动化部署与配置管理,应用部署自动化率达 90%

技术能力

  • 容器与编排:Kubernetes(集群运维/调度策略/HPA/VPA/RBAC/NetworkPolicy)、Docker(多阶段构建/镜像优化)、CCE、Harbor、Helm、微服务治理(Istio/Spring Cloud)、CNI/CSI 网络与存储插件
  • 云计算平台:华为云 Stack(HCS)IaaS/PaaS、OpenStack、KVM 虚拟化、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN 网络、ManageOne 云管平台
  • 可观测性:Prometheus/Grafana、ELK(Elasticsearch/Logstash/Kibana)、AOM/APM、SkyWalking、告警编排与降噪、全链路追踪
  • CI/CD 与 DevOps:Jenkins、GitLab CI/CD、CodeArts 流水线、Ansible 自动化部署、ArgoCD(了解)、IaC 基础设施即代码
  • AI 基础设施:大模型训练/推理环境建设(Kubernetes+Docker+ModelArts)、异构算力资源调度(GPU/CPU/NPU)、MindIE 推理引擎、昇腾芯片
  • 服务治理与中间件:Redis、Kafka、RocketMQ、ROMA Connect、API 网关、服务网格
  • 数据库:MySQL、PostgreSQL、GaussDB、RDS、DWS 数仓
  • 开发技术栈:Java(Spring/SpringBoot/MyBatis)、Python(运维脚本/自动化工具)、Shell、Golang(了解)
  • 安全合规:等保合规适配、零信任架构对接、vFW/安全组、RBAC 权限管理、多租户网络隔离

工作经历

华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州

作为华为云原厂 TD,深耕云原生领域 6 年,主导浙江区域 50+ 大中型政企云项目从方案评审、容器平台交付到稳定运维的全流程,管理资源池规模超 8000 台服务器。

  • 云原生平台建设:主导多个政企 K8s/CCE 容器平台交付,覆盖集群规划、容器化迁移改造、微服务治理、HPA 弹性扩缩容等全流程;推进传统应用容器化改造,制定迁移标准与优先级矩阵,分阶段灰度迁移
  • 大规模资源池管理:管理资源池超 8000 台服务器,稳定运行 6000+ 虚拟机;主导容量治理、资源调度优化与多租户 VDC 建模,资源利用率提升 30%,完成 600+ 问题闭环
  • 可观测性平台建设:构建 ManageOne+APM+AOM+Prometheus+Grafana 全栈可观测平台,实现指标、日志、链路三位一体监控;设置 200+ 告警阈值,P1 级故障启动 WarRoom 响应,遵循「日志→配置→资源→网络→周边依赖」排查路径,平均 30 分钟内定位故障方向并止血
  • DevOps 与自动化:主导 CodeArts DevOps 工具链交付,构建自动化 CI/CD 流水线,应用部署自动化率 90%;使用 Ansible 进行批量自动化运维,制定 33 项核心运维流程,实现生产变更零事故
  • 变更管控与安全合规:依据「九要素+三授权+现场四确认」变更管控体系,落实 TD+PM 双人复核授权;严格落实 IAM 最小权限+K8s RBAC 分层授权,结合堡垒机实现操作全量留痕;主导等保合规适配,对接零信任架构,完成多租户网络隔离体系建设

杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州

  • 集成边缘计算网关、IoT 平台及行业应用,构建网关设备主动式运维体系,运维响应时间缩短 40%,故障处理效率提升 35%
  • 参与能源互联网平台产品设计,服务国网、华能等电网客户

浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州

  • 负责电力行业通信规约嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至 99%
  • 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能

杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州

  • 基于 Spring 等主流框架开发企业级应用模块,优化权限控制和数据库查询性能
  • 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率

项目经验

衢州数据局 DeepSeek 大模型多机推理项目 | 产品技术经理 | 2025/03

项目描述

国内较早落地的昇腾 NPU 多机多卡 DeepSeek-R1(671B MoE 满血版)生产推理项目,基于 HCS+ModelArts 架构完成方案设计与交付,解决昇腾适配、分布式通信、性能调优等核心工程难题,为政务场景提供高可用大模型推理服务。

技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾 910B NPU、Kubernetes、HCCL 通信库、MsModelSlim 量化工具、昇腾 Profiler

项目职责

  • 主导多机多卡分布式推理架构设计,规划张量并行策略与跨节点 HCCL RDMA 通信方案;完成昇腾驱动/CANN 版本适配、多节点 HCCN 网络互联调试及 FP8 权重到 BF16 的格式转换,逐一攻克昇腾环境特有的兼容性问题
  • POC 阶段采用 W8A8 量化方案完成可行性验证,生产阶段切换 BF16 满血部署,完整经历从验证到上线的全流程
  • 落地 MindIE Service 服务化配置,完成 OpenAI 兼容接口与客户侧业务系统集成
  • 部署昇腾 Profiler 监控体系,定位算子执行瓶颈与跨节点通信耗时,针对性调优 HCCL 缓冲区与 MoE 专家并行参数

项目业绩

衢州市首个全血版 DeepSeek 政务部署项目,671B MoE 模型在昇腾 NPU 集群上稳定运行;"衢州 AI"政务助手上线后接入市应急局、公安局、卫健委、教育局、发改委等 13 个政府部门,覆盖公文写作、知识库问答、智能体等核心政务场景


衢州市警务云(容器+大数据)| 产品技术经理 | 2024/05

项目描述

主导衢州警务云容器+大数据省市级联贯通项目建设,实现衢州公安与「浙警智治」2.0 平台全域级联贯通。

技术栈:Kubernetes、华为云 CCE、Docker、ECS、RDS、OBS、MRS(Elasticsearch)、零信任认证、ROMA 业务总线

项目职责

  • 主导容器平台架构规划,设计 K8s 集群网络策略与多租户资源隔离方案,推进存量业务系统容器化改造,制定迁移优先级矩阵与灰度上线策略,解决 Elasticsearch 跨版本兼容问题
  • 基于 ROMA 平台设计业务总线架构,实现本地计算、服务、数据资源统一管理与跨域互通
  • 主导零信任安全体系对接,完成业务总线自定义鉴权设计,实现省市服务目录同步与鉴权信息互通

项目业绩

构建 25 个云服务,实现与浙警智治 2.0 平台级联贯通,达成全省资源可见、可管、可调用目标;应用上线周期大幅缩短


第七一五研究所华为云 CodeArts & ROMA 一体化开发平台 | 产品技术经理 | 2024/08

项目描述

基于华为云基础设施,整合 CodeArts DevOps 工具链与 ROMA 集成能力,打造「研发-集成-部署-运营」全链路数字化开放平台。

项目职责

  • 主导 CI/CD 流水线体系设计,规划多环境(开发/测试/生产)自动化发布策略,制定代码质量门禁标准与灰度发布规范,支持容器/虚机/函数多形态应用部署
  • 基于 CCE 容器平台设计微服务治理架构,规划服务发现、负载均衡、弹性伸缩策略,保障平台高可用
  • 基于 CodeArts 效能洞察构建研发效能度量体系,识别流水线瓶颈并持续优化,输出团队研发效能提升方案

项目业绩

研发周期缩短 50%,应用部署自动化率 90%,支持 300+ 人员协同;运维成本大幅降低


国网浙江省电力禾城外网云 | 产品技术经理 | 2023/10

项目描述

基于华为云 Stack 构建电力行业私有云平台,完成 8.0.2→8.3.1 版本迭代,部署 500PM/5000VM 资源池,支撑 10+ 部门 500+ 核心业务,涵盖电力物联网能管系统、能源大数据平台等关键业务。

技术栈:华为云 Stack(HCS8.0X)、FusionSphere OpenStack、FusionStorage、SDN 网络、KVM 虚拟化、ManageOne 云管平台、CCE 容器平台、Prometheus/Grafana、中间件(DCS/DMS)、数据库 RDS/DWS、大数据 MRS、数据中台 DGC、安全防护体系(vFW/SG/FusionGuard)

项目职责

  • 主导云平台架构设计与组网规划,完成云底座交付与版本演进;主导 CCE 容器平台部署与新业务容器化上云
  • 优化 VDC 建模网络模型,推进多租户资源隔离与统一服务治理
  • 构建统一观测与告警编排体系,沉淀平台演练回切流程,开展版本演进评审与容量治理
  • 协同跨产品线处置应急问题,实现生产变更零事故

项目业绩

资源利用率提升 30%,MTTR 显著下降,平台支撑 48708 核私有云算力规模,稳定运行 6000+ 台虚拟机,完成 600+ 问题闭环


衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023/12

项目描述

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,涵盖云底座规划、资源扩容、应用迁移、安全集成与运维能力构建。

技术栈:政务云 IaaS/PaaS 平台、国产化替代技术、统一监控体系(MO 平台)、Ansible 自动化运维平台、CMDB 管理系统、ITSM 工具

项目职责

  • 牵头完成政务云底座新建规划设计,梳理 30+ 项应用改造需求,分批次完成核心政务应用容器化上云部署
  • 构建可观测统一监控体系,设置 200+ 项告警阈值;制定 33 项核心运维流程(含事件/变更/应急管理)与 50+ 个交付物清单
  • 联合安全厂商落地网络安全、虚拟化安全、数据安全等防护措施,完成等保合规适配

项目业绩

资源利用效率大幅提升,故障处理时长显著缩短,成功支撑 20+ 项政务应用平滑迁移,通过等保测评


浦江县信创云平台建设项目 | 云产品与技术专家 | 2024/07

项目描述

基于华为云 Stack 8.3.1 为浦江县构建信创云平台,采用 ARM 鲲鹏架构,支撑政务业务系统上云,满足信创及等保合规要求。

技术栈:华为云 Stack 8.3.1、鲲鹏 TaiShan 200 服务器、OceanStor Pacific 分布式存储(SSD+SATA 混合池)、KVM 虚拟化(DPDK 用户态转发)、SDN/VXLAN、M-LAG 双活组网、CE16804 核心交换机、USG6650F 防火墙(管理墙+边界墙)、ManageOne、OBS 3.0、eBackup 备份、L3GW 增强型云专线、IPv4+IPv6 双栈

项目职责

  • 主导完成全站 LLD 规划设计,涵盖多平面 IP/VLAN 规划、M-LAG 双活组网、BGP EVPN 路由、VXLAN 隧道、VRF 安全域划分(Internet/DMZ/Public/OMAccess)等全栈网络架构设计
  • 设计 ARM 鲲鹏架构 KVM 计算资源池,规划管理/计算/网络三类主机组,配置 DPDK 用户态转发提升网络转发性能
  • 设计 SSD+SATA 混合分布式存储方案,采用 EC 冗余策略,规划 OBS 3.0 对象存储、eBackup 备份一体机及 L3GW 增强型云专线接入
  • 主导安全体系设计,规划管理墙+边界墙双防火墙架构,落地 KMS 密钥管理、DBAS 数据库审计、WAF、堡垒机等安全服务,完成等保合规适配
  • 输出完整交付物:LLD 规划文档、机柜布局图、连线矩阵、设备初始化配置清单、运维方案

项目业绩

交付符合信创标准的政务云平台,IPv4+IPv6 双栈网络满足业务访问需求,通过等保测评,平台稳定运行支撑政务业务上线


项目描述

浙能集团双 Region 华为 HCS 混合云平台一期建设,构建「云网联动」的 IaaS+PaaS,支撑智慧电厂、加油站系统等核心业务云化迁移。

技术栈:华为云 Stack、CCE 容器技术、SDN/VXLAN、ROMA/DAYU/MRS/RDS 等云服务、OBS 对象存储、AC 控制器、虚拟墙

项目职责

  • 主导 HCS8.X 平台 LLD 规划,参与技术中台、数据中台交付;容器迁移中解决高阶服务组件使用难题,保障业务按期上云
  • 通过 VRF 实例与虚拟墙实现多租户网络隔离;应对两次解决方案跨版本升级变更

项目业绩

提前完成基础底座、技术中台、数据中台交付,支撑核心业务云化迁移;实现租户间全维度隔离,平台运行稳定


某商业银行华为 HCS 灾备云项目 | 产品与技术工程师 | 2021/06

项目描述

交付落地金融级灾备云架构,完成杭州生产主 Region、开发测试 Region、灾备从 Region 三地部署,支撑 4 个以上业务部门、80 余个系统、800 余台虚拟机稳定运行,保障银联前置系统、柜面冲正系统等核心金融业务高可用。

技术栈:华为 HCS8.0.3(ManageOne/FusionSphere OpenStack)、ARM/X86 混合计算架构、OceanStor Pacific 分布式块存储、IPv4+IPv6 双栈网络、KVM 虚拟化、vFW/安全组、集中运维监控

项目职责

  • 主导多 Region 灾备架构设计,规划计算 2.3 万核 vCPU、存储 1.81PB 块存储的资源分配方案,设计故障域可靠性模型与容量评估体系
  • 主导安全防护体系架构设计,通过 vFW 与安全组实现南北向/东西向访问控制分层,结合 DDoS 防御与防病毒网关构建纵深防御体系
  • 制定金融业务连续性保障方案,完善应急预案并主导信息系统切换演练,验证灾备环境 24 小时持续运行目标

项目业绩

支撑 1000+ 业务虚机稳定运行,重点业务跨 Region 高可用;灾备切换演练零故障,大幅提升金融业务运维运营韧性


教育背景

重庆大学 | 本科

电气工程及自动化专业

褚成志 · 简历中心