褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: K8S服务专家 / 容器域解决方案 | 期望城市: 杭州
核心优势
- K8s 深度实践:华为云原厂 6 年云原生领域资深专家,具备 Kubernetes 集群规划、部署、调优与安全治理全栈能力,熟悉 Deployment/StatefulSet/DaemonSet/HPA/VPA/RBAC/NetworkPolicy 等核心场景,主导多个政企大规模容器平台从 0 到 1 交付落地
- 容器化迁移改造:具备传统应用容器化改造完整交付经验,涵盖 Dockerfile 规范编写、镜像多阶段构建优化、仓库管理、无状态化改造与配置外置,能主导业务系统从虚机到容器的平滑迁移
- 微服务治理与服务网格:熟悉基于 Istio/Spring Cloud 的微服务治理体系,具备服务网格流量管理、熔断限流、灰度发布等场景实际运维经验,能处理服务间调用异常与性能瓶颈
- 私有云 IaaS/PaaS 平台建设:主导 50+ 政企云平台交付,覆盖计算/存储/网络/容器/中间件全栈,熟悉 OpenStack、KVM 虚拟化、SDN/VXLAN、分布式存储等核心技术,管理资源池超 8000 台服务器
- 基础设施即代码:主导 CI/CD 流水线设计与落地(CodeArts/Jenkins/GitLab CI),使用 Ansible 实现批量自动化部署与配置管理,应用部署自动化率达 90%
- 云原生可观测性体系:构建 Prometheus+Grafana+ELK 全链路可观测性体系,贯通指标/日志/链路三位一体监控,设置 200+ 告警阈值,P1 级故障 WarRoom 响应,平均 30 分钟内定位故障方向并止血,实现生产变更零事故
技术能力
- 容器与编排:Kubernetes(集群运维/调度策略/HPA/VPA/RBAC/NetworkPolicy)、Docker(多阶段构建/镜像优化)、CCE、Harbor、Helm、微服务治理(Istio/Spring Cloud)、CNI/CSI 网络与存储插件
- 云计算平台:华为云 Stack(HCS)IaaS/PaaS、OpenStack、KVM 虚拟化、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN 网络、ManageOne 云管平台
- 基础设施自动化:Ansible、Jenkins、GitLab CI/CD、CodeArts、ArgoCD(了解)、Terraform(了解)、Shell 脚本
- 可观测性:Prometheus/Grafana、ELK(Elasticsearch/Logstash/Kibana)、AOM/APM、SkyWalking、告警编排与降噪、全链路追踪
- AI 基础设施:大模型训练/推理环境建设(Kubernetes+Docker+ModelArts)、异构算力资源调度(GPU/CPU/NPU)、MindIE 推理引擎、昇腾芯片
- 服务治理与中间件:Redis、Kafka、RocketMQ、ROMA Connect、API 网关、服务网格
- 数据库:MySQL、PostgreSQL、GaussDB、RDS、DWS 数仓
- 开发技术栈:Java(Spring/SpringBoot/MyBatis)、Python(运维脚本/自动化工具)、Shell、Golang(了解)
- 安全合规:等保合规适配、零信任架构对接、vFW/安全组、RBAC 权限管理、多租户网络隔离
工作经历
华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州
作为华为云原厂 TD,深耕云原生领域 6 年,主导浙江区域 50+ 大中型政企云项目从方案评审、容器平台交付到稳定运维的全流程,管理资源池规模超 8000 台服务器。
- 云原生平台建设:主导多个政企 K8s/CCE 容器平台交付,覆盖集群规划、容器化迁移改造、微服务治理、HPA 弹性扩缩容等全流程;推进传统应用容器化改造,制定迁移标准与优先级矩阵,分阶段灰度迁移
- 大规模资源池管理:管理资源池超 8000 台服务器,稳定运行 6000+ 虚拟机;主导容量治理、资源调度优化与多租户 VDC 建模,资源利用率提升 30%,完成 600+ 问题闭环
- 可观测性平台建设:构建 ManageOne+APM+AOM+Prometheus+Grafana 全栈可观测平台,实现指标、日志、链路三位一体监控;设置 200+ 告警阈值,P1 级故障启动 WarRoom 响应,遵循「日志→配置→资源→网络→周边依赖」排查路径,平均 30 分钟内定位故障方向并止血
- DevOps 与自动化:主导 CodeArts DevOps 工具链交付,构建自动化 CI/CD 流水线,应用部署自动化率 90%;使用 Ansible 进行批量自动化运维,制定 33 项核心运维流程,实现生产变更零事故
- 变更管控与安全合规:依据「九要素+三授权+现场四确认」变更管控体系,落实 TD+PM 双人复核授权;严格落实 IAM 最小权限+K8s RBAC 分层授权,结合堡垒机实现操作全量留痕;主导等保合规适配,对接零信任架构,完成多租户网络隔离体系建设
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 集成边缘计算网关、IoT 平台及行业应用,构建网关设备主动式运维体系,运维响应时间缩短 40%,故障处理效率提升 35%
- 参与能源互联网平台产品设计,服务国网、华能等电网客户
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责电力行业通信规约嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至 99%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于 Spring 等主流框架开发企业级应用模块,优化权限控制和数据库查询性能
- 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率
核心项目经验
衢州数据局 DeepSeek 大模型多机推理项目 | 产品技术经理 | 2025.03
基于 HCS+ModelArts 架构,完成 DeepSeek-R1 大模型多机推理部署与全链路性能优化,交付政务场景高可用大模型推理服务。
- 技术栈:Kubernetes、Docker、ModelArts、MindIE、DeepSeek 大模型(R1/V3)、昇腾芯片(NPU)、HCCL 通信库、昇腾 Profiler
- 主导多节点分布式推理集群架构设计,规划 Kubernetes 节点亲和性调度策略与 NPU 资源隔离方案,解决昇腾芯片跨节点通信瓶颈
- 针对大模型推理场景设计性能调优方案:启用 HCCL RDMA 协议降低节点间通信延迟,结合动态批处理与 W8A8 量化推理提升吞吐量,通过昇腾 Profiler 定位算子执行热点并优化资源配比
- 成果:推理吞吐量提升约 40%,首 token 延迟降低约 30%,满足政务场景高并发调用需求,业务零宕机运行
衢州市警务云(容器+大数据)| 产品技术经理 | 2024.05
主导警务云容器+大数据省市级联贯通项目,实现与「浙警智治」2.0 平台全域级联。
- 技术栈:Kubernetes、华为云 CCE、Docker、ECS、RDS、OBS、MRS(Elasticsearch)、零信任认证、ROMA 业务总线
- 主导容器平台架构规划,设计 K8s 集群网络策略与多租户资源隔离方案,推进存量业务系统容器化改造,制定迁移优先级矩阵与灰度上线策略,解决 Elasticsearch 跨版本兼容问题
- 基于 ROMA 平台设计业务总线架构,实现本地计算、服务、数据资源统一管理与跨域互通
- 主导零信任安全体系对接,完成业务总线自定义鉴权设计,实现省市服务目录同步与鉴权信息互通
- 成果:构建 25 个云服务,实现与浙警智治 2.0 平台级联贯通,达成全省资源可见、可管、可调用目标;应用上线周期大幅缩短
第七一五研究所 CodeArts & ROMA 一体化开发平台 | 产品技术经理 | 2024.08
整合 CodeArts DevOps 工具链与 ROMA 集成能力,打造「研发-集成-部署-运营」全链路数字化开放平台。
- 技术栈:华为云 ECS/RDS/VPC/OBS、CCE(Kubernetes)、CodeArts(需求管理/代码托管/流水线)、ROMA Connect(FDI/MQS/APIC/LINK)、Jenkins、GitLab CI
- 主导 CI/CD 流水线体系设计,规划多环境(开发/测试/生产)自动化发布策略,制定代码质量门禁标准与灰度发布规范,支持容器/虚机/函数多形态应用部署
- 基于 CCE 容器平台设计微服务治理架构,规划服务发现、负载均衡、弹性伸缩策略,保障平台高可用
- 基于 CodeArts 效能洞察构建研发效能度量体系,识别流水线瓶颈并持续优化
- 成果:研发周期缩短 50%,应用部署自动化率 90%,支持 300+ 人员协同;运维成本大幅降低
国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10
基于华为云 Stack 构建电力行业私有云平台,完成跨版本迭代,支撑 10+ 部门 500+ 核心业务,涵盖电力物联网能管系统、能源大数据平台等关键业务。
- 技术栈:HCS8.0X、FusionSphere OpenStack、FusionStorage、SDN 网络、KVM 虚拟化、ManageOne 云管平台、CCE 容器平台、Prometheus/Grafana、中间件(DCS/DMS)、数据库 RDS/DWS、大数据 MRS、数据中台 DGC、安全防护体系(vFW/SG/FusionGuard)
- 主导云平台架构设计与组网规划,完成云底座交付与版本演进;主导 CCE 容器平台部署与新业务容器化上云
- 优化 VDC 建模网络模型,推进多租户资源隔离与统一服务治理
- 构建统一观测与告警编排体系,沉淀平台演练回切流程,开展容量治理,实现生产变更零事故
- 成果:资源利用率提升 30%,MTTR 显著下降,稳定运行 6000+ 台虚拟机,完成 600+ 问题闭环
衢州市政务云国产化改造及上云交付项目 | 核心交付负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务。
- 技术栈:政务云 IaaS/PaaS、国产化替代技术、MO 统一监控、Ansible 自动化运维平台、CMDB、ITSM
- 牵头完成政务云底座新建规划设计,梳理 30+ 项应用改造需求,分批次完成核心政务应用容器化上云部署
- 制定 33 项核心运维流程,设置 200+ 项告警阈值,覆盖绝大多数故障场景
- 成果:资源利用效率大幅提升,成功支撑 20+ 项政务应用平滑迁移,通过等保测评
浦江县信创云平台建设项目 | 云产品与技术专家 | 2024.07
基于华为云 Stack 8.3.1 为浦江县构建信创云平台,采用 ARM 鲲鹏架构,支撑政务业务系统上云,满足信创及等保合规要求。
- 技术栈:华为云 Stack 8.3.1、鲲鹏 TaiShan 200 服务器、OceanStor Pacific 分布式存储(SSD+SATA 混合池)、KVM 虚拟化(DPDK 用户态转发)、SDN/VXLAN、M-LAG 双活组网、ManageOne、OBS 3.0、L3GW 增强型云专线、IPv4+IPv6 双栈
- 主导完成全站 LLD 规划设计,涵盖多平面 IP/VLAN 规划、M-LAG 双活组网、BGP EVPN 路由、VXLAN 隧道、VRF 安全域划分等全栈网络架构设计
- 设计 ARM 鲲鹏架构 KVM 计算资源池,规划管理/计算/网络三类主机组,配置 DPDK 用户态转发提升网络转发性能
- 主导安全体系设计,规划双防火墙架构,落地 KMS 密钥管理、DBAS 数据库审计、WAF、堡垒机等安全服务,完成等保合规适配
- 成果:交付符合信创标准的政务云平台,通过等保测评,平台稳定运行支撑政务业务上线
浙能智云私有云建设项目 | 产品与技术工程师 | 2019.12
浙能集团双 Region 华为 HCS 混合云平台一期建设,构建「云网联动」的 IaaS+PaaS,支撑核心业务云化迁移。
- 技术栈:华为云 Stack、CCE 容器技术、SDN/VXLAN、ROMA/DAYU/MRS/RDS 等云服务、OBS 对象存储、AC 控制器、虚拟墙
- 主导 HCS8.X 平台 LLD 规划,参与技术中台、数据中台交付;容器迁移中解决高阶服务组件使用难题,保障业务按期上云
- 通过 VRF 实例与虚拟墙实现多租户网络隔离;应对两次解决方案跨版本升级变更
- 成果:提前完成基础底座、技术中台、数据中台交付,实现租户间全维度隔离,平台运行稳定
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
