Skip to content
💬 打招呼语

您好,我是褚成志,6年华为云原厂经验,主导大规模私有云平台7×24小时稳定性保障,构建Prometheus+Grafana+ELK全链路可观测体系,设置200+项告警阈值,P1故障平均30分钟内定位止血。具备K8s集群运维、CI/CD流水线落地(自动化率90%)及Ansible自动化运维经验,核心业务零变更故障,期待与您详聊。

褚成志简历

联系方式�?* 13868166992 | 邮箱�?* livecityccz@163.com
GitHub�?* https://github.com/initchu | 博客�?* https://www.cnblogs.com/chucz
**求职意向�?* 云原生运维工程师 / 平台稳定�?| *期望城市�? 杭州


核心优势

  • **平台稳定性保�?*�?年华为云原厂技术服务经验,作为NA客户业务第一责任人,主导大规模私有云平台的高可用架构设计与稳定性保障,管理资源池规模超8000台服务器,核心业务未发生任何变更引发的人为故�?
  • **可观测性体系建�?*:构�?Prometheus/Grafana/ELK 全栈可观测平台,实现指标、日志、链路三位一体监控;设置200+项告警阈值,覆盖95%以上故障场景;P1级故障启动WarRoom响应,平�?0分钟内定位故障方向并止血
  • **云原生与容器化运�?*:深度参与多个K8s/CCE容器平台交付与运维,熟悉Kubernetes集群规划、部署、性能调优与安全治理;具备Service Mesh(Istio)、HPA弹性伸缩、RBAC权限管控等核心场景实践经�?
  • DevOps与自动化:具备CI/CD流水线设计与落地经验(CodeArts/Jenkins/GitLab CI),掌握Ansible自动化部署与配置管理;具备Python/Shell脚本开发能力,能独立开发运维自动化工具与平台模�?
  • **变更管控与容灾演�?*:依�?九要�?三授�?现场四确�?体系规范变更管控,落实双人复核授权;主导多Region/多AZ高可用架构设计,建立"切换-回切"标准化演练流程,持续验证系统容灾能力

技术能�?

  • **云原生技�?*:Kubernetes(集群运�?调度策略/安全治理/性能调优)、Docker、Helm(应用包管理)、Service Mesh(Istio)、Harbor、HPA/VPA弹性伸缩、CNI/CSI(网络与存储插件)、了解Operator开发模�?
  • **可观测�?*:Prometheus/Grafana监控体系、ELK/Loki日志分析、AOM/APM、Zabbix、告警编排与降噪、全链路追踪;了解ClickHouse日志存储方案
  • CI/CD与DevOps:Jenkins、GitLab CI、CodeArts流水线、Ansible自动化部署;了解ArgoCD GitOps模式与IaC基础设施即代码理�?
  • **云计算平�?*:华为云Stack(HCS)IaaS/PaaS、OpenStack、KVM虚拟化、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN网络
  • 编程语言:Python(运维脚�?自动化工具开发)、Shell、Java(熟练)、C、Golang(了解)
  • **中间件与数据�?*:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB、Nginx

工作经历

华为技术有限公�?| 技术服务专家(华为云TD�?| 2019.08 - 至今 | 杭州

作为华为云原厂TD,负责省级电力能源(国网、浙能)、教医行业项目(杭州),深耕金华、衢州、丽水区域政企市场,覆盖电力、政务、安平、大企业等行业,主导50+大中型云项目从方案评审、交付实施到稳定运维的全流程�?

  • 稳定性保障与故障响应:建�?日志→配置→资源→网络→周边依赖"标准排查路径,P1级故障启动WarRoom响应,平�?0分钟内定位故障方向;主导多Region/多AZ高可用架构设计,建立标准化切换演练流程,落实TD+PM双人复核变更授权,核心业务未发生变更引发的人为故�?
  • **可观测性平台建�?*:构建ManageOne+APM+AOM+Prometheus+Grafana全栈可观测平台,实现指标、日志、链路三位一体监控;设置200+项告警阈值,覆盖95%以上故障场景,推动告警降噪与智能预警
  • **容器平台运维与调�?*:主导多个CCE/K8s容器平台交付,推进传统应用容器化迁移;熟悉K8s调度器原理,具备针对业务场景定制调度策略、HPA弹性伸缩、RBAC权限管控的实践经�?
  • CI/CD与DevOps落地:主导CodeArts DevOps工具链交付,构建自动化CI/CD流水线,应用部署自动化率�?0%;使用Ansible进行自动化部署与配置管理,减少重复操作,提升运维标准化水�?

杭州中恒云能源互联网技术有限公�?| 解决方案工程�?| 2017.06 - 2019.06 | 杭州

  • 参与能源互联网平台产品设计,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
  • 构建网关设备主动式运维体系,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提�?5%

浙江新能量科技股份有限公司 | 软件工程�?| 2013.05 - 2017.06 | 杭州

  • 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升�?9%
  • 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能

杭州新正软件技术有限公�?| 软件工程�?| 2011.01 - 2013.04 | 杭州

  • 基于Spring等主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效�?
  • 参与制定公司软件开发规范,提升模块代码复用率和团队开发效�?

核心项目经验

衢州数据局DeepSeek大模型多机推理项�?| 技术负责人 | 2025.03

基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,交付政务场景高可用推理服务�?

  • 技术栈:ModelArts、MindIE、昇腾NPU、Kubernetes、Docker、HCCL通信库、昇腾Profiler
  • 部署昇腾Profiler监控平台,分析算子执行与通信耗时,定位并解决资源调度瓶颈
  • 通过动态批处理、W8A8量化推理、HCCL RDMA协议优化推理性能
  • 成果:推理吞吐量提升�?0%(达2500 tokens/sec),首token延迟降低�?0%,业务零宕机运行

第七一五研究所CodeArts & ROMA一体化DevOps平台 | 技术负责人 | 2024.08

基于华为云基础设施,整合CodeArts DevOps工具链与ROMA集成能力,打�?研发-集成-部署-运营"全链路数字化平台�?

  • 技术栈:华为云(ECS、RDS、VPC、OBS)、CCE、CodeArts(需求管�?代码托管/流水线)、ROMA Connect、Jenkins、GitLab CI
  • 主导CI/CD流水线设计与交付,构建自动化构建、测试、部署链路,支持多形态应用部�?
  • 基于CodeArts效能洞察构建研发数据跟踪体系,持续优化流水线效率
  • 成果:研发周期缩�?0%,应用部署自动化�?0%,支�?00+人员协同,运维成本降�?0%

衢州市政务云国产化改造及上云交付项目 | 技术负责人 | 2023.12

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务�?

  • 技术栈:政务云IaaS/PaaS、统一监控体系(MO平台)、Ansible自动化运维、CMDB、ITSM
  • 构建可观测统一监控体系,设�?00+项告警阈值,覆盖95%以上故障场景
  • 制定33项核心运维流程(含事件管理、变更管理、应急管理),建立标准化SOP
  • 成果:资源利用效率提�?0%,故障处理时长缩�?0%,成功支�?0+项政务应用平滑迁移,通过等保测评

国网浙江省电力禾城外网云 | 技术负责人 | 2023.10

基于华为云Stack构建电力行业私有云平台,完成8.0.2�?.3.1版本迭代,部�?00PM/5000VM资源池,支撑500+核心业务�?

  • 技术栈:华为云Stack(HCS8.0X)、FusionSphere OpenStack、FusionStorage、SDN网络、KVM虚拟化、CCE容器平台、Prometheus/Grafana
  • 构建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
  • 主导云平台架构设计与版本演进,完成新旧业务平滑迁�?
  • 成果:资源利用率提升30%,MTTR显著下降,平台支�?8708核算力、稳定运�?000+台虚拟机

某商业银行华为HCS灾备云项�?| 技术负责人 | 2021.06

交付落地灾备云架构,完成生产/开发测�?灾备三Region部署,支�?0余个系统�?00余台虚拟机运行�?

  • 技术栈:华为HCS8.0.3、ARM/X86混合架构、OceanStor Pacific分布式块存储、IPv4+IPv6双栈、KVM虚拟化、vFW/安全�?
  • 规划计算2.3万核vCPU、存�?.81PB块存储;完善应急预案并开展信息系统切换演�?
  • 成果:支�?000+业务虚机稳定运行,重点业务跨Region高可用,灾备环境可持续运�?4小时

教育背景

重庆大学 | 本科 | 电气工程及自动化专业

褚成志 · 简历中心