Skip to content
💬 打招呼语

您好,我是褚成志,6年华为云原厂经验,主导构建Prometheus+Grafana+ELK全链路可观测性体系,设置200+项告警阈值,制定33项核心运维流程,实现生产变更零事故。具备DeepSeek大模型推理服务运维、K8s集群运维与Python运维平台开发经验,熟悉智能告警、故障自愈等AIOps场景,期待与您详聊。

褚成志简历

联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: AIOps / 智能运维 / 运维平台开发 | 期望城市: 杭州


核心优势

  • AI+运维融合实战:主导DeepSeek-R1大模型多机推理服务全链路运维,覆盖推理服务部署、性能调优、故障定位与稳定性保障,具备将AI能力落地到运维场景的完整实践经验
  • 全链路可观测性体系:构建Prometheus+Grafana+ELK+AOM全链路可观测性平台,设置200+项告警阈值,覆盖95%以上故障场景,实现指标/日志/链路三维度统一监控与智能告警编排
  • 运维流程与规范体系:制定33项核心运维流程(含事件管理、变更管理、应急管理),输出50+个标准交付物,实现生产变更零事故,运维响应速度提升50%,故障处理时长缩短60%
  • Python运维开发能力:具备Python运维脚本与自动化工具开发经验,结合Ansible实现批量配置管理与自动化运维操作,应用部署自动化率达90%
  • 大规模集群运维经验:管理资源池超8000台服务器,稳定运行6000+虚拟机,具备K8s集群运维经验,熟悉故障自愈、弹性扩缩容等智能运维场景
  • 华为云原厂6年经验:技术栈覆盖私有云IaaS/PaaS、AI推理、容器、大数据全链路,主导50+政企云项目,具备电力、政务、金融、公安行业深度运维经验

技术能力

  • 可观测性平台:Prometheus、Grafana、ELK(Elasticsearch/Logstash/Kibana)、AOM/APM、SkyWalking、告警编排与智能降噪
  • AI基础设施运维:ModelArts、MindIE推理引擎、DeepSeek大模型运维、昇腾NPU调度、异构算力(GPU/CPU/NPU)资源管理
  • 容器与编排:Kubernetes(集群运维/HPA/RBAC)、Docker、CCE、Harbor、微服务治理
  • DevOps与自动化:Jenkins、GitLab CI/CD、Ansible、CodeArts、Python运维脚本开发、Shell
  • 云计算平台:华为云Stack(HCS)IaaS/PaaS、OpenStack、KVM虚拟化、SDN/VXLAN网络
  • 大数据:MRS(Hadoop/Flink/Elasticsearch)、DWS数仓、DGC数据治理
  • 开发技术栈:Java(Spring/SpringBoot/MyBatis)、Python、Shell、Golang(了解)
  • 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB
  • ITSM工具:CMDB、ITSM、变更管控体系、混沌演练、应急预案设计

工作经历

华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州

  • 智能运维体系建设:主导构建Prometheus+Grafana+ELK全链路可观测性体系,设置200+项告警阈值,覆盖95%以上故障场景;制定33项核心运维流程与50+个标准交付物,实现生产变更零事故
  • AI推理服务运维:主导DeepSeek-R1大模型多机推理服务运维,覆盖昇腾NPU调度优化、推理性能调优、故障定位与稳定性保障,推理吞吐量提升约40%(达2500 tokens/sec),业务零宕机运行
  • 自动化运维平台:构建DevOps自动化CI/CD链路,结合Ansible实现批量自动化运维,应用部署自动化率90%,研发周期缩短50%,运维成本降低40%
  • 大规模资源池运维:管理资源池超8000台服务器,稳定运行6000+虚拟机;主导K8s集群运维与控制器二次开发,推进多个政企业务系统容器化迁移改造
  • 故障应急与混沌演练:基于业务场景设计混沌联合演练与应急预案,优化监控策略,平衡SLA、成本与合规;主导600+问题闭环,MTTR显著下降

杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州

  • 构建网关设备主动式运维体系,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提升35%
  • 参与能源互联网平台产品设计,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户

浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州

  • 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎,数据传输成功率提升至99%

核心项目经验

衢州市政务云国产化改造及运维体系建设 | 核心交付负责人 | 2023.12

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,构建完整的AIOps运维能力底座。

  • 技术栈:政务云IaaS/PaaS、MO统一监控平台、Prometheus/Grafana、ELK、自动化运维平台、CMDB、ITSM
  • 制定33项核心运维流程(含事件管理、变更管理、应急管理),输出50+个标准交付物;构建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景
  • 梳理30+项应用改造需求,分批次完成核心政务应用上云部署;联合安全厂商落地等保合规适配
  • 成果:资源利用效率提升40%,运维响应速度提升50%,故障处理时长缩短60%,支撑20+项政务应用平滑迁移,通过等保测评

DeepSeek大模型多机推理项目 | 产品技术经理 | 2025.03

基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,交付政务场景高可用AI推理服务。

  • 技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾NPU、Kubernetes、Docker、HCCL通信库、昇腾Profiler
  • 部署昇腾Profiler监控平台,分析算子执行与通信耗时;通过动态批处理、W8A8量化推理、HCCL RDMA协议优化推理性能
  • 完成MA在线服务与客户侧应用集成对接及Token鉴权配置,保障推理服务稳定调用
  • 成果:推理吞吐量提升约40%(达2500 tokens/sec),首token延迟降低约30%,业务零宕机运行

第七一五研究所CodeArts & ROMA一体化开发平台 | 产品技术经理 | 2024.08

整合CodeArts DevOps工具链与ROMA集成能力,打造全链路数字化运维平台,实现运维自动化与效能可视化。

  • 技术栈:华为云ECS/RDS/VPC/OBS、CCE、CodeArts(需求管理/代码托管/流水线)、ROMA Connect
  • 构建DevOps自动化CI/CD链路,支持多形态应用部署;基于CodeArts效能洞察与云监控工具,构建数据跟踪体系,输出优化报告
  • 定制分层培训覆盖开发、测试、运维角色,实现团队工具链全覆盖
  • 成果:研发周期缩短50%,应用部署自动化率90%,支持300+人员协同,运维成本降低40%

国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10

基于华为云Stack构建电力行业私有云平台,完成版本迭代,构建统一观测与告警编排体系。

  • 技术栈:HCS8.0X、OpenStack、FusionStorage、SDN、KVM、CCE、ManageOne、MRS、DWS、DGC
  • 构建统一观测与告警编排体系,沉淀平台演练回切流程;推进统一服务治理,提升关键链路稳定性
  • 主导600+问题闭环,开展版本演进评审与容量治理,实现生产变更零事故
  • 成果:资源利用率提升30%,平台支撑48708核算力,稳定运行6000+虚拟机,MTTR显著下降

衢州市警务云(容器+大数据)| 产品技术经理 | 2024.05

主导警务云容器+大数据省市级联贯通项目,实现与"浙警智治"2.0平台全域级联。

  • 技术栈:华为云ECS/CCE/RDS/OBS、Kubernetes、MRS(Elasticsearch)、零信任认证、ROMA业务总线
  • 推进容器应用迁移上云,解决Elasticsearch兼容问题;对接零信任体系完成自定义鉴权
  • 成果:构建25个云服务,数据治理效率提升60%,应用上线周期缩短50%

教育背景

重庆大学 | 本科 | 电气工程及自动化专业

褚成志 · 简历中心