褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: AIOps / 智能运维 / 运维平台开发 | 期望城市: 杭州
核心优势
- AI+运维融合实战:主导DeepSeek-R1大模型多机推理服务全链路运维,覆盖推理服务部署、性能调优、故障定位与稳定性保障,具备将AI能力落地到运维场景的完整实践经验
- 全链路可观测性体系:构建Prometheus+Grafana+ELK+AOM全链路可观测性平台,设置200+项告警阈值,覆盖95%以上故障场景,实现指标/日志/链路三维度统一监控与智能告警编排
- 运维流程与规范体系:制定33项核心运维流程(含事件管理、变更管理、应急管理),输出50+个标准交付物,实现生产变更零事故,运维响应速度提升50%,故障处理时长缩短60%
- Python运维开发能力:具备Python运维脚本与自动化工具开发经验,结合Ansible实现批量配置管理与自动化运维操作,应用部署自动化率达90%
- 大规模集群运维经验:管理资源池超8000台服务器,稳定运行6000+虚拟机,具备K8s集群运维经验,熟悉故障自愈、弹性扩缩容等智能运维场景
- 华为云原厂6年经验:技术栈覆盖私有云IaaS/PaaS、AI推理、容器、大数据全链路,主导50+政企云项目,具备电力、政务、金融、公安行业深度运维经验
技术能力
- 可观测性平台:Prometheus、Grafana、ELK(Elasticsearch/Logstash/Kibana)、AOM/APM、SkyWalking、告警编排与智能降噪
- AI基础设施运维:ModelArts、MindIE推理引擎、DeepSeek大模型运维、昇腾NPU调度、异构算力(GPU/CPU/NPU)资源管理
- 容器与编排:Kubernetes(集群运维/HPA/RBAC)、Docker、CCE、Harbor、微服务治理
- DevOps与自动化:Jenkins、GitLab CI/CD、Ansible、CodeArts、Python运维脚本开发、Shell
- 云计算平台:华为云Stack(HCS)IaaS/PaaS、OpenStack、KVM虚拟化、SDN/VXLAN网络
- 大数据:MRS(Hadoop/Flink/Elasticsearch)、DWS数仓、DGC数据治理
- 开发技术栈:Java(Spring/SpringBoot/MyBatis)、Python、Shell、Golang(了解)
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB
- ITSM工具:CMDB、ITSM、变更管控体系、混沌演练、应急预案设计
工作经历
华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州
- 智能运维体系建设:主导构建Prometheus+Grafana+ELK全链路可观测性体系,设置200+项告警阈值,覆盖95%以上故障场景;制定33项核心运维流程与50+个标准交付物,实现生产变更零事故
- AI推理服务运维:主导DeepSeek-R1大模型多机推理服务运维,覆盖昇腾NPU调度优化、推理性能调优、故障定位与稳定性保障,推理吞吐量提升约40%(达2500 tokens/sec),业务零宕机运行
- 自动化运维平台:构建DevOps自动化CI/CD链路,结合Ansible实现批量自动化运维,应用部署自动化率90%,研发周期缩短50%,运维成本降低40%
- 大规模资源池运维:管理资源池超8000台服务器,稳定运行6000+虚拟机;主导K8s集群运维与控制器二次开发,推进多个政企业务系统容器化迁移改造
- 故障应急与混沌演练:基于业务场景设计混沌联合演练与应急预案,优化监控策略,平衡SLA、成本与合规;主导600+问题闭环,MTTR显著下降
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 构建网关设备主动式运维体系,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提升35%
- 参与能源互联网平台产品设计,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎,数据传输成功率提升至99%
核心项目经验
衢州市政务云国产化改造及运维体系建设 | 核心交付负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,构建完整的AIOps运维能力底座。
- 技术栈:政务云IaaS/PaaS、MO统一监控平台、Prometheus/Grafana、ELK、自动化运维平台、CMDB、ITSM
- 制定33项核心运维流程(含事件管理、变更管理、应急管理),输出50+个标准交付物;构建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景
- 梳理30+项应用改造需求,分批次完成核心政务应用上云部署;联合安全厂商落地等保合规适配
- 成果:资源利用效率提升40%,运维响应速度提升50%,故障处理时长缩短60%,支撑20+项政务应用平滑迁移,通过等保测评
DeepSeek大模型多机推理项目 | 产品技术经理 | 2025.03
基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,交付政务场景高可用AI推理服务。
- 技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾NPU、Kubernetes、Docker、HCCL通信库、昇腾Profiler
- 部署昇腾Profiler监控平台,分析算子执行与通信耗时;通过动态批处理、W8A8量化推理、HCCL RDMA协议优化推理性能
- 完成MA在线服务与客户侧应用集成对接及Token鉴权配置,保障推理服务稳定调用
- 成果:推理吞吐量提升约40%(达2500 tokens/sec),首token延迟降低约30%,业务零宕机运行
第七一五研究所CodeArts & ROMA一体化开发平台 | 产品技术经理 | 2024.08
整合CodeArts DevOps工具链与ROMA集成能力,打造全链路数字化运维平台,实现运维自动化与效能可视化。
- 技术栈:华为云ECS/RDS/VPC/OBS、CCE、CodeArts(需求管理/代码托管/流水线)、ROMA Connect
- 构建DevOps自动化CI/CD链路,支持多形态应用部署;基于CodeArts效能洞察与云监控工具,构建数据跟踪体系,输出优化报告
- 定制分层培训覆盖开发、测试、运维角色,实现团队工具链全覆盖
- 成果:研发周期缩短50%,应用部署自动化率90%,支持300+人员协同,运维成本降低40%
国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10
基于华为云Stack构建电力行业私有云平台,完成版本迭代,构建统一观测与告警编排体系。
- 技术栈:HCS8.0X、OpenStack、FusionStorage、SDN、KVM、CCE、ManageOne、MRS、DWS、DGC
- 构建统一观测与告警编排体系,沉淀平台演练回切流程;推进统一服务治理,提升关键链路稳定性
- 主导600+问题闭环,开展版本演进评审与容量治理,实现生产变更零事故
- 成果:资源利用率提升30%,平台支撑48708核算力,稳定运行6000+虚拟机,MTTR显著下降
衢州市警务云(容器+大数据)| 产品技术经理 | 2024.05
主导警务云容器+大数据省市级联贯通项目,实现与"浙警智治"2.0平台全域级联。
- 技术栈:华为云ECS/CCE/RDS/OBS、Kubernetes、MRS(Elasticsearch)、零信任认证、ROMA业务总线
- 推进容器应用迁移上云,解决Elasticsearch兼容问题;对接零信任体系完成自定义鉴权
- 成果:构建25个云服务,数据治理效率提升60%,应用上线周期缩短50%
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
