褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: 云计算运维 / AI基础设施 / 解决方案架构 / DevOps | 期望城市: 杭州
核心优势
- 华为云原厂6年,全栈技术交付:技术栈覆盖私有云IaaS/PaaS、K8s容器、大模型AI推理、DevOps、大数据、IoT全链路,累计主导50+大中型政企云项目交付,管理资源池规模超8000台服务器
- AI基础设施实践:主导DeepSeek-R1大模型多机推理部署与全链路性能优化,熟悉ModelArts、MindIE、昇腾NPU调度,通过动态批处理、量化推理、RDMA通信优化,推理吞吐量提升约40%
- 大规模资源池运维:具备48708核算力、6000+虚拟机规模的私有云平台稳定运维经验,主导构建Prometheus+Grafana+ELK全链路可观测性体系,制定33项核心运维流程,生产变更零事故
- 容器与云原生:具备K8s集群运维与控制器二次开发经验,主导多个政企业务系统容器化迁移改造,熟悉Deployment/StatefulSet/HPA/RBAC等核心场景
- 解决方案与售前能力:具备从客户需求对接、架构方案设计、POC演示到项目落地的全流程能力,牵头完成SRB/DTRB技术评审,服务电力、政务、金融、公安等行业头部客户
- 后端开发能力:具备Java企业级项目开发经验(Spring/SpringBoot/MyBatis),掌握Python运维脚本开发,了解Golang,熟悉MySQL调优、Redis/Kafka/RocketMQ等中间件
技术能力
- 云计算平台:华为云Stack(HCS)IaaS/PaaS、OpenStack、KVM虚拟化、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN网络;熟悉阿里云、腾讯云
- AI基础设施:ModelArts、MindIE推理引擎、DeepSeek/盘古大模型部署、昇腾NPU调度优化、HCCL通信库、异构算力(GPU/CPU/NPU)资源管理
- 容器与编排:Docker、Kubernetes(集群运维/控制器二次开发/调度策略)、CCE、Harbor、微服务治理(Istio/Spring Cloud)
- DevOps工具链:Jenkins、GitLab CI/CD、Ansible自动化部署、CodeArts、ROMA Connect
- 可观测性:Prometheus/Grafana、ELK(Elasticsearch/Logstash/Kibana)、AOM/APM、告警编排
- 大数据:MRS(Hadoop/Flink/Elasticsearch)、DWS数仓、DGC数据治理、数据集成
- 开发技术栈:Java(Spring/SpringBoot/MyBatis)、Python、Shell、Golang(了解)
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB
- 安全合规:等保合规适配、零信任架构对接、vFW/安全组、RBAC权限管理、变更管控体系
工作经历
华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州
- 云平台交付与运维:统筹区域内华为云Stack产品交付与运维,主导HCS/虚拟化/容器云等IaaS/PaaS项目解决方案落地,管理资源池规模超8000台,稳定运行6000+虚拟机
- AI大模型项目:主导DeepSeek-R1大模型多机推理部署,优化昇腾NPU资源调度,推理吞吐量提升约40%,首token延迟降低约30%,保障政务场景业务零宕机运行
- 解决方案与售前支撑:牵头组织SRB、DTRB技术评审,完成重点行业项目解决方案配置报价,成功牵引30+客户上云,服务电力、政务、金融、公安等行业头部客户
- 运维体系建设:制定33项核心运维流程与50+个交付物清单;构建200+项告警阈值的可观测监控体系,覆盖95%以上故障场景;基于混沌演练设计应急预案,实现生产变更零事故
- DevOps与自动化:构建DevOps自动化CI/CD链路,应用部署自动化率90%,研发周期缩短50%;使用Ansible进行批量自动化运维,显著提升运维效率
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
- 设计"硬件+软件+培训"一体化方案,构建网关设备主动式运维体系,运维响应时间缩短40%,故障处理效率提升35%
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎,数据传输成功率提升至99%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于Spring等主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
核心项目经验
DeepSeek大模型多机推理项目 | 产品技术经理 | 2025.03
基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,适配昇腾910硬件环境。
- 技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾NPU、Kubernetes、Docker、HCCL通信库
- 优化ModelArts资源配比,启用芯片亲和性调度;通过动态批处理、W8A8量化推理、HCCL RDMA协议优化推理性能
- 成果:推理吞吐量提升约40%(达2500 tokens/sec),首token延迟降低约30%,业务零宕机运行
国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10
基于华为云Stack构建电力行业私有云平台,完成8.0.2→8.3.1版本迭代,部署500PM/5000VM资源池,支撑500+核心业务。
- 技术栈:HCS8.0X、OpenStack、FusionStorage、SDN、KVM、CCE、ManageOne、MRS、DWS、DGC
- 主导架构设计与组网规划,构建统一观测与告警编排体系,实现生产变更零事故
- 成果:资源利用率提升30%,平台支撑48708核算力,稳定运行6000+虚拟机,完成600+问题闭环
衢州市政务云国产化改造及上云交付项目 | 核心交付负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务。
- 技术栈:政务云IaaS/PaaS、国产化替代、MO统一监控、自动化运维平台、CMDB、ITSM
- 梳理30+项应用改造需求,制定33项核心运维流程,设置200+项告警阈值
- 成果:资源利用效率提升40%,运维响应速度提升50%,支撑20+项政务应用平滑迁移,通过等保测评
第七一五研究所CodeArts & ROMA一体化开发平台 | 产品技术经理 | 2024.08
整合CodeArts DevOps工具链与ROMA集成能力,打造全链路数字化开放平台。
- 技术栈:华为云ECS/RDS/VPC/OBS、CCE、CodeArts、ROMA Connect(FDI/MQS/APIC/LINK)
- 构建DevOps自动化CI/CD链路,支持多形态应用部署;定制分层培训覆盖300+人员
- 成果:研发周期缩短50%,应用部署自动化率90%,运维成本降低40%
衢州市警务云(容器+大数据)| 产品技术经理 | 2024.05
主导警务云容器+大数据省市级联贯通项目,实现与"浙警智治"2.0平台全域级联。
- 技术栈:华为云ECS/CCE/RDS/OBS、Kubernetes、MRS(Elasticsearch)、零信任认证、ROMA业务总线
- 推进容器应用迁移上云,对接零信任体系完成自定义鉴权
- 成果:构建25个云服务,数据治理效率提升60%,应用上线周期缩短50%
某商业银行华为HCS灾备云项目 | 产品与技术工程师 | 2021.06
交付落地三Region灾备云架构,支撑80余个系统、800余台虚拟机稳定运行。
- 技术栈:华为HCS8.0.3、ARM/X86混合架构、OceanStor Pacific、IPv4+IPv6双栈、KVM、vFW/安全组
- 规划2.3万核vCPU、1.81PB块存储;构建南北向/东西向访问控制体系
- 成果:支撑1000+业务虚机稳定运行,重点业务跨Region高可用,灾备环境可持续运行24小时
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
