褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: 云原生基础设施工程师 | 期望城市: 杭州
核心优势
- 虚拟化与私有云基础设施:6年华为云原厂技术服务经验,深度参与KVM虚拟化、分布式存储、SDN网络的架构设计与落地,累计管理资源池规模超8000台服务器、6000+台虚拟机,具备大规模私有云基础设施的完整工程经验
- 容器平台与调度机制:深度参与多个CCE/K8s容器平台交付,熟悉K8s控制器原理与调度器机制(CPU/内存/GPU亲和性调度),具备针对业务场景定制调度策略的经验;涵盖Deployment/StatefulSet/HPA/RBAC等核心场景,具备容器化迁移改造全流程经验
- 资源调度优化:在大模型推理项目中深入异构算力(GPU/NPU)资源调度优化,通过动态批处理、芯片亲和性调度、RDMA通信协议启用等手段提升资源利用率与吞吐量;熟悉负载均衡、故障恢复等资源调度核心问题
- 编程开发能力:早期从事软件开发工作,熟练掌握Java及C语言,掌握Python脚本开发;了解Golang,能读写K8s控制器相关代码;具备良好的代码规范意识与Git版本控制习惯
- 技术架构与工程经验:作为华为云TD,主导金华、衢州、丽水区域大型政企项目的技术方案设计与落地,具备从架构规划到系统交付的完整工程经验,熟悉虚拟化、容器、存储、网络各层技术栈的协同设计
技术能力
- 虚拟化技术:KVM虚拟化(深度实践)、VMware(熟练)、FusionSphere OpenStack、资源超分配置与性能调优
- 容器与编排:Docker(镜像构建/多阶段构建/Harbor仓库)、Kubernetes(集群运维/调度策略定制/RBAC)、CCE容器平台、微服务治理(Istio/Spring Cloud)
- 资源调度:异构算力调度(CPU/GPU/NPU)、芯片亲和性调度、动态批处理、负载均衡(LVS/Nginx)、HPA弹性伸缩
- 云计算平台:华为云Stack(HCS)IaaS/PaaS、OpenStack、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN网络
- 编程语言:Java(熟练)、C、Python(运维脚本开发)、Shell、Golang(了解,可读写基础代码);具备良好编码规范与Git版本控制习惯
- 可观测性:Prometheus/Grafana监控体系、ELK日志分析、AOM/APM、告警编排
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB
工作经历
华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州
作为华为云原厂TD,负责省级电力能源(国网、浙能)、教医行业项目(杭州),深耕金华、衢州、丽水区域政企市场,覆盖电力、政务、安平、大企业等行业,主导50+大中型云项目从方案评审、交付实施到稳定运维的全流程。
- 资源池化与虚拟化交付:主导多个大型私有云项目的IaaS底座规划与交付,涵盖KVM虚拟化集群、分布式存储池、SDN网络的架构设计与落地;规划并交付最大规模达48708核算力、6000+虚拟机的资源池,具备资源分配、负载均衡、故障域可靠性分析的完整工程经验
- 容器平台建设与调度策略:主导多个CCE/K8s容器平台交付,推进传统应用容器化迁移;熟悉K8s调度器原理,能针对业务场景定制资源调度策略
- 异构算力调度优化:在DeepSeek大模型推理项目中,优化昇腾NPU资源调度,启用芯片亲和性调度与HCCL RDMA协议,通过动态批处理与W8A8量化推理,推理吞吐量提升约40%,首token延迟降低约30%
- 技术方案设计与评审:牵头组织SRB、DTRB技术评审,对齐客户需求,把关组网架构与版本能力;结合业务场景提出合理的产品技术方案
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
- 构建网关设备主动式运维体系,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提升35%
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至99%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于Spring等主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
- 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率
核心项目经验
衢州数据局DeepSeek大模型多机推理项目 | 技术负责人 | 2025.03
基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,适配昇腾910硬件环境,交付政务场景高可用大模型推理服务。
- 技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾NPU、Kubernetes、Docker、HCCL通信库、OBS、SWR
- 优化ModelArts资源配比,启用芯片亲和性调度;通过动态批处理、W8A8量化推理、HCCL RDMA协议启用优化推理性能
- 部署昇腾Profiler监控平台,分析算子执行与通信耗时,定位并解决资源调度瓶颈
- 成果:推理吞吐量提升约40%(达2500 tokens/sec),首token延迟降低约30%,显存占用显著降低,业务零宕机运行
衢州市警务云HCS(容器+大数据)| 技术负责人 | 2024.05
主导衢州警务云容器+大数据省市级联贯通项目建设,构建智慧警务解决方案。
- 技术栈:华为云(ECS、CCE、RDS、OBS)、Kubernetes、大数据MRS(Elasticsearch)、零信任认证、ROMA业务总线
- 推进容器应用迁移上云,解决Elasticsearch版本兼容问题;对接零信任体系完成业务总线自定义鉴权
- 成果:构建25个云服务,数据治理效率提升60%,应用上线周期缩短50%
衢州市政务云国产化改造及上云交付项目 | 技术负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务。
- 技术栈:政务云IaaS/PaaS、国产化替代技术、统一监控体系(MO平台)、自动化运维平台、CMDB、ITSM
- 梳理30+项应用改造需求,评估应用与国产化平台兼容性,分批次完成核心政务应用上云部署
- 构建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景
- 成果:资源利用效率提升40%,成功支撑20+项政务应用平滑迁移,通过等保测评
国网浙江省电力禾城外网云 | 技术负责人 | 2023.10
基于华为云Stack构建电力行业私有云平台,完成8.0.2→8.3.1版本迭代,部署500PM/5000VM资源池,支撑500+核心业务。
- 技术栈:华为云Stack(HCS8.0X)、FusionSphere OpenStack、FusionStorage分布式存储、SDN网络、KVM虚拟化、CCE容器平台、ManageOne云管平台
- 主导云平台架构设计与组网规划,完成云底座交付与版本演进;优化VDC建模网络模型,实现新业务部署与旧业务平滑迁移
- 构建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
- 成果:资源利用率提升30%,MTTR显著下降,平台支撑48708核算力、稳定运行6000+台虚拟机
某商业银行华为HCS灾备云项目 | 技术负责人 | 2021.06
交付落地灾备云架构,完成生产/开发测试/灾备三Region部署,支撑80余个系统、800余台虚拟机运行。
- 技术栈:华为HCS8.0.3、ARM/X86混合架构、OceanStor Pacific分布式块存储、IPv4+IPv6双栈、KVM虚拟化、vFW/安全组
- 规划计算2.3万核vCPU、存储1.81PB块存储;通过vFW、安全组实现南北向/东西向访问控制
- 成果:支撑1000+业务虚机稳定运行,重点业务跨Region高可用,灾备环境可持续运行24小时
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
