Skip to content

褚成志简历

联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: 云原生运维工程师(交付) | 期望城市: 杭州


核心优势

  • 云原生交付与运维实践:6 年华为云原厂技术服务经验,主导 4 套 K8s 集群(CCE)交付与日常运维,覆盖 Pod 调度、网络策略、存储挂载、日志采集全链路;熟练使用 Ansible 完成批量节点初始化、配置下发与版本升级;编写 Python/Shell 脚本实现自动化部署与巡检,输出部署手册与故障排查指南
  • 中间件部署调优与故障排查:具备 MySQL、Redis、Elasticsearch、Kafka、ZooKeeper、HBase、MinIO 在私有云环境的部署、参数调优与故障排查经验,能独立处理服务启动失败、调用异常、跨版本兼容、性能瓶颈等问题;熟悉 Java 微服务架构,具备服务启动失败与调用异常的独立排查能力
  • AI 模型服务部署与运维:主导衢州市 DeepSeek-R1(671B MoE)政务大模型推理项目,基于 K8s 管理推理容器生命周期,配置资源配额与亲和性调度;部署 Prometheus+Grafana 监控推理吞吐量、首 Token 延迟、NPU 利用率等核心指标,保障推理服务高可用
  • 可观测性体系建设:构建统一监控告警体系,设置 200+ 项告警阈值,覆盖 95% 以上故障场景;部署 ELK 日志平台实现集中采集与异常联动;熟悉 SkyWalking 链路追踪,具备从日志、指标、链路三维度定位问题的实战经验
  • 多云平台技术深度:深度掌握华为云 Stack IaaS/PaaS 全栈,熟悉阿里云、华为云、移动云等公有云平台 IaaS/PaaS 基础服务,具备跨平台方案设计与迁移实施经验

技术能力

  • 容器与编排:Docker、Kubernetes(集群运维/应用部署/Pod 调度/网络策略/存储/日志)、CCE、微服务治理(Istio/Spring Cloud)
  • 中间件运维:MySQL、Redis、Elasticsearch、Kafka、ZooKeeper、HBase、MinIO 的部署、参数调优与故障排查(含跨版本兼容、服务异常、性能问题)
  • 大模型与 AI:ModelArts、MindIE 推理引擎、DeepSeek 大模型部署、昇腾 NPU 调度优化;K8s 管理 LLM/图像模型推理服务容器生命周期
  • 可观测性:Prometheus/Grafana、ELK(日志采集/检索/告警)、SkyWalking(链路追踪)、AOM/APM、ManageOne 云管平台、告警编排
  • 自动化运维:Ansible(批量部署/配置管理/滚动升级)、Python 运维脚本、Shell 脚本、Jenkins、GitLab CI/CD
  • 云计算平台:华为云 Stack(HCS)IaaS/PaaS、OpenStack、KVM 虚拟化、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN;熟悉阿里云、华为云、腾讯云平台产品
  • 数据库:MySQL、PostgreSQL、GaussDB;Redis、Kafka、RocketMQ;MRS(Hadoop/Flink/Elasticsearch)大数据平台
  • 安全防护:vFW/安全组、零信任架构对接、DDoS 防御、等保合规适配
  • 开发能力:Python、Java 企业级应用开发,具备良好 Git 版本控制规范

工作经历

华为技术有限公司 | 技术服务专家 | 2019.08 - 至今 | 杭州

  • 云原生交付与运维体系建设:主导多个政企私有云项目 K8s 集群交付与运维,覆盖容器应用迁移上云、微服务部署、版本升级演进;制定 33 项核心运维流程与 50+ 个标准交付物,构建可观测统一监控体系,设置 200+ 项告警阈值,实现生产变更零事故
  • 自动化运维与脚本开发:使用 Ansible 完成批量节点配置管理与自动化变更,编写 Python/Shell 脚本实现巡检、日志采集与告警联动,输出部署手册与故障排查指南,助力客户从依赖原厂运维转向自主运维能力建设
  • 中间件与应用运维支持:负责客户私有云环境中 MySQL、Redis、Elasticsearch、Kafka 等中间件的部署调优与故障处理,具备 Java 微服务架构下服务异常的独立排查能力
  • IT 架构规划与方案交付:针对区域内大客户业务需求,完成需求调研分析与私有云/行业云解决方案设计,主导完成 50+ 大中型政企云项目从架构设计、POC 验证到实施交付全流程
  • 服务数据运营:基于华为流程 IT 湖仓开发交付项目 DTRB 风险问题看板、ITR 各环节考核指标分析报表,通过邮件/Welink 定期向浙江代表处团队及领导推送,支撑服务部门数据驱动决策与流程优化

杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州

  • 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
  • 设计"硬件+软件+培训"一体化方案,集成边缘计算网关、IoT 平台及行业应用,服务国网、华能等电网客户
  • 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间缩短 40%,故障处理效率大幅提升

浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州

  • 负责 GDW376.1/IEC104 等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至 99%
  • 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能,支持多种工业协议

杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州

  • 基于主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率

核心项目经验

DeepSeek 大模型多机推理项目 | 产品技术经理 | 2025.03

衢州市数据局 DeepSeek-R1(671B MoE)政务部署项目,基于 HCS+ModelArts 架构,在昇腾 910B NPU 集群上完成多机多卡推理交付,是国内较早落地的政务大模型工程化案例。

  • 技术栈:ModelArts、MindIE、DeepSeek-R1/V3、昇腾 910B NPU、Kubernetes、HCCL 通信库、MsModelSlim 量化工具、昇腾 Profiler、Prometheus/Grafana
  • 负责整体交付架构规划设计,规划多机张量并行方案与跨节点 HCCL RDMA 通信链路;协调客户侧资源与内部产品团队,推动昇腾驱动/CANN 版本兼容性问题快速解决
  • 基于 Kubernetes 管理推理服务容器生命周期,配置资源配额与亲和性调度,确保 NPU 资源合理分配;部署 Prometheus+Grafana 监控推理吞吐量、首 Token 延迟、NPU 利用率等核心指标
  • 硬件分批到货期间,先用 W8A8 量化跑通服务保障业务连续性;满配到位后切回 BF16 满血部署,保推理精度
  • 总结大模型政务场景最佳实践,输出公文写作、知识库问答、智能体等核心场景的应用落地方案
  • 成果:衢州市首个满血版 DeepSeek 政务AI项目,推理吞吐量提升约 40%,首 Token 延迟降低约 30%;"衢州 AI"政务助手上线后接入市应急局、公安局、卫健委、教育局、发改委等 13 个政府部门,覆盖公文写作、知识库问答、智能体等核心政务场景

衢州市警务云 HCS | 产品技术经理 | 2024.05

主导衢州警务云(容器+大数据)省市级联贯通项目建设,实现与"浙警智治"2.0 平台全域级联。

  • 技术栈:华为云 ECS/CCE/RDS/OBS、Docker、Kubernetes、MRS(Elasticsearch)、MySQL、零信任认证、数据治理工具、业务总线
  • 主导规划交付云计算中心华为云底座、大数据平台及硬件基础设施;制定容器应用迁移上云方案,使用 Ansible 完成节点批量初始化与配置下发,编写 Shell 脚本自动化部署流程
  • 基于华为 ROMA 平台构建业务总线,实现本地计算、服务、数据资源统一管理;对接奇安信零信任体系完成业务总线自定义鉴权
  • 解决 Elasticsearch 跨版本兼容问题(索引映射冲突),排查 Pod 调度失败、容器网络策略冲突等 K8s 运维问题,保障 ISV 应用容器化上云稳定运行
  • 成果:构建 25 个云服务,完成与浙警智治 2.0 平台全域级联贯通,达成全省资源可见、可管、可调用目标;应用上线周期缩短 50%

衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023.12

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,满足政务业务集约化管理与安全合规要求。

  • 技术栈:政务云 IaaS/PaaS、国产化替代技术、MO 统一监控平台、ELK、Ansible、自动化运维平台、CMDB、ITSM
  • 牵头完成政务云底座新建规划设计,梳理 30+ 项应用改造需求,明确迁移优先级,分批次完成核心政务应用上云部署;使用 Ansible Playbook 实现批量配置管理与自动化变更,编写 Python 脚本完成巡检数据采集与报告生成
  • 构建可观测统一监控体系,设置 200+ 项告警阈值,覆盖 95% 以上故障场景;部署 ELK 日志平台,实现应用日志集中采集与异常告警联动
  • 负责 MySQL、Redis 等中间件在政务云环境的部署调优与故障处理,制定标准化 SOP,输出部署手册与故障排查指南
  • 成果:资源利用效率提升 40%,运维响应速度提高 50%,故障处理时长缩短 60%;支撑 20+ 项政务应用平滑迁移,通过等保测评;运维团队独立完成日常运维任务占比从 30% 提升至 80%

国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10

基于华为云 Stack 解决方案构建电力行业私有云平台,支撑 10+ 部门 500+ 核心业务,涵盖电力物联网能管系统、能源大数据平台等关键业务。

  • 技术栈:HCS8.0X、OpenStack、FusionStorage 分布式存储、SDN 网络、KVM 虚拟化、ManageOne 云管平台、CCE、ROMA Connect、MRS、DWS、MySQL/GaussDB
  • 主导云平台架构设计与组网规划,完成云底座交付与版本演进;推进新业务部署与旧业务平滑迁移
  • 构建统一观测与告警编排体系,推进统一服务治理,提升关键链路稳定性,实现生产变更零事故
  • 成果:资源利用率提升 30%,稳定运行 6000+ 电网业务主机,完成 600+ 问题闭环,实现生产变更零事故

某商业银行华为 HCS 项目 | 产品与技术工程师 | 2021.06

交付落地金融级灾备云架构,完成杭州生产主 Region、开发测试 Region、灾备从 Region 部署,支撑 4 个以上业务部门、80 余个系统、800 余台虚拟机运行。

  • 技术栈:华为 HCS8.0.3、ManageOne、OpenStack、ARM/X86 混合计算架构、OceanStor Pacific 分布式块存储、IPv4+IPv6 双栈网络、KVM 虚拟化、vFW/安全组
  • 参与平台组网设计,规划计算与存储资源分配方案;协助进行资源池容量评估与故障域可靠性分析
  • 参与安全防护体系构建,通过 vFW、安全组实现南北向/东西向访问控制,配合 DDoS 防御与防病毒网关提升安全性
  • 完善运维组织分工与 SOP,部署日志收集、巡检工具,推进节点扩容与版本升级演进
  • 成果:支撑 1000+ 业务虚机稳定运行,重点业务跨 Region 高可用;完善应急预案并开展信息系统切换演练,灾备切换能力通过验证

教育背景

重庆大学 | 本科 | 电气工程及自动化专业

褚成志 · 简历中心