Skip to content

褚成志 | 云计算产品技术经理

联系方式: 13868166992 | 邮箱: livecityccz@163.com | GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz求职意向: 云计算运维 | 期望城市: 杭州


核心优势

  • 容器化迁移方案设计:主导物理机服务容器化改造,制定迁移标准和优先级矩阵(有无状态、改造复杂度、业务重要程度、扩容需求强度),分阶段灰度迁移,性能基线验证
  • 可观测性体系建设:从零搭建Prometheus+Grafana+ELK+SkyWalking全链路可观测性体系,实现从指标、日志到链路追踪的完整覆盖,故障平均发现时间从15分钟降至3分钟
  • 服务假死告警机制:设计黑盒探测+Readiness Probe+业务指标的多层告警体系,覆盖K8S探针层和业务指标层,确保服务假死场景下快速发现
  • 金融业务运维经验:6年华为云技术服务经验,负责电力、政务、金融等行业云平台运维,熟悉合规要求、SLA保障、审计日志
  • 故障处理能力:独立处理微服务OOM、K8S集群Pod驱逐、Nginx 502等生产故障,从发现到恢复平均10~15分钟

技术能力

容器编排:Kubernetes集群运维、Deployment/StatefulSet/DaemonSet管理、滚动更新、金丝雀发布、HPA自动扩缩容 CI/CD:Jenkins Pipeline、GitLab CI、Ansible自动化部署、Docker镜像构建与管理、Harbor镜像仓库 可观测性:Prometheus+Grafana+AlertManager、ELK(Filebeat+Logstash+Elasticsearch+Kibana)、SkyWalking链路追踪、黑盒探测(Blackbox Exporter) 云平台:华为云HCS、阿里云、腾讯云、OpenStack、KVM虚拟化、云主机/云硬盘/VPC管理 网络与负载均衡:Nginx反向代理与优化、Ingress七层路由、Service负载均衡、iptables/OVS 编程与脚本:Python(运维平台开发、自动化脚本)、Shell、Go(可读) 中间件与数据库:Redis、Kafka、RocketMQ、MySQL主从复制与优化、PostgreSQL 存储:Ceph分布式存储、对象存储/块存储/文件存储、PVC/StorageClass


工作经历

华为技术有限公司 | 云计算产品技术经理 | 2019.08 - 至今 | 杭州

  • 统筹区域内华为云Stack云服务产品交付与运维,负责HCS/虚拟化/容器云等IaaS/PaaS云项目解决方案落地
  • 维护4套K8S集群(生产环境2套,测试/预发环境各1套),管理40+节点、700~800 Pod,保障日均500~800万接口请求稳定运行
  • 主导物理机服务容器化改造,制定迁移标准和优先级矩阵,分阶段灰度迁移,性能基线验证
  • 从零搭建Prometheus+Grafana+ELK+SkyWalking全链路可观测性体系,实现从指标、日志到链路追踪的完整覆盖
  • 设计黑盒探测+Readiness Probe+业务指标的多层告警机制,覆盖服务假死场景
  • 7×24小时On-Call,独立处理生产环境故障,从发现到恢复平均10~15分钟

容器化迁移方案:调研评估服务清单(语言类型、端口依赖、服务状态、中间件依赖)→ 统一Dockerfile规范(分层构建、最小镜像)、K8S资源规范(resources.requests/limits、健康检查)→ 搭建Harbor镜像仓库(权限管控+镜像扫描)→ 优先迁移无状态服务,延后迁移有状态服务 → CI/CD接入(代码提交→Jenkins→Docker Build→推送Harbor→kubectl apply→readinessProbe就绪检查→流量切换→一键回滚)

可观测性体系:Metrics(Prometheus+Grafana+AlertManager,采集CPU/内存/磁盘/网络/容器/业务指标)→ Logs(ELK Stack,Filebeat→Kafka→Logstash→ES→Kibana)→ Traces(SkyWalking,全链路追踪,通过Trace ID关联日志、指标、调用链路)→ 告警响应(Prometheus→AlertManager→企微/短信/电话→Grafana大盘→Kibana日志→SkyWalking链路→定位根因→复盘)

服务假死告警:K8S探针层(readinessProbe失败→Pod从Service端点剔除;livenessProbe失败→容器重启;Endpoint数量降为0→触发告警)+ 业务指标层(QPS骤降为0;成功率大幅下降;502/503突增;响应时间超SLA阈值;Blackbox Exporter主动HTTP探测,probe_success==0触发告警)

典型故障处理案例

  1. 微服务OOM导致C端接口大面积超时:晚高峰期某微服务大量Pod频繁重启,通过Prometheus监控定位内存泄漏+无资源限制配置,临时扩容副本数止血,回滚镜像恢复业务,后续加固JVM参数、内存Limit、HPA策略
  2. K8S集群大面积Pod驱逐:多节点NotReady,定位inode耗尽(镜像清理策略缺失+发布频繁),紧急清理无用镜像和孤儿容器,配置kubelet镜像回收阈值,完善inode监控告警
  3. Nginx 502+TCP连接队列溢出:业务大量502,定位HTTP连接未复用(短连接风暴),扩容副本数+调整内核参数+开启Nginx长连接,推动研发修复连接池配置

杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州

  • 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
  • 设计"硬件+软件+培训"一体化方案,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
  • 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提升35%

浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州

  • 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至99%
  • 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能,支持多种工业协议

杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州

  • 基于主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
  • 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率

核心项目经验

衢州数据局DeepSeek大模型多机推理项目 | 产品技术经理 | 2025.03

基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,适配昇腾910硬件环境,搭建政务场景高可用大模型推理服务。 技术栈:ModelArts、MindIE、DeepSeek大模型、昇腾芯片、Kubernetes、Docker、HCCL通信库、OBS、SWR

  • 主导大模型交付全流程规划,ARM环境准备、镜像制作与SWR上传、模型权重OBS存储配置
  • 优化ModelArts资源配比(CPU/内存/昇腾芯片),启用芯片亲和性调度;通过动态批处理、W8A8量化推理、HCCL RDMA协议启用等手段优化推理性能
  • 搭建昇腾Profiler监控平台,分析算子执行与通信耗时

成果:4节点集群推理吞吐量提升至2500 tokens/sec,显存占用降低,保障业务零宕机运行。

台州电信政务云平台建设项目 | 云产品与技术专家 | 2025.01

为满足台州大数据局信创及等保合规要求,设计并搭建基于华为云Stack的政务云平台,提供计算、存储、网络等全栈IaaS服务。 技术栈:华为云Stack、鲲鹏服务器、分布式存储(OceanStor Pacific)、KVM虚拟化、VPC、云防火墙、OBS对象存储

  • 主导需求分析与架构交付设计,规划1650核计算资源、4800GB内存及300T对象存储的资源配置
  • 设计单Region多AZ组网方案,通过网闸实现跨区数据安全交换;部署三方备份环境与安全防护系统,落实信创及等保合规要求

成果:系统运维效率提升50%,数据交互合规性100%,支撑政务业务稳定运行。

衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023.12

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,满足政务业务集约化管理与安全合规要求。 技术栈:政务云IaaS/PaaS平台、统一监控体系(MO平台)、自动化运维平台、CMDB管理系统、ITSM工具

  • 牵头完成政务云底座新建规划设计,梳理30+项应用改造需求,分批次完成核心政务应用上云部署
  • 搭建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景;制定33项核心运维流程与50+个交付物清单

成果:资源利用效率提升40%,运维响应速度提高50%,故障处理时长缩短60%,成功支撑20+项政务应用平滑迁移。


教育背景

重庆大学 | 本科 | 电气工程及自动化专业

褚成志 · 简历中心