Skip to content

褚成志 | 云计算产品技术经理

联系方式: 13868166992 | 邮箱: livecityccz@163.com | GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz求职意向: 云计算开发 / 运维 | 期望城市: 杭州


核心优势

  • 云计算底层技术:6年华为云技术服务经验,深入理解虚拟化(KVM)、分布式存储(Ceph)、SDN(OVS)、云原生(K8S)底层原理
  • 开发能力:Python运维平台开发经验(Django/Flask),编写过基于Prometheus Python SDK的集群自动化巡检与异常自愈脚本(约1000行),Go可读
  • 全栈运维能力:从IaaS基础设施到PaaS容器中间件,涵盖虚拟化、存储、网络、K8S、监控告警、CI/CD全链路
  • 故障处理能力:独立处理微服务OOM、K8S集群Pod驱逐、Nginx 502、Ceph PG数据不一致等生产故障
  • 快速学习能力:从运维转型测试再转回运维,具备运维与测试双重视角,适应能力强

技术能力

虚拟化:KVM+QEMU+libvirt、virt-install、virt-sysprep、qemu-img、virtio驱动优化、全虚拟化vs半虚拟化 分布式存储:Ceph(MON/OSD/MDS/MGR/RGW)、Ceph PG故障排查、对象存储/块存储/文件存储 SDN网络:OVS(Open vSwitch)、OpenFlow流表、OVS-DPDK、netdev datapath、vhost-user/tap接入 容器编排:Kubernetes集群运维、Deployment/StatefulSet/DaemonSet管理、滚动更新、HPA自动扩缩容 云平台:华为云HCS、OpenStack、阿里云、腾讯云、云主机/云硬盘/VPC管理 监控告警:Prometheus+Grafana+AlertManager、ELK(Filebeat+Logstash+Elasticsearch+Kibana) CI/CD:Jenkins Pipeline、GitLab CI、Ansible自动化部署、Docker镜像构建与管理 编程与脚本:Python(运维平台开发、自动化脚本、Flask/Django)、Shell、Go(可读) 网络:iptables SNAT/DNAT、Nginx正向代理/反向代理、VPC、云专线 Linux基础:文件系统修复、磁盘空间/inode排查、systemd服务管理、内核参数优化


工作经历

华为技术有限公司 | 云计算产品技术经理 | 2019.08 - 至今 | 杭州

  • 统筹区域内华为云Stack云服务产品交付与运维,负责HCS/虚拟化/容器云等IaaS/PaaS云项目解决方案落地
  • 深入实践虚拟化(KVM)、分布式存储(Ceph)、SDN(OVS)、云原生(K8S)底层技术
  • 维护4套K8S集群(40+节点,700~800 Pod),日均接口请求500~800万,高峰QPS 800~1200
  • 使用Python+Django/Flask开发轻量运维平台,对接Ansible/K8S/Jenkins实现页面化操作
  • 编写基于Prometheus Python SDK的集群自动化巡检与异常自愈脚本(约1000行)
  • 7×24小时On-Call,独立处理生产环境故障,从发现到恢复平均10~15分钟

底层技术实践

虚拟化(KVM):KVM本质是全虚拟化(Guest OS无需修改),生产环境结合virtio半虚拟化驱动提升性能(virtio-net网卡比模拟e1000快3~5倍,virtio-blk磁盘IO性能大幅提升);使用virt-install创建虚拟机,virt-sysprep清理镜像,qemu-img压缩镜像;配置virtio驱动、CPU绑定、NUMA亲和性、大页内存。

分布式存储(Ceph):核心组件MON(集群大脑,需奇数个节点)、OSD(实际存储数据)、MDS(CephFS元数据)、MGR(监控指标)、RGW(S3/Swift接口);PG数据不一致排查:ceph health detail → ceph pg query → 定位磁盘硬件问题/节点异常 → ceph pg repair → 确认PG恢复到active+clean;定位故障OSD:ceph osd find → smartctl查看磁盘健康 → 标准更换流程(ceph osd out → 停止OSD → 更换物理磁盘 → 重新初始化)。

SDN网络(OVS):核心组件ovs-vswitchd(用户态主进程)、ovsdb-server(配置数据库)、openvswitch.ko(内核模块);OVS-DPDK模式:DPDK用户态PMD驱动直接接管网卡,完全bypass内核网络栈,上下文切换接近0;KVM+OVS虚拟机网络:libvirt编排 → KVM虚拟机 → vhost-user/tap接入OVS网桥 → OVS根据OpenFlow流表转发。

典型故障处理案例

  1. Ceph PG数据不一致:定位OSD磁盘硬件故障(IO延迟高),执行ceph pg repair修复,更换故障磁盘,观察PG恢复到active+clean
  2. K8S集群大面积Pod驱逐:定位inode耗尽(镜像清理策略缺失+发布频繁),紧急清理无用镜像和孤儿容器,配置kubelet镜像回收阈值
  3. 文件系统损坏无法进入系统:使用系统U盘进入rescue mode,fsck -y /dev/sda1强制修复,重新挂载,备份可读数据

杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州

  • 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
  • 设计"硬件+软件+培训"一体化方案,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
  • 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提升35%

浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州

  • 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至99%
  • 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能,支持多种工业协议

杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州

  • 基于主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
  • 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率

核心项目经验

台州电信政务云平台建设项目 | 云产品与技术专家 | 2025.01

为满足台州大数据局信创及等保合规要求,设计并搭建基于华为云Stack的政务云平台,提供计算、存储、网络等全栈IaaS服务。 技术栈:华为云Stack、鲲鹏服务器、分布式存储(OceanStor Pacific)、KVM虚拟化、VPC、云防火墙、OBS对象存储

  • 主导需求分析与架构交付设计,规划1650核计算资源、4800GB内存及300T对象存储的资源配置
  • 设计单Region多AZ组网方案,通过网闸实现跨区数据安全交换;基于鲲鹏架构搭建服务器集群与分布式存储池
  • 部署三方备份环境与安全防护系统,落实信创及等保合规要求

成果:系统运维效率提升50%,数据交互合规性100%,支撑政务业务稳定运行。

衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023.12

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,满足政务业务集约化管理与安全合规要求。 技术栈:政务云IaaS/PaaS平台、统一监控体系(MO平台)、自动化运维平台、CMDB管理系统、ITSM工具

  • 牵头完成政务云底座新建规划设计,梳理30+项应用改造需求,分批次完成核心政务应用上云部署
  • 搭建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景;制定33项核心运维流程与50+个交付物清单

成果:资源利用效率提升40%,运维响应速度提高50%,故障处理时长缩短60%,成功支撑20+项政务应用平滑迁移。

国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10

基于华为云Stack解决方案构建电力行业私有云平台,完成从8.0.2到8.3.1的版本迭代,部署500PM/5000VM资源池,支撑10+部门500+核心业务。 技术栈:华为云Stack(HCS8.0X)、FusionSphere OpenStack、分布式存储、SDN网络、KVM虚拟化、ManageOne云管平台、容器平台(CCE)

  • 云平台架构设计与组网规划,完成云底座交付与试运行和版本演进;新业务部署与旧业务平滑迁移
  • 搭建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故

成果:资源利用率提升30%,MTTR显著下降,平台支撑48708核私有云算力规模,稳定运行6000+台虚拟机。

某商业银行华为HCS项目 | 产品与技术工程师 | 2021.06

交付落地灾备云架构,完成杭州生产主Region、开发测试Region、灾备从Region部署,支撑4个以上业务部门、80余个系统、800余台虚拟机运行。 技术栈:华为HCS8.0.3云平台、ARM/X86混合计算架构、分布式块存储(华为OceanStor Pacific)、IPv4+IPv6双栈网络、KVM虚拟化、vFW/安全组

  • 参与平台组网设计,规划计算2.3万核vCPU、存储1.81PB块存储、网络资源分配
  • 参与安全防护体系搭建,通过vFW、安全组实现南北向/东西向访问控制
  • 完善运维组织分工与SOP,部署日志收集、巡检工具,推进节点扩容与版本升级演进

成果:支撑1000+业务虚机稳定运行,重点业务跨region高可用,灾备环境可持续运行24小时目标。


教育背景

重庆大学 | 本科 | 电气工程及自动化专业

褚成志 · 简历中心