褚成志 | 云计算产品技术经理
联系方式: 13868166992 | 邮箱: livecityccz@163.com | GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz求职意向: 云计算开发 / 运维 | 期望城市: 杭州
核心优势
- 云计算底层技术:6年华为云技术服务经验,深入理解虚拟化(KVM)、分布式存储(Ceph)、SDN(OVS)、云原生(K8S)底层原理
- 开发能力:Python运维平台开发经验(Django/Flask),编写过基于Prometheus Python SDK的集群自动化巡检与异常自愈脚本(约1000行),Go可读
- 全栈运维能力:从IaaS基础设施到PaaS容器中间件,涵盖虚拟化、存储、网络、K8S、监控告警、CI/CD全链路
- 故障处理能力:独立处理微服务OOM、K8S集群Pod驱逐、Nginx 502、Ceph PG数据不一致等生产故障
- 快速学习能力:从运维转型测试再转回运维,具备运维与测试双重视角,适应能力强
技术能力
虚拟化:KVM+QEMU+libvirt、virt-install、virt-sysprep、qemu-img、virtio驱动优化、全虚拟化vs半虚拟化 分布式存储:Ceph(MON/OSD/MDS/MGR/RGW)、Ceph PG故障排查、对象存储/块存储/文件存储 SDN网络:OVS(Open vSwitch)、OpenFlow流表、OVS-DPDK、netdev datapath、vhost-user/tap接入 容器编排:Kubernetes集群运维、Deployment/StatefulSet/DaemonSet管理、滚动更新、HPA自动扩缩容 云平台:华为云HCS、OpenStack、阿里云、腾讯云、云主机/云硬盘/VPC管理 监控告警:Prometheus+Grafana+AlertManager、ELK(Filebeat+Logstash+Elasticsearch+Kibana) CI/CD:Jenkins Pipeline、GitLab CI、Ansible自动化部署、Docker镜像构建与管理 编程与脚本:Python(运维平台开发、自动化脚本、Flask/Django)、Shell、Go(可读) 网络:iptables SNAT/DNAT、Nginx正向代理/反向代理、VPC、云专线 Linux基础:文件系统修复、磁盘空间/inode排查、systemd服务管理、内核参数优化
工作经历
华为技术有限公司 | 云计算产品技术经理 | 2019.08 - 至今 | 杭州
- 统筹区域内华为云Stack云服务产品交付与运维,负责HCS/虚拟化/容器云等IaaS/PaaS云项目解决方案落地
- 深入实践虚拟化(KVM)、分布式存储(Ceph)、SDN(OVS)、云原生(K8S)底层技术
- 维护4套K8S集群(40+节点,700~800 Pod),日均接口请求500~800万,高峰QPS 800~1200
- 使用Python+Django/Flask开发轻量运维平台,对接Ansible/K8S/Jenkins实现页面化操作
- 编写基于Prometheus Python SDK的集群自动化巡检与异常自愈脚本(约1000行)
- 7×24小时On-Call,独立处理生产环境故障,从发现到恢复平均10~15分钟
底层技术实践:
虚拟化(KVM):KVM本质是全虚拟化(Guest OS无需修改),生产环境结合virtio半虚拟化驱动提升性能(virtio-net网卡比模拟e1000快3~5倍,virtio-blk磁盘IO性能大幅提升);使用virt-install创建虚拟机,virt-sysprep清理镜像,qemu-img压缩镜像;配置virtio驱动、CPU绑定、NUMA亲和性、大页内存。
分布式存储(Ceph):核心组件MON(集群大脑,需奇数个节点)、OSD(实际存储数据)、MDS(CephFS元数据)、MGR(监控指标)、RGW(S3/Swift接口);PG数据不一致排查:ceph health detail → ceph pg query → 定位磁盘硬件问题/节点异常 → ceph pg repair → 确认PG恢复到active+clean;定位故障OSD:ceph osd find → smartctl查看磁盘健康 → 标准更换流程(ceph osd out → 停止OSD → 更换物理磁盘 → 重新初始化)。
SDN网络(OVS):核心组件ovs-vswitchd(用户态主进程)、ovsdb-server(配置数据库)、openvswitch.ko(内核模块);OVS-DPDK模式:DPDK用户态PMD驱动直接接管网卡,完全bypass内核网络栈,上下文切换接近0;KVM+OVS虚拟机网络:libvirt编排 → KVM虚拟机 → vhost-user/tap接入OVS网桥 → OVS根据OpenFlow流表转发。
典型故障处理案例:
- Ceph PG数据不一致:定位OSD磁盘硬件故障(IO延迟高),执行ceph pg repair修复,更换故障磁盘,观察PG恢复到active+clean
- K8S集群大面积Pod驱逐:定位inode耗尽(镜像清理策略缺失+发布频繁),紧急清理无用镜像和孤儿容器,配置kubelet镜像回收阈值
- 文件系统损坏无法进入系统:使用系统U盘进入rescue mode,fsck -y /dev/sda1强制修复,重新挂载,备份可读数据
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
- 设计"硬件+软件+培训"一体化方案,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
- 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提升35%
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至99%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能,支持多种工业协议
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
- 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率
核心项目经验
台州电信政务云平台建设项目 | 云产品与技术专家 | 2025.01
为满足台州大数据局信创及等保合规要求,设计并搭建基于华为云Stack的政务云平台,提供计算、存储、网络等全栈IaaS服务。 技术栈:华为云Stack、鲲鹏服务器、分布式存储(OceanStor Pacific)、KVM虚拟化、VPC、云防火墙、OBS对象存储
- 主导需求分析与架构交付设计,规划1650核计算资源、4800GB内存及300T对象存储的资源配置
- 设计单Region多AZ组网方案,通过网闸实现跨区数据安全交换;基于鲲鹏架构搭建服务器集群与分布式存储池
- 部署三方备份环境与安全防护系统,落实信创及等保合规要求
成果:系统运维效率提升50%,数据交互合规性100%,支撑政务业务稳定运行。
衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移专家 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,满足政务业务集约化管理与安全合规要求。 技术栈:政务云IaaS/PaaS平台、统一监控体系(MO平台)、自动化运维平台、CMDB管理系统、ITSM工具
- 牵头完成政务云底座新建规划设计,梳理30+项应用改造需求,分批次完成核心政务应用上云部署
- 搭建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景;制定33项核心运维流程与50+个交付物清单
成果:资源利用效率提升40%,运维响应速度提高50%,故障处理时长缩短60%,成功支撑20+项政务应用平滑迁移。
国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10
基于华为云Stack解决方案构建电力行业私有云平台,完成从8.0.2到8.3.1的版本迭代,部署500PM/5000VM资源池,支撑10+部门500+核心业务。 技术栈:华为云Stack(HCS8.0X)、FusionSphere OpenStack、分布式存储、SDN网络、KVM虚拟化、ManageOne云管平台、容器平台(CCE)
- 云平台架构设计与组网规划,完成云底座交付与试运行和版本演进;新业务部署与旧业务平滑迁移
- 搭建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
成果:资源利用率提升30%,MTTR显著下降,平台支撑48708核私有云算力规模,稳定运行6000+台虚拟机。
某商业银行华为HCS项目 | 产品与技术工程师 | 2021.06
交付落地灾备云架构,完成杭州生产主Region、开发测试Region、灾备从Region部署,支撑4个以上业务部门、80余个系统、800余台虚拟机运行。 技术栈:华为HCS8.0.3云平台、ARM/X86混合计算架构、分布式块存储(华为OceanStor Pacific)、IPv4+IPv6双栈网络、KVM虚拟化、vFW/安全组
- 参与平台组网设计,规划计算2.3万核vCPU、存储1.81PB块存储、网络资源分配
- 参与安全防护体系搭建,通过vFW、安全组实现南北向/东西向访问控制
- 完善运维组织分工与SOP,部署日志收集、巡检工具,推进节点扩容与版本升级演进
成果:支撑1000+业务虚机稳定运行,重点业务跨region高可用,灾备环境可持续运行24小时目标。
教育背景
重庆大学 | 本科 | 电气工程及自动化专业