褚成志简历
联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: 云原生SRE / 基础设施 / AIOps | 期望城市: 杭州
核心优势
- K8s 集群运维与架构优化:华为云原厂 6 年技术服务经验,具备 CCE 及自建 K8s 集群的现网运维经验,熟练掌握 Deployment/StatefulSet/DaemonSet/HPA/RBAC 等核心资源运维管理,累计管理资源池规模超 8000 台服务器;主导多个政企 K8s 集群架构优化与版本演进,实现生产变更零事故
- SRE 故障处理与应急响应:建立"日志→配置→资源→网络→周边依赖"标准排查路径,P1 级故障启动 WarRoom 响应,平均 30 分钟内定位故障方向并止血;主导多 Region/多 AZ 高可用架构设计,建立"切换-回切"标准化演练流程,核心业务未发生任何变更引发的人为故障
- 自动化运维平台建设:熟练使用 Ansible 进行自动化部署与配置管理,具备 Python 运维脚本开发能力;参与 DevOps CI/CD 流水线设计与落地(GitLab CI),推动应用部署自动化率达 90%
- 可观测性体系建设:构建 Prometheus + Grafana + AOM 全栈监控告警体系,实现指标、日志、链路三位一体可观测;具备容量预测、告警降噪优化实践经验,设置 200+ 项告警阈值覆盖主要故障场景
- 云原生化改造支撑:具备物理机服务容器化改造经验(Dockerfile 规范/无状态化/配置外置),熟悉微服务治理与 K8s 网络组件(Calico 等),推进多个政企业务容器化上云
- AIOps 与大模型运维:负责 DeepSeek 等大模型推理环境建设,具备异构算力(GPU/NPU)资源调度优化经验;通过动态批处理、量化推理等手段提升推理性能,具备 AI 基础设施交付和运维经验
技术能力
- 云原生技术:Docker 镜像构建/多阶段构建/Harbor 仓库管理、服务容器化改造(Dockerfile 规范/无状态化改造/配置外置)、Kubernetes 集群部署与运维(Deployment/StatefulSet/DaemonSet/HPA/RBAC)、CCE 容器平台、微服务治理、Calico 网络组件
- SRE 与运维开发:Python 运维脚本开发、Ansible 自动化部署与配置管理、GitLab CI/CD 流水线设计、Jenkins、Shell 脚本
- 可观测性:Prometheus/Grafana 监控告警体系、AOM/APM/ManageOne 全栈可观测、指标/日志/链路三位一体、告警降噪与容量预测
- 云计算平台:华为云 Stack(HCS)IaaS/PaaS 架构设计与运维(专家级,精通底层原理);熟练使用阿里云、腾讯云、OpenStack 等平台;KVM 虚拟化、Ceph/OceanStor 分布式存储、SDN/OVS 网络虚拟化
- AI 与智算技术:大模型训练/推理环境建设、异构算力资源调度(GPU/NPU)、ModelArts 平台、MindIE 推理引擎、DeepSeek 大模型部署与优化
- 代码技术栈:Python、Java、Shell、Golang(熟悉)
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、Gauss 数据库
工作经历
华为技术有限公司 | 技术服务专家(华为云 TD) | 2019.08 - 至今 | 杭州
- K8s 集群运维与架构优化:统筹区域内 CCE 及自建 K8s 集群的现网运维与版本演进,主导多个政企PaaS项目交付及运维,熟悉 CRD/Operator 开发模式;推进业务容器化改造,华为大数据产品兼容问题、高阶服务组件迁移等问题
- SRE 故障处理与变更管控:在华为成熟变更管控体系下,规范 Netcare 平台变更申请,落实 TD+PM 双人复核授权;P1 级故障启动 WarRoom 响应,遵循标准排查路径,平均 30 分钟内定位故障方向并止血;NA 客户核心业务未发生任何变更引发的人为故障
- 自动化运维平台建设:使用 Ansible 进行自动化部署与配置管理,结合 Python 脚本实现批量运维操作;参与 CodeArts DevOps CI/CD 流水线设计与落地,推动应用部署自动化率达 90%
- 可观测性体系建设:构建 ManageOne + APM + AOM + Prometheus + Grafana 全栈可观测平台,实现指标、日志、链路一体监控;交付配置 200+ 项告警阈值,覆盖 95% 以上故障场景
- 高可用架构设计:针对核心业务采用多 Region/多 AZ 架构设计,建立"切换-回切"标准化演练流程;严格落实 IAM 最小权限 + K8s RBAC 分层授权,结合堡垒机实现操作全量留痕
- 客户业务数字化转型:作为 NA 客户业务第一责任人,牵头 SRB、DTRB 技术评审,对齐客户招标需求,前置识别风险并闭环跟踪;成功牵引 30+ 客户上云
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
- 设计"硬件+软件+培训"一体化方案,集成边缘计算网关、IoT 平台及行业应用,服务国网、华能等电网客户
- 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间与故障处理效率显著提升
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责 GDW376.1/IEC104 等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至 99%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能,支持多种工业协议
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
- 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率
核心项目经验
衢州数据局 DeepSeek 大模型多机推理项目 | 产品技术经理 | 2025.03
基于 HCS + ModelArts 架构,完成 DeepSeek-R1 大模型多机推理部署与全链路性能优化,适配昇腾 910 硬件环境,交付政务场景高可用大模型推理服务。
- 技术栈:ModelArts、MindIE、DeepSeek 大模型(R1/V3)、昇腾芯片(NPU)、Kubernetes、Docker、HCCL 通信库、OBS、SWR、昇腾 Profiler
- 主导大模型交付全流程规划,完成 ARM 环境准备、Docker 镜像制作与 SWR 上传、模型权重 OBS 存储配置;修改 MindIE 及模型权重目录 config.json,配置分布式推理参数
- 优化 ModelArts 资源配比,启用芯片亲和性调度;通过动态批处理、W8A8 量化推理、HCCL RDMA 协议启用等手段优化推理性能
- 部署昇腾 Profiler 监控平台,分析算子执行与通信耗时;完成 MA 在线服务与客户侧应用集成对接及 Token 鉴权配置
- 成果:推理吞吐量提升约 40%、首 token 延迟降低约 30%,显存占用显著降低,保障业务零宕机运行,满足政务场景高并发调用需求
台州电信政务云平台建设项目 | 云产品技术负责人 | 2025.01
为满足台州大数据局信创及等保合规要求,设计并交付基于华为云 Stack 的政务云平台,提供计算、存储、网络等全栈 IaaS 服务。
- 技术栈:华为云 Stack、鲲鹏服务器、分布式存储(OceanStor Pacific)、KVM 虚拟化、三层组网、VPC、云防火墙(CFW2.0)、OBS 对象存储
- 主导需求分析与架构交付设计,规划计算、存储、网络资源分配方案
- 设计单 Region 多 AZ 组网方案,通过网闸实现跨区数据安全交换;基于鲲鹏架构部署服务器集群与分布式存储池
- 部署三方备份环境与安全防护系统,落实信创及等保合规要求;制定本地运维方案,配置驻场运维与版本升级服务
- 成果:成功交付符合政务信创标准的云平台,计算资源超分比灵活配置,系统运维效率显著提升,数据交互合规性 100%
第七一五研究所华为云 CodeArts & ROMA 一体化开发平台建设项目 | 产品技术经理 | 2024.08
基于华为云基础设施平台,整合 CodeArts DevOps 工具链与 ROMA 集成能力,打造"研发-集成-部署-运营"全链路数字化开放平台。
- 技术栈:华为云(ECS、RDS、VPC、OBS)、CCE、CodeArts(需求管理、代码托管、流水线等)、ROMA Connect(FDI、MQS、APIC、LINK)
- 主导华为云底座构建与 CodeArts 方案交付,规划云资源架构,构建 DevOps 自动化 CI/CD 链路,支持多形态应用部署
- 定制 CodeArts 分层培训,覆盖开发、测试、运维角色,输出使用指南,实现团队工具链覆盖
- 基于 CodeArts 效能洞察与云监控工具,构建数据跟踪体系,输出优化报告提升工具使用效率
- 成果:研发周期缩短 50%,应用部署自动化率 90%,支持 300+ 人员协同,运维成本大幅降低
衢州市警务云 HCS(容器 + 大数据)| 产品技术经理 | 2024.05
响应"数字中国、智慧警务"战略,主导衢州警务云(容器 + 大数据)省市级联贯通项目建设,构建适配治安管理与民生服务的智慧警务解决方案。
- 技术栈:华为云(ECS、CCE、RDS、OBS)、容器技术、大数据 MRS(Elasticsearch、分布式数据库等)、零信任认证、数据治理工具、业务总线
- 主导规划交付衢州市警务云计算中心华为云底座、大数据平台及硬件基础设施
- 基于华为 ROMA 平台构建业务总线;推进容器应用迁移上云,解决 Elasticsearch 兼容问题
- 对接奇安信零信任体系完成业务总线自定义鉴权,实现省市服务目录同步与鉴权信息互通
- 成果:构建 25 个云服务,实现与浙警智治 2.0 平台级联贯通,数据治理效率提升 60%,应用上线周期缩短 50%
衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,涵盖云底座规划、资源扩容、应用迁移、安全集成与运维能力构建。
- 技术栈:政务云 IaaS/PaaS 平台、国产化替代技术、统一监控体系(MO 平台)、自动化运维平台、CMDB 管理系统、ITSM 工具
- 牵头完成政务云底座新建规划设计,梳理 30+ 项应用改造需求,分批次完成核心政务应用上云部署
- 构建可观测统一监控体系,设置 200+ 项告警阈值;制定 33 项核心运维流程与 50+ 个交付物清单
- 联合安全厂商落地网络安全、虚拟化安全、数据安全等防护措施,通过等保测评
- 成果:资源利用效率提升 40%,运维响应速度提高 50%,故障处理时长缩短 60%,成功支撑 20+ 项政务应用平滑迁移
国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10
基于华为云 Stack 解决方案构建电力行业私有云平台,完成从 8.0.2 到 8.3.1 的版本迭代,部署 500 物理机/5000 虚拟机资源池,支撑 10+ 部门 500+ 核心业务。
- 技术栈:华为云 Stack(HCS8.0X)、FusionSphere OpenStack、分布式存储、SDN 网络、KVM 虚拟化、ManageOne 云管平台、容器平台(CCE)、中间件(DCS、DMS)、数据库 RDS、数仓 DWS、大数据 MRS、数据中台 DGC
- 云平台架构设计与组网规划,完成云底座交付与试运行和版本演进;新业务部署与旧业务平滑迁移
- 构建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
- 成果:资源利用率提升 30%,MTTR 显著下降,平台稳定运行 6000+ 台虚拟机,完成 600+ 问题闭环
某商业银行华为 HCS 项目 | 产品与技术工程师 | 2021.06
交付落地灾备云架构,完成杭州生产主 Region、开发测试 Region、灾备从 Region 部署,支撑 4 个以上业务部门、80 余个系统、800 余台虚拟机运行。
- 技术栈:华为 HCS8.0.3 云平台、ARM/X86 混合计算架构、分布式块存储(华为 OceanStor Pacific)、IPv4+IPv6 双栈网络、KVM 虚拟化、vFW/安全组
- 主导金融级多 Region 灾备架构设计,规划计算与存储资源分配方案;协助进行资源池容量评估与故障域可靠性分析
- 参与安全防护体系构建,通过 vFW、安全组实现南北向/东西向访问控制
- 完善运维组织分工与 SOP,部署日志收集、巡检工具,推进节点扩容与版本升级演进
- 成果:支撑 1000+ 业务虚机稳定运行,重点业务跨 Region 高可用,灾备环境可持续运行 24 小时,大幅提升运维运营韧性
浙能智云私有云建设项目 | 产品与技术工程师 | 2019.12
浙能集团双 Region 华为 HCS 混合云平台一期建设,构建"云网联动"的 IaaS + PaaS,支撑智慧电厂、加油站系统等核心业务云化迁移。
- 技术栈:华为云 Stack、容器技术(CCE)、SDN/VXLAN、基础服务/ROMA/DAYU/MRS/RDS 等云服务、OBS 对象存储
- HCS8.X 平台 LLD 规划,主导华为云技术中台交付;容器迁移中解决高阶服务组件使用难题
- 通过 VRF 实例与虚拟墙实现租户网络隔离;应对两次解决方案跨版本升级变更
- 成果:提前完成基础底座、技术中台交付,支撑核心业务云化迁移,实现租户间隔离,计算、存储、网络全方面云服务化
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
