Skip to content
💬 打招呼语

您好,我是褚成志,6年华为云原厂经验,主导交付过DeepSeek-R1大模型多机推理项目,熟悉AI Stack/AI Studio/百炼等大模型平台的日常运维与稳定性保障。具备K8S生产集群运维、Prometheus+ELK可观测性体系建设及重保值班经验,能快速定位推理服务故障,保障业务零宕机运行,期待与您详聊。

褚成志简历

联系方式: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: 大模型交付运维 | 期望城市: 杭州


核心优势

  • 大模型平台交付运维:主导衢州数据局DeepSeek-R1大模型多机推理项目全流程交付,熟悉AI Stack/AI Studio/百炼等大模型服务平台的日常运维,具备模型上架、性能监控、中间件与底层基建监控告警等实战经验
  • K8S集群运维:6年华为云原厂经验,具备华为云CCE及自建K8S集群现网运维经验,管理资源池规模超8000台服务器,熟练处理Pod调度异常、节点NotReady、网络不通等生产故障,具备K8S生产集群部署、调优与故障排查全流程经验
  • 推理系统部署与性能优化:具备DeepSeek等主流大模型的容器化部署与推理调优经验,通过动态批处理、W8A8量化推理、HCCL RDMA协议启用等手段,通过动态批处理、W8A8量化推理、HCCL RDMA协议启用等手段,推理吞吐量提升约40%、首token延迟降低约30%
  • 可观测性体系建设:构建Prometheus+Grafana+ELK全链路监控告警体系,设置200+项告警阈值,覆盖95%以上故障场景;部署昇腾Profiler监控平台,分析算子执行与通信耗时,实现业务零宕机运行
  • Linux运维与自动化:熟练使用Linux命令进行系统管理、日志分析及故障排查,优化CPU/内存/磁盘I/O等资源性能;使用Ansible实现自动化部署与批量运维,编写Python/Shell脚本提升运维效率
  • 应急响应与稳定性保障:参与重保值班,P1级故障启动WarRoom响应,遵循"日志→配置→资源→网络→周边依赖"排查路径,平均30分钟内定位故障方向并止血,服务50+大中型政企云项目零重大事故

技术能力

  • 大模型与AI平台:DeepSeek大模型(R1/V3)部署与推理优化、ModelArts平台、MindIE推理引擎、AI Stack/AI Studio/百炼平台运维、昇腾NPU/GPU异构算力调度、模型量化与推理加速
  • 容器与编排:Kubernetes(Deployment/StatefulSet/DaemonSet/HPA/RBAC)、Docker镜像构建与Harbor仓库管理、CCE容器平台、微服务治理、K8S控制器二次开发
  • 可观测性:Prometheus/Grafana监控体系、ELK日志分析(Elasticsearch/Logstash/Kibana)、昇腾Profiler、AOM/APM、指标/日志/链路三位一体监控、告警编排
  • Linux与自动化:Linux系统运维与性能调优(CPU/内存/磁盘I/O)、Shell脚本、Python运维脚本开发、Ansible自动化部署与配置管理
  • 数据库:MySQL、PostgreSQL、Gauss数据库运行管理与性能优化
  • 云计算平台:华为云Stack(HCS)IaaS/PaaS架构设计与运维(专家级)、OpenStack、KVM虚拟化、SDN网络
  • 中间件:Redis、Kafka、RocketMQ、API网关、HCCL通信库

工作经历

华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州

  • 大模型平台交付运维:主导DeepSeek、华为盘古等大模型的部署与推理优化,具备ModelArts平台、MindIE推理引擎使用经验;负责AI Stack/AI Studio等大模型服务平台的日常运维,处理模型上架、性能监控、推理服务异常等典型问题
  • K8S集群运维与稳定性保障:作为NA客户业务第一责任人,负责区域内多个K8S集群7×24小时稳定性保障,熟练处理Pod调度异常、节点NotReady、OOM等生产故障;构建ManageOne+APM+AOM+Prometheus+Grafana全栈可观测平台,实现指标、日志、链路三位一体监控
  • 应急响应与重保值班:参与重保值班,P1级故障启动WarRoom响应,遵循"日志→配置→资源→网络→周边依赖"排查路径,平均30分钟内定位故障方向并止血;依据"九要素+三授权+现场四确认"变更管控体系,实现生产变更零事故
  • Linux运维与自动化:熟练使用Linux命令进行系统管理、日志分析及故障排查,优化CPU/内存/磁盘I/O等资源性能;使用Ansible实现自动化部署与批量运维,编写Python/Shell脚本提升运维效率
  • 底层基建监控告警:构建统一可观测监控体系,设置200+项告警阈值,覆盖计算、存储、网络及应用性能全维度;严格落实IAM最小权限+K8s RBAC分层授权,结合堡垒机实现操作全量留痕

杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州

  • 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
  • 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间与故障处理效率显著提升

浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州

  • 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至99%
  • 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能

核心项目经验

衢州数据局DeepSeek大模型多机推理项目 | 产品技术经理 | 2025.03

基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,适配昇腾910硬件环境,交付政务场景高可用大模型推理服务,支撑业务稳定调用与高效响应。

  • 技术栈:ModelArts、MindIE、DeepSeek大模型(R1/V3)、昇腾芯片(NPU)、Kubernetes、Docker、HCCL通信库、OBS、SWR、昇腾Profiler
  • 完成ARM环境准备、Docker镜像制作与SWR上传、模型权重OBS存储配置;修改MindIE及模型权重目录config.json,配置分布式推理参数与模型类型兼容
  • 优化ModelArts资源配比(CPU/内存/昇腾芯片),启用芯片亲和性调度;通过动态批处理、W8A8量化推理、HCCL RDMA协议启用等手段优化推理性能
  • 部署昇腾Profiler监控平台,分析算子执行与通信耗时;完成MA在线服务与客户侧应用集成对接及Token鉴权配置
  • 成果:通过动态批处理、量化推理与RDMA通信优化,推理吞吐量提升约40%、首token延迟降低约30%,显存占用显著降低,保障业务零宕机运行,满足政务场景高并发调用需求

衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移负责人 | 2023.12

为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,涵盖云底座规划、资源扩容、应用迁移、安全集成与运维能力构建。

  • 技术栈:政务云IaaS/PaaS平台、统一监控体系(MO平台)、Prometheus/Grafana、ELK、自动化运维平台、CMDB管理系统、ITSM工具
  • 构建可观测统一监控体系,设置200+项告警阈值,覆盖95%以上故障场景;制定33项核心运维流程与50+个交付物清单,含《应急操作手册》等
  • 牵头完成政务云底座新建规划设计,梳理30+项应用改造需求,分批次完成核心政务应用上云部署
  • 联合安全厂商落地网络安全、虚拟化安全、数据安全等防护措施,通过等保测评
  • 成果:资源利用效率提升40%,运维响应速度提高50%,故障处理时长缩短60%,成功支撑20+项政务应用平滑迁移

国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10

基于华为云Stack解决方案构建电力行业私有云平台,部署500PM/5000VM资源池,支撑10+部门500+核心业务。

  • 技术栈:华为云Stack(HCS8.0X)、KVM虚拟化、ManageOne云管平台、容器平台(CCE)、Prometheus/Grafana、中间件(DCS、DMS)、数据库RDS、大数据MRS
  • 云平台架构设计与组网规划,完成云底座交付与版本演进;新业务部署与旧业务平滑迁移
  • 构建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
  • 成果:资源利用率提升30%,MTTR显著下降,平台支撑48708核私有云算力规模,稳定运行6000+台虚拟机

衢州市警务云HCS(容器+大数据)| 产品技术经理 | 2024.05

主导衢州警务云(容器+大数据)省市级联贯通项目建设,构建适配治安管理与民生服务的智慧警务解决方案。

  • 技术栈:华为云(ECS、CCE、RDS、OBS)、Kubernetes、大数据MRS(Elasticsearch、分布式数据库等)、零信任认证、数据治理工具
  • 主导规划交付衢州市警务云计算中心华为云底座、大数据平台及硬件基础设施
  • 推进容器应用迁移上云,解决Elasticsearch兼容问题;对接奇安信零信任体系完成业务总线自定义鉴权
  • 成果:构建25个云服务,实现与浙警智治2.0平台级联贯通,数据治理效率提升60%,应用上线周期缩短50%

某商业银行华为HCS项目 | 产品与技术工程师 | 2021.06

交付落地灾备云架构,支撑4个以上业务部门、80余个系统、800余台虚拟机运行,保障银联前置系统等重点业务稳定运行。

  • 技术栈:华为HCS8.0.3云平台、ARM/X86混合计算架构、分布式块存储(华为OceanStor Pacific)、KVM虚拟化、vFW/安全组、Prometheus监控
  • 参与平台组网设计,规划计算2.3万核vCPU、存储1.81PB块存储、网络资源分配
  • 完善运维组织分工与SOP,部署日志收集、巡检工具,推进节点扩容与版本升级演进
  • 成果:支撑1000+业务虚机稳定运行,重点业务跨region高可用,灾备环境可持续运行24小时

教育背景

重庆大学 | 本科 | 电气工程及自动化专业

褚成志 · 简历中心