褚成志简历
联系方式�?* 13868166992 | 邮箱�?* livecityccz@163.com
GitHub�?* https://github.com/initchu | 博客�?* https://www.cnblogs.com/chucz
**求职意向�?* 云原生运维工程师 / 平台稳定�?| *期望城市�? 杭州
核心优势
- **平台稳定性保�?*�?年华为云原厂技术服务经验,作为NA客户业务第一责任人,主导大规模私有云平台的高可用架构设计与稳定性保障,管理资源池规模超8000台服务器,核心业务未发生任何变更引发的人为故�?
- **可观测性体系建�?*:构�?Prometheus/Grafana/ELK 全栈可观测平台,实现指标、日志、链路三位一体监控;设置200+项告警阈值,覆盖95%以上故障场景;P1级故障启动WarRoom响应,平�?0分钟内定位故障方向并止血
- **云原生与容器化运�?*:深度参与多个K8s/CCE容器平台交付与运维,熟悉Kubernetes集群规划、部署、性能调优与安全治理;具备Service Mesh(Istio)、HPA弹性伸缩、RBAC权限管控等核心场景实践经�?
- DevOps与自动化:具备CI/CD流水线设计与落地经验(CodeArts/Jenkins/GitLab CI),掌握Ansible自动化部署与配置管理;具备Python/Shell脚本开发能力,能独立开发运维自动化工具与平台模�?
- **变更管控与容灾演�?*:依�?九要�?三授�?现场四确�?体系规范变更管控,落实双人复核授权;主导多Region/多AZ高可用架构设计,建立"切换-回切"标准化演练流程,持续验证系统容灾能力
技术能�?
- **云原生技�?*:Kubernetes(集群运�?调度策略/安全治理/性能调优)、Docker、Helm(应用包管理)、Service Mesh(Istio)、Harbor、HPA/VPA弹性伸缩、CNI/CSI(网络与存储插件)、了解Operator开发模�?
- **可观测�?*:Prometheus/Grafana监控体系、ELK/Loki日志分析、AOM/APM、Zabbix、告警编排与降噪、全链路追踪;了解ClickHouse日志存储方案
- CI/CD与DevOps:Jenkins、GitLab CI、CodeArts流水线、Ansible自动化部署;了解ArgoCD GitOps模式与IaC基础设施即代码理�?
- **云计算平�?*:华为云Stack(HCS)IaaS/PaaS、OpenStack、KVM虚拟化、分布式存储(OceanStor Pacific/FusionStorage)、SDN/VXLAN网络
- 编程语言:Python(运维脚�?自动化工具开发)、Shell、Java(熟练)、C、Golang(了解)
- **中间件与数据�?*:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、GaussDB、Nginx
工作经历
华为技术有限公�?| 技术服务专家(华为云TD�?| 2019.08 - 至今 | 杭州
作为华为云原厂TD,负责省级电力能源(国网、浙能)、教医行业项目(杭州),深耕金华、衢州、丽水区域政企市场,覆盖电力、政务、安平、大企业等行业,主导50+大中型云项目从方案评审、交付实施到稳定运维的全流程�?
- 稳定性保障与故障响应:建�?日志→配置→资源→网络→周边依赖"标准排查路径,P1级故障启动WarRoom响应,平�?0分钟内定位故障方向;主导多Region/多AZ高可用架构设计,建立标准化切换演练流程,落实TD+PM双人复核变更授权,核心业务未发生变更引发的人为故�?
- **可观测性平台建�?*:构建ManageOne+APM+AOM+Prometheus+Grafana全栈可观测平台,实现指标、日志、链路三位一体监控;设置200+项告警阈值,覆盖95%以上故障场景,推动告警降噪与智能预警
- **容器平台运维与调�?*:主导多个CCE/K8s容器平台交付,推进传统应用容器化迁移;熟悉K8s调度器原理,具备针对业务场景定制调度策略、HPA弹性伸缩、RBAC权限管控的实践经�?
- CI/CD与DevOps落地:主导CodeArts DevOps工具链交付,构建自动化CI/CD流水线,应用部署自动化率�?0%;使用Ansible进行自动化部署与配置管理,减少重复操作,提升运维标准化水�?
杭州中恒云能源互联网技术有限公�?| 解决方案工程�?| 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
- 构建网关设备主动式运维体系,实现设备故障预判与智能调度,运维响应时间缩短40%,故障处理效率提�?5%
浙江新能量科技股份有限公司 | 软件工程�?| 2013.05 - 2017.06 | 杭州
- 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升�?9%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能
杭州新正软件技术有限公�?| 软件工程�?| 2011.01 - 2013.04 | 杭州
- 基于Spring等主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效�?
- 参与制定公司软件开发规范,提升模块代码复用率和团队开发效�?
核心项目经验
衢州数据局DeepSeek大模型多机推理项�?| 技术负责人 | 2025.03
基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,交付政务场景高可用推理服务�?
- 技术栈:ModelArts、MindIE、昇腾NPU、Kubernetes、Docker、HCCL通信库、昇腾Profiler
- 部署昇腾Profiler监控平台,分析算子执行与通信耗时,定位并解决资源调度瓶颈
- 通过动态批处理、W8A8量化推理、HCCL RDMA协议优化推理性能
- 成果:推理吞吐量提升�?0%(达2500 tokens/sec),首token延迟降低�?0%,业务零宕机运行
第七一五研究所CodeArts & ROMA一体化DevOps平台 | 技术负责人 | 2024.08
基于华为云基础设施,整合CodeArts DevOps工具链与ROMA集成能力,打�?研发-集成-部署-运营"全链路数字化平台�?
- 技术栈:华为云(ECS、RDS、VPC、OBS)、CCE、CodeArts(需求管�?代码托管/流水线)、ROMA Connect、Jenkins、GitLab CI
- 主导CI/CD流水线设计与交付,构建自动化构建、测试、部署链路,支持多形态应用部�?
- 基于CodeArts效能洞察构建研发数据跟踪体系,持续优化流水线效率
- 成果:研发周期缩�?0%,应用部署自动化�?0%,支�?00+人员协同,运维成本降�?0%
衢州市政务云国产化改造及上云交付项目 | 技术负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务�?
- 技术栈:政务云IaaS/PaaS、统一监控体系(MO平台)、Ansible自动化运维、CMDB、ITSM
- 构建可观测统一监控体系,设�?00+项告警阈值,覆盖95%以上故障场景
- 制定33项核心运维流程(含事件管理、变更管理、应急管理),建立标准化SOP
- 成果:资源利用效率提�?0%,故障处理时长缩�?0%,成功支�?0+项政务应用平滑迁移,通过等保测评
国网浙江省电力禾城外网云 | 技术负责人 | 2023.10
基于华为云Stack构建电力行业私有云平台,完成8.0.2�?.3.1版本迭代,部�?00PM/5000VM资源池,支撑500+核心业务�?
- 技术栈:华为云Stack(HCS8.0X)、FusionSphere OpenStack、FusionStorage、SDN网络、KVM虚拟化、CCE容器平台、Prometheus/Grafana
- 构建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
- 主导云平台架构设计与版本演进,完成新旧业务平滑迁�?
- 成果:资源利用率提升30%,MTTR显著下降,平台支�?8708核算力、稳定运�?000+台虚拟机
某商业银行华为HCS灾备云项�?| 技术负责人 | 2021.06
交付落地灾备云架构,完成生产/开发测�?灾备三Region部署,支�?0余个系统�?00余台虚拟机运行�?
- 技术栈:华为HCS8.0.3、ARM/X86混合架构、OceanStor Pacific分布式块存储、IPv4+IPv6双栈、KVM虚拟化、vFW/安全�?
- 规划计算2.3万核vCPU、存�?.81PB块存储;完善应急预案并开展信息系统切换演�?
- 成果:支�?000+业务虚机稳定运行,重点业务跨Region高可用,灾备环境可持续运�?4小时
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
