褚成志简历
电话: 13868166992 | 邮箱: livecityccz@163.com
GitHub: https://github.com/initchu | 博客: https://www.cnblogs.com/chucz
求职意向: AI技术解决方案 / 智算产品支撑| 期望城市: 杭州
核心优势
- AI基础设施交付经验:负责政府、电力行业多个华为云大模型项目,在AI训练/推理环境建设、异构算力资源调度优化(GPU/CPU/NPU)方面具备完整交付经验,熟悉昇腾芯片与MindIE推理引擎的生产级部署
- 大模型部署与调优:具备DeepSeek等主流大模型的容器化部署与性能调优经验,涵盖Dockerfile编写、镜像优化、Nginx反向代理及推理服务稳定性保障,能独立交付生产级AI推理环境
- 华为云PaaS平台专家:作为华为原厂TD,精通华为云HCS PaaS层架构与底层原理,涵盖CCE容器平台、ModelArts、中间件及数据库组件的运维调优,累计管理资源池规模超8000台服务器
- 售前方案与技术支撑:6年华为云技术服务经验,累计服务50+大中型政企云项目,独立输出AI解决方案技术建议书,协同产品经理完成SRB/DTRB评审及配置报价,具备从客户需求对接到方案落地的全流程能力
- 异构算力调度能力:熟悉GPU/NPU/CPU混合算力资源池的调度与优化策略,具备基于K8S的AI工作负载编排与资源隔离实践经验
- 云厂商认证:华为云专家级,精通华为云架构与底层原理;熟练使用阿里云、腾讯云等主流云平台
技术能力
- AI与智算技术:大模型训练/推理环境建设、异构算力资源调度(GPU/CPU/NPU)、ModelArts平台、MindIE推理引擎、昇腾芯片、DeepSeek大模型部署与优化
- 智能体开发平台:了解AI智能体开发平台部署逻辑,具备知识库调优能力
- 云原生技术:Docker镜像构建/多阶段构建/Harbor仓库管理、物理机服务容器化改造(Dockerfile规范/无状态化改造/配置外置)、Kubernetes集群部署与运维(Deployment/StatefulSet/DaemonSet/HPA/RBAC)、CCE容器平台、微服务治理
- 环境构建与维护:Nginx反向代理与负载均衡、Linux系统运维、自动化部署(Ansible)
- 云计算平台:华为云Stack(HCS)IaaS/PaaS架构设计与运维(专家级,精通底层原理);熟练使用阿里云、腾讯云、OpenStack等平台
- 开发技术栈:Java(Spring/SpringBoot/MyBatis)、Python(数据处理、运维脚本)、Shell、Golang(了解)
- 数据中心运维:算力集群部署、资源池管理、监控告警体系(Prometheus/Grafana)、故障排查与性能优化
- 中间件与数据库:Redis、Kafka、RocketMQ、MySQL、PostgreSQL、Gauss数据库
工作经历
华为技术有限公司 | 技术服务专家(华为云TD) | 2019.08 - 至今 | 杭州
- AI与智算技术实践:负责DeepSeek、华为盘古等大模型的部署与推理优化,具备ModelArts平台、MindIE推理引擎使用经验;优化GPU/CPU/NPU等异构算力资源调度,提升算力利用率;通过动态批处理、量化推理、通信协议优化等手段提升大模型推理性能
- 作为NA客户业务第一责任人,牵头组织SRB、DTRB技术评审,对齐客户招标需求,把关组网架构、版本能力及服务投入,前置识别风险并闭环跟踪
- 依据"九要素+三授权+现场四确认"变更管控体系,规范ASP和合作伙伴在Netcare平台的变更申请,落实TD+PM双人复核授权;突发事故按"客户、产品、时间、影响、级别"五要素快速拉群通报,事后复盘闭环
- 针对核心业务采用多Region/多AZ架构设计,建立"切换-回切"标准化演练流程,NA客户核心业务未发生任何变更引发的人为故障
- 构建ManageOne+APM+AOM+Prometheus+Grafana全栈可观测平台,实现指标、日志、链路三位一体监控;P1级故障启动WarRoom响应,遵循"日志→配置→资源→网络→周边依赖"排查路径,平均30分钟内定位故障方向并止血
- 严格落实IAM最小权限+K8s RBAC分层授权,结合堡垒机实现操作全量留痕;依托ecare、eisdp系统建立备件与资产台账,通过ITR/CS/SD流程整合合作伙伴资源,保障交付到运维的服务一致性
杭州中恒云能源互联网技术有限公司 | 解决方案工程师 | 2017.06 - 2019.06 | 杭州
- 参与能源互联网平台产品设计、数据采集组网、模块选型和协议开发对接,支撑电网、发电企业安全生产提效降本
- 设计"硬件+软件+培训"一体化方案,集成边缘计算网关、IoT平台及行业应用,服务国网、华能等电网客户
- 构建网关设备主动式运维,实现设备故障预判与智能调度,运维响应时间与故障处理效率显著提升
浙江新能量科技股份有限公司 | 软件工程师 | 2013.05 - 2017.06 | 杭州
- 负责GDW376.1/IEC104等电力行业通信规约的嵌入式开发调试,优化协议解析引擎性能,数据传输成功率提升至99%
- 设计低功耗、高可靠嵌入式网关设备,实现传感器数据采集、规约转换及边缘计算功能,支持多种工业协议
杭州新正软件技术有限公司 | 软件工程师 | 2011.01 - 2013.04 | 杭州
- 基于主流框架开发企业级应用模块,优化权限控制和数据库查询性能,提升业务接口响应效率
- 参与制定公司软件开发规范,提升模块代码复用率和团队开发效率
核心项目经验
衢州数据局DeepSeek大模型多机推理项目 | 产品技术经理 | 2025.03
基于HCS+ModelArts架构,完成DeepSeek-R1大模型多机推理部署与全链路性能优化,适配昇腾910硬件环境,交付政务场景高可用大模型推理服务。
技术栈:ModelArts、MindIE、DeepSeek大模型(R1/V3)、昇腾芯片(NPU)、Kubernetes、Docker、HCCL通信库、OBS、SWR、昇腾Profiler
完成ARM环境准备、Docker镜像制作与SWR上传、模型权重OBS存储配置;修改MindIE及模型权重目录config.json,配置分布式推理参数
优化ModelArts资源配比(CPU/内存/昇腾芯片),启用芯片亲和性调度;通过动态批处理、W8A8量化推理、HCCL RDMA协议启用等手段优化推理性能
部署昇腾Profiler监控平台,分析算子执行与通信耗时;完成MA在线服务与客户侧应用集成对接及Token鉴权配置
成果:通过动态批处理、量化推理与RDMA通信优化,推理吞吐量提升约40%、首token延迟降低约30%,显存占用显著降低,保障业务零宕机运行,满足政务场景高并发调用需求。
台州电信政务云平台建设项目 | 云产品技术负责人 | 2025.01
为满足台州大数据局信创及等保合规要求,设计并交付基于华为云Stack的政务云平台,提供计算、存储、网络等全栈IaaS服务。
技术栈:华为云Stack、鲲鹏服务器、分布式存储(OceanStor Pacific)、KVM虚拟化、三层组网、VPC、云防火墙(CFW2.0)、OBS对象存储
主导需求分析与架构交付设计,规划1650核计算资源、4800GB内存及300T对象存储的资源配置
设计单Region多AZ组网方案,通过网闸实现跨区数据安全交换;基于鲲鹏架构部署服务器集群与分布式存储池
部署三方备份环境与安全防护系统,落实信创及等保合规要求;制定本地运维方案,配置驻场运维与版本升级服务
成果:计算资源超分比灵活配置(最大3倍),存储可用容量达352T,系统运维效率显著提升,数据交互合规性100%。
第七一五研究所华为云CodeArts & ROMA一体化开发平台建设项目 | 产品技术经理 | 2024.08
基于华为云基础设施平台,整合CodeArts DevOps工具链与ROMA集成能力,打造"研发-集成-部署-运营"全链路数字化开放平台。
技术栈:华为云(ECS、RDS、VPC、OBS)、CCE、CodeArts(需求管理、代码托管、流水线等)、ROMA Connect(FDI、MQS、APIC、LINK)
主导华为云底座构建与CodeArts方案交付,规划云资源架构,构建DevOps自动化CI/CD链路,支持多形态应用部署
定制CodeArts分层培训,覆盖开发、测试、运维角色,输出使用指南,实现团队工具链覆盖
成果:研发周期缩短50%,应用部署自动化率90%,支持300+人员协同,运维成本大幅降低。
衢州市警务云HCS(容器+大数据)| 产品技术经理 | 2024.05
响应"数字中国、智慧警务"战略,主导衢州警务云(容器+大数据)省市级联贯通项目建设,构建适配治安管理与民生服务的智慧警务解决方案。
技术栈:华为云(ECS、CCE、RDS、OBS)、容器技术、大数据MRS(Elasticsearch、分布式数据库等)、零信任认证、数据治理工具、业务总线
主导规划交付衢州市警务云计算中心华为云底座、大数据平台及硬件基础设施
基于华为ROMA平台构建业务总线;推进容器应用迁移上云,解决Elasticsearch兼容问题
对接奇安信零信任体系完成业务总线自定义鉴权,实现省市服务目录同步与鉴权信息互通
成果:构建25个云服务,实现与浙警智治2.0平台级联贯通,数据治理效率提升60%,应用上线周期缩短50%。
衢州市政务云国产化改造及上云交付项目 | 核心交付/迁移负责人 | 2023.12
为衢州市政务云提供国产化改造、上云交付及运维体系建设全流程服务,涵盖云底座规划、资源扩容、应用迁移、安全集成与运维能力构建。
技术栈:政务云IaaS/PaaS平台、国产化替代技术、统一监控体系(MO平台)、自动化运维平台、CMDB管理系统、ITSM工具
牵头完成政务云底座新建规划设计,梳理30+项应用改造需求,分批次完成核心政务应用上云部署
构建可观测统一监控体系,设置200+项告警阈值;制定33项核心运维流程与50+个交付物清单
联合安全厂商落地网络安全、虚拟化安全、数据安全等防护措施,通过等保测评
成果:资源利用效率提升40%,运维响应速度显著提升,故障处理时长大幅缩短,成功支撑20+项政务应用平滑迁移。
国网浙江省电力禾城外网云 | 产品技术经理 | 2023.10
基于华为云Stack解决方案构建电力行业私有云平台,完成从8.0.2到8.3.1的版本迭代,部署500PM/5000VM资源池,支撑10+部门500+核心业务。
技术栈:华为云Stack(HCS8.0X)、FusionSphere OpenStack、分布式存储、SDN网络、KVM虚拟化、ManageOne云管平台、容器平台(CCE)、中间件(DCS、DMS)、数据库RDS、数仓DWS、大数据MRS、数据中台DGC
云平台架构设计与组网规划,完成云底座交付与试运行和版本演进;新业务部署与旧业务平滑迁移
构建统一观测与告警编排体系,推进统一服务治理,实现生产变更零事故
成果:资源利用率提升30%,MTTR显著下降,平台支撑48708核私有云算力规模,稳定运行6000+台虚拟机。
某商业银行华为HCS项目 | 产品与技术工程师 | 2021.06
交付落地灾备云架构,完成杭州生产主Region、开发测试Region、灾备从Region部署,支撑4个以上业务部门、80余个系统、800余台虚拟机运行。
技术栈:华为HCS8.0.3云平台、ARM/X86混合计算架构、分布式块存储(华为OceanStor Pacific)、IPv4+IPv6双栈网络、KVM虚拟化、vFW/安全组
参与平台组网设计,规划计算2.3万核vCPU、存储1.81PB块存储、网络资源分配
参与安全防护体系构建,通过vFW、安全组实现南北向/东西向访问控制
完善运维组织分工与SOP,部署日志收集、巡检工具,推进节点扩容与版本升级演进
成果:支撑1000+业务虚机稳定运行,重点业务跨region高可用,灾备环境可持续运行24小时目标。
浙能智云私有云建设项目 | 产品与技术工程师 | 2019.12
浙能集团双Region华为HCS混合云平台一期建设,构建"云网联动"的IaaS+PaaS,支撑智慧电厂、加油站系统等核心业务云化迁移。
技术栈:华为云Stack、容器技术(CCE)、SDN/VXLAN、基础服务/ROMA/DAYU/MRS/RDS等云服务、OBS对象存储
HCS8.X平台LLD规划,主导技术中台、数据中台交付;容器迁移中解决高阶服务组件使用难题
通过VRF实例与虚拟墙实现租户网络隔离;应对两次解决方案跨版本升级变更
成果:提前完成基础底座、技术中台、数据中台交付,支撑核心业务云化迁移,实现租户间隔离,计算、存储、网络全维度云服务化。
教育背景
重庆大学 | 本科 | 电气工程及自动化专业
