浙江省健康云有限公司

国有企业 信息传输、软件和信息技术服务业 浙江省杭州市

招聘信息

  • AI运维工程师

    9000-10000 浙江省杭州市 全职 本科及以上 1人 2026-06-30

    收藏

    2026-03-18 13:28:21

    职位描述

    职位职责:
    1. 负责健康云大模型训练/推理算力集群的日常运维与稳定性保障,涵盖GPU服务器、分布式存储等硬件资源,落实7x24小时业务连续性要求,快速响应算力故障并推动根因闭环。
    2. 参与算力集群自动化运维体系搭建,基于Python/Go脚本开发运维工具,实现算力调度、资源监控、故障自愈的自动化落地,提升算力交付效率。
    3. 协同业务优化算力资源配置,开展GPU集群性能调优,监控显存占用、算力利用率等核心指标,保障大模型训练任务高效推进,降低算力成本。
    4. 参与OPS体系构建,对接模型训练平台,实现模型训练、部署全流程的运维支撑与标准化管理,沉淀算力运维最佳实践。
    5. 跟踪算力调度、AI运维领域技术趋势,探索大模型运维智能化方案,参与算力集群扩容、架构迭代等核心项目。
    职位要求:
    1. 计算机科学与技术、人工智能、软件工程、云计算等相关专业;熟悉Linux操作系统(CentOS、Ubuntu),具备系统配置、性能调优、故障排查能力,掌握至少一门脚本语言(Python/Go等)。
    2. 了解大模型基础概念与训练/推理流程,对GPU硬件特性、分布式算力调度有基础认知,熟悉主流AI框架(TensorFlow/PyTorch等)。
    3. 具备扎实的计算机网络基础,精通TCP/IP协议,了解分布式系统原理,能配合团队排查跨节点通信故障。
    4. 英语CET-4及以上,具备良好的英文技术文档读写能力,能高效对接跨团队技术沟通。
    5. 具备强烈的自驱力、探索欲与抗压能力,善于独立思考,能快速适应AI算力运维的业务场景。加分项
    1. 持有阿里云ACP、华为云HCIA/HCIP(AI/云计算方向)、NVIDIA相关认证者优先。
    2. 有GPU集群运维、大模型训练支撑、MLOps相关实习或项目经历,参与过开源AI项目贡献者优先。
    3. 熟悉容器技术(Docker、Kubernetes),有容器化AI平台运维经验,掌握Prometheus/Grafana监控工具者优先。
    4. 在AI运维、分布式算力调度相关科研项目或编程竞赛中取得优异成果者优先。

    职位类别:计算机软、硬件/互联网/IT

    专业要求:工学

单位简介

浙江省健康云有限公司是世界500强杭钢集团“数字科技”板块核心企业,承担浙江健康云“1+11”部署的建设和运营。公司以健康云投建运管为核心支撑,聚焦人工智能+医疗、数据要素×医疗、医疗信创三大创新驱动,为卫健部门、医疗机构及生态伙伴提供“云、网、脑、数”一体化服务。同时,依托国家人工智能应用中试基地(医疗),以高性能AI算力赋能医疗健康与医学科研,助力医疗卫生事业高质量数字化转型。

联系方式

  • 联系人:刘艳
  • 联系电话:58112239
  • 电子邮箱:liuyan@hzsteel.com
  • 传真:

公司地址

  • 地址:浙江省杭州市
  • 邮编:

请稍候...