其他企业 信息传输、软件和信息技术服务业 50人以下 北京市海淀区
面议 北京市海淀区 全职 本科及以上 2人 2026-12-31
2026-03-13 10:22:49
(一)岗位职责
(1)负责 0.6B–8B 规模大模型的训练、微调与评测,包括指令微调(SFT)和对齐(RLHF/DPO),在真实业务场景中构建训练数据与任务体系;
(2)参与模型结构与训练策略优化,包括 Tokenizer、Attention 结构、长上下文处理、推理优化等方向,提升模型在特定任务中的效果与效率;应用如Linear Attention、Engram等新型模型技术训练方案;
(3)与工程团队协作,利用量化、剪枝、蒸馏等技术优化模型负载,根据计算流程具体优化算子/模型结构;
(4)跟踪大模型与 AI 对齐前沿进展,沉淀为技术报告、实验记录或可复用代码模块,并参与论文、专利或开源项目的撰写与发布。
(二)任职要求
(1)优秀的本科及以上应届毕业生或青年工程师,计算机/人工智能/数学/物理/电子等相关方向;具备良好的技术表达能力:能阅读英文论文、撰写实验报告并实现可复现代码;
(2)扎实的机器学习与深度学习基础,熟悉 Transformer 架构及主流大模型(LLaMA/Qwen等)的训练或推理机制;
(3)熟练使用 Python,具备 PyTorch 训练开发经验,深入理解 Transformer 架构及常见 LLM 的内部原理,具备大模型微调项目经验,熟悉 HuggingFace 生态;
(4)了解大模型微调与推理优化方法,如 LoRA/QLoRA、蒸馏、量化、推理加速、长上下文优化等,对模型部署和系统性能有基本理解。
(三)加分项
(1)具备0.5B–3B小规模大模型训练或高效微调经验,能够在有限算力下优化模型效果与推理效率;具备端侧模型部署经验;
(2)具有 Linear/Hybrid Attention(如 RWKV, Mamba, Deltanet等)微调或结构优化实战经验;
(3)在 NeurIPS/ICML/ICLR/ACL/CVPR等会议发表或在投论文,或拥有高质量开源项目、技术博客或竞赛成果。
职位类别:计算机软、硬件/互联网/IT
专业要求:工学,理学
招聘链接:https://app.mokahr.com/campus-recruitment/hanxu/144645?locale=zh-CN#/
请稍候...