点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
工作研究内容
多模态大模型研究与设计:负责设计和实现领先的具身多模态大模型,并探索其在自动驾驶和通用机器人领域的统一应用潜力。 多模态理解与空间感知:多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。 语义推理与决策优化:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理,生成安全、合理、可解释的行动序列。 强化学习与模仿学习:深入研究强化学习(RL)、模仿学习(IL) 及自监督学习方法,使模型能从海量数据和与环境的交互中持续学习和进化。 发表顶级论文:在CVPR、ICCV、ECCV、ICML、NeurIPS、ICLR、CoRL等顶级会议上发表高水平论文。
职位要求
候选人需在以下一个或多个领域具备深入的研究和实践经验:
编程与算法能力:精通Python,熟练使用至少一种主流深度学习框架(优先考虑PyTorch)。具备强大的算法设计与实现能力,能够处理大规模数据并高效进行模型训练。 多模态大模型:深入理解视觉语言模型(VLM)和视觉-语言-行动模型(VLA),具备从零到一构建或优化这些模型的实践经验。 具身智能与自动驾驶:优先考虑有复现具身智能和自动驾驶相关视觉语言模型(VLM)和视觉语言架构(VLA)经验的候选人。 科研能力:作为主要作者在CVPR、ICCV、ECCV、ICML、NeurIPS、ICLR、CoRL等顶级会议上发表过高质量论文,或在相关领域的权威竞赛中取得优异成绩。对科研有热情,励志做有影响力的工作优先。
简历投递
邮箱:xiaomivla2025@gmail.com
