
目标岗位画像 & JD 关键词
岗位:视觉抓取算法工程师 / 机器人感知与操作工程师 / 3D视觉与6D姿态估计工程师 / 多模态融合工程师
JD高频词:RGB-D、相机标定、手眼标定AX=XB、2D/3D分割、6D Pose(Fdpose/Sam6D)、仿真(Isaac/Genesis/MuJoCo/PyBullet)、ROS/ROS2、运动规划(MoveIt)、实时部署(TensorRT/ONNX)、数据闭环、Sim2Real、失败案例复盘
你最好具备的可证明材料,越多越好
用“可验证产物”证明实力,比口述更有说服力。为每条技能准备能点开看的链接或报告:
1. 项目代码仓库(最少2个):
A:端到端RGB-D抓取Pipeline(分割→6D姿态→抓取评分→规划→执行),含可复现实验脚本与 README。
B:手眼标定与多相机外参标定工具链(标定报告、重投影误差、可视化)。
2. 可视化 Demo:30–90秒视频(相机画面、检测/分割、姿态、抓取轨迹叠加)。
3. 评测与指标:抓取成功率、6D姿态误差、实时帧率、端到端延迟ms。
4. 部署与工程:ONNX/TensorRT脚本、Dockerfile、ROS包与Launch、日志&监控(prometheus/telegraf 任一即可)。
5. 仿真→实机复现:同一策略在仿真与实机的对比。
简历“可量化”句式模板
设计并落地 RGB-D 端到端抓取系统,如在 120 类小商品上成功率 92.3%,节拍 7.8s→4.9s(-37%),极端遮挡场景误抓率 9.5%→3.1%。
构建多相机+机械臂手眼标定流水线
搭建数据闭环与失败库,夹偏问题占比从 28% 降至 9%。
TensorRT 部署 6D Pose 模型,推理延迟 62ms→18ms,端到端FPS 12→28。
仿真到实机(Isaac/Genesis)域随机化+点云扰动,实机成功率 +11.7pp,并将传感器噪声统一建模为可配置项。
高频面试题库(带答题要点)
A. 视觉/3D/姿态
如何从 2D→6D?分割/检测→关键点/PnP→PnP退化场景→ICP/EdgeICP/Point-to-Plane细化→不确定性估计。
实例级 vs 类别级 6D 姿态估计区别?数据需求、先验与泛化、评测指标
透明/反光/软体物体怎么做?偏振光、主动深度、形变模型、触觉/力控回路。
B. 标定/坐标系/几何
AX=XB 的推导与数值解法;外参漂移如何在线自校?
手眼标定、内外参联合优化(BA思路)、重投影误差指标与可视化。
常见坐标系约定(相机/基座/夹爪/工具),以及 tf 树组织。
C. 抓取策略/规划
两指/自适应夹爪/吸盘抓取的评分要素:摩擦锥、表面法线、重心、夹距、碰撞距离。
Dex-Net(GQ-CNN)评分思想,Contact-GraspNet 的接触几何直觉。
运动规划:RRT*/BIT*/CHOMP/STOMP 的差异;MoveIt 管线落地与常见失败(自碰撞、奇异位形)。
D. 工程与部署
实时系统优化:算子融合、ONNX/TensorRT、异步数据流、零拷贝;端到端时延预算。
可靠性与可观测性:日志(分模块)、Prometheus 指标、抓取事件回放与重现场景。
数据闭环:失败样本采集、聚类分类、主动采样与再训练。
E. Sim2Real 与鲁棒性
渲染/材质/光照/噪声/物理参数随机化;点云扰动;合成-实拍混合训练。
评估协议:按材质/尺寸/形变类别分桶;Out-of-Distribution 评测。
F. 行为策略(进阶)
从 6D-pose-based 到直接预测抓取姿态/位姿分布(例如 diffusion policy),两条路线优劣与落地门槛。
在抓取后半程引入力控/触觉闭环(滑移检测、重抓策略)的工程做法。
面试官常问“落地”追问 & 你的最佳回答结构
“你们系统在哪些场景失败?怎么排查?”
先给数据(失败占比Top-3),再说定位方法(日志/回放/特征可视化/对照实验),最后给改进效果(量化)。
“如何在换光照/透明物体/软袋时保持鲁棒?”
传感器侧(偏振/主动深度/曝光策略)+ 数据侧(增广/合成)+ 算法侧(不确定性/多模态)+ 执行侧(触觉/重抓)。
“为什么选这个模型/算法而不是另一个?”
指标与约束(FPS/延迟/内存/边缘设备/可维护性)+ A/B 对比结果。
反问问题(显示你真的做过)
数据闭环在公司是怎么做的?是否有失败库与重现场景?上线后多长时间做一次再训练?
生产指标(成功率、节拍、误抓率)当前瓶颈是什么?
标定与外参管理是否自动化?
实机安全策略(力矩/速度/碰撞检测)与联锁机制如何落地?
核心技术模块与 GitHub 资源
1. 2D/3D 视觉分割
Detectron2(支持 Mask R-CNN 等)
Facebook AI Research 开发的下一代目标检测和分割平台,提供最先进的检测和分割算法。
https://github.com/facebookresearch/detectron2(GitHub)
Open3D-ML(支持 PointNet 等)
Open3D 的扩展,专注于 3D 机器学习任务,如语义点云分割,提供预训练模型和训练管道。
https://github.com/isl-org/Open3D-ML(GitHub)
2. 6D 姿态估计
PoseCNN(原始实现)
用于 6D 物体姿态估计的卷积神经网络,估计物体的 3D 平移和旋转。
https://github.com/yuxng/PoseCNN(GitHub)
PoseCNN-PyTorch(PyTorch 实现)
PoseCNN 的 PyTorch 实现,适合在 YCB-Video 数据集上进行训练和评估。
https://github.com/NVlabs/PoseCNN-PyTorch
3. 抓取策略与评分
Dex-Net 2.0(抓取评分与仿真)
用于生成合成点云、并基于物理的抓取评分指标的研究项目,支持训练基于机器学习的抓取规划方法。
https://github.com/BerkeleyAutomation/dex-net(berkeleyautomation.github.io)
GraspNet-1Billion(大规模抓取数据集)
提供通用对象抓取的大规模基准数据集和基线模型,适用于训练和评估抓取算法。
https://github.com/graspnet/graspnet-baseline
4. 仿真平台与训练环境
PyBullet(轻量级物理仿真)
用于机器人、强化学习和虚拟现实的物理仿真平台,提供 Python 接口。
https://github.com/bulletphysics/bullet3
MuJoCo(高性能物理引擎)
用于详细、高效的刚体仿真的物理引擎,适合研究和开发。
https://github.com/google-deepmind/mujoco(GitHub)
面试当天携带/准备清单
3段 30–60秒短视频:端到端抓取、失败复盘、换型/标定。
1页纸图谱:管线图(从传感器→算法→规划→执行→监控)。
一份“问题-改进-收益”表(3×5 的小表格),面试时能快速回答。
