具身智能操作类求职路线（3D视觉操作）

目标岗位画像 & JD 关键词

岗位：视觉抓取算法工程师 / 机器人感知与操作工程师 / 3D视觉与6D姿态估计工程师 / 多模态融合工程师

JD高频词：RGB-D、相机标定、手眼标定AX=XB、2D/3D分割、6D Pose（Fdpose/Sam6D）、仿真（Isaac/Genesis/MuJoCo/PyBullet）、ROS/ROS2、运动规划（MoveIt）、实时部署（TensorRT/ONNX）、数据闭环、Sim2Real、失败案例复盘

你最好具备的可证明材料，越多越好

用“可验证产物”证明实力，比口述更有说服力。为每条技能准备能点开看的链接或报告：

1. 项目代码仓库（最少2个）：

A：端到端RGB-D抓取Pipeline（分割→6D姿态→抓取评分→规划→执行），含可复现实验脚本与 README。

B：手眼标定与多相机外参标定工具链（标定报告、重投影误差、可视化）。

2. 可视化 Demo：30–90秒视频（相机画面、检测/分割、姿态、抓取轨迹叠加）。

3. 评测与指标：抓取成功率、6D姿态误差、实时帧率、端到端延迟ms。

4. 部署与工程：ONNX/TensorRT脚本、Dockerfile、ROS包与Launch、日志&监控（prometheus/telegraf 任一即可）。

5. 仿真→实机复现：同一策略在仿真与实机的对比。

简历“可量化”句式模板

设计并落地 RGB-D 端到端抓取系统，如在 120 类小商品上成功率 92.3%，节拍 7.8s→4.9s（-37%），极端遮挡场景误抓率 9.5%→3.1%。

构建多相机+机械臂手眼标定流水线

搭建数据闭环与失败库，夹偏问题占比从 28% 降至 9%。

TensorRT 部署 6D Pose 模型，推理延迟 62ms→18ms，端到端FPS 12→28。

仿真到实机（Isaac/Genesis）域随机化+点云扰动，实机成功率 +11.7pp，并将传感器噪声统一建模为可配置项。

高频面试题库（带答题要点）

A. 视觉/3D/姿态

如何从 2D→6D？分割/检测→关键点/PnP→PnP退化场景→ICP/EdgeICP/Point-to-Plane细化→不确定性估计。

实例级 vs 类别级 6D 姿态估计区别？数据需求、先验与泛化、评测指标

透明/反光/软体物体怎么做？偏振光、主动深度、形变模型、触觉/力控回路。

B. 标定/坐标系/几何

AX=XB 的推导与数值解法；外参漂移如何在线自校？

手眼标定、内外参联合优化（BA思路）、重投影误差指标与可视化。

常见坐标系约定（相机/基座/夹爪/工具），以及 tf 树组织。

C. 抓取策略/规划

两指/自适应夹爪/吸盘抓取的评分要素：摩擦锥、表面法线、重心、夹距、碰撞距离。

Dex-Net（GQ-CNN）评分思想，Contact-GraspNet 的接触几何直觉。

运动规划：RRT*/BIT*/CHOMP/STOMP 的差异；MoveIt 管线落地与常见失败（自碰撞、奇异位形）。

D. 工程与部署

实时系统优化：算子融合、ONNX/TensorRT、异步数据流、零拷贝；端到端时延预算。

可靠性与可观测性：日志（分模块）、Prometheus 指标、抓取事件回放与重现场景。

数据闭环：失败样本采集、聚类分类、主动采样与再训练。

E. Sim2Real 与鲁棒性

渲染/材质/光照/噪声/物理参数随机化；点云扰动；合成-实拍混合训练。

评估协议：按材质/尺寸/形变类别分桶；Out-of-Distribution 评测。

F. 行为策略（进阶）

从 6D-pose-based 到直接预测抓取姿态/位姿分布（例如 diffusion policy），两条路线优劣与落地门槛。

在抓取后半程引入力控/触觉闭环（滑移检测、重抓策略）的工程做法。

面试官常问“落地”追问 & 你的最佳回答结构

“你们系统在哪些场景失败？怎么排查？”

先给数据（失败占比Top-3），再说定位方法（日志/回放/特征可视化/对照实验），最后给改进效果（量化）。

“如何在换光照/透明物体/软袋时保持鲁棒？”

传感器侧（偏振/主动深度/曝光策略）+ 数据侧（增广/合成）+ 算法侧（不确定性/多模态）+ 执行侧（触觉/重抓）。

“为什么选这个模型/算法而不是另一个？”

指标与约束（FPS/延迟/内存/边缘设备/可维护性）+ A/B 对比结果。

反问问题（显示你真的做过）

数据闭环在公司是怎么做的？是否有失败库与重现场景？上线后多长时间做一次再训练？

生产指标（成功率、节拍、误抓率）当前瓶颈是什么？

标定与外参管理是否自动化？

实机安全策略（力矩/速度/碰撞检测）与联锁机制如何落地？

核心技术模块与 GitHub 资源

1. 2D/3D 视觉分割

Detectron2（支持 Mask R-CNN 等）
Facebook AI Research 开发的下一代目标检测和分割平台，提供最先进的检测和分割算法。
https://github.com/facebookresearch/detectron2(GitHub)

Open3D-ML（支持 PointNet 等）
Open3D 的扩展，专注于 3D 机器学习任务，如语义点云分割，提供预训练模型和训练管道。
https://github.com/isl-org/Open3D-ML(GitHub)

2. 6D 姿态估计

PoseCNN（原始实现）
用于 6D 物体姿态估计的卷积神经网络，估计物体的 3D 平移和旋转。
https://github.com/yuxng/PoseCNN(GitHub)

PoseCNN-PyTorch（PyTorch 实现）
PoseCNN 的 PyTorch 实现，适合在 YCB-Video 数据集上进行训练和评估。
https://github.com/NVlabs/PoseCNN-PyTorch

3. 抓取策略与评分

Dex-Net 2.0（抓取评分与仿真）
用于生成合成点云、并基于物理的抓取评分指标的研究项目，支持训练基于机器学习的抓取规划方法。
https://github.com/BerkeleyAutomation/dex-net(berkeleyautomation.github.io)

GraspNet-1Billion（大规模抓取数据集）
提供通用对象抓取的大规模基准数据集和基线模型，适用于训练和评估抓取算法。
https://github.com/graspnet/graspnet-baseline

4. 仿真平台与训练环境

PyBullet（轻量级物理仿真）
用于机器人、强化学习和虚拟现实的物理仿真平台，提供 Python 接口。
https://github.com/bulletphysics/bullet3

MuJoCo（高性能物理引擎）
用于详细、高效的刚体仿真的物理引擎，适合研究和开发。
https://github.com/google-deepmind/mujoco(GitHub)

面试当天携带/准备清单

3段 30–60秒短视频：端到端抓取、失败复盘、换型/标定。

1页纸图谱：管线图（从传感器→算法→规划→执行→监控）。

一份“问题-改进-收益”表（3×5 的小表格），面试时能快速回答。