点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
3D视觉工坊很荣幸邀请到了商汤研究院担任高级算法研究员段昊男,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎文末联系我们。
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
主页:https://robodita.github.io/
直播信息
时间
2025年09月10日(周三)19:00
主题
ICCV'25开源 | Dita:基于DiT的通用VLA模型
直播平台
3D视觉工坊视频号
点击按钮预约直播
3D视觉工坊哔哩哔哩也将同步直播
主讲嘉宾
段昊男
商汤研究院担任高级算法研究员
现于商汤研究院担任高级算法研究员,致力于设计面向机器人感知和操作任务的基座模型。曾在T-RO,RA-L,ICRA等机器人领域的期刊和会议上发表多篇论文。他于2024年在中国科学院自动化研究所获得博士学位,在攻读期间,主要的研究方向是灵巧手机器人的抓取、操作和人机交互。
个人主页:https://haonan-duan.github.io/
直播大纲
VLA模型的发展历史以及存在的问题 Dita模型结构,训练范式以及数据集 Dita在仿真Benchmark和真机任务上的结果展示 Dita的局限以及改进方向
参与方式

注:3D视觉工坊很荣幸邀请到了商汤研究院担任高级算法研究员段昊男,为大家着重分享他们团队的工作。如果您有相关工作需要分享,
欢迎联系微信:cv3d009
,请备注:宣传工作
,则不予通过。