ICCV'25开源 | Dita:基于DiT的通用VLA模型

3D视觉工坊 2025-09-10 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

3D视觉工坊很荣幸邀请到了商汤研究院担任高级算法研究员段昊男,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎文末联系我们。

资讯配图Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
主页https://robodita.github.io/

直播信息

时间

2025年09月10日(周三)19:00

主题

ICCV'25开源 | Dita:基于DiT的通用VLA模型

直播平台

3D视觉工坊视频号

点击按钮预约直播

3D视觉工坊哔哩哔哩也将同步直播资讯配图

主讲嘉宾

资讯配图段昊男
商汤研究院担任高级算法研究员

现于商汤研究院担任高级算法研究员,致力于设计面向机器人感知和操作任务的基座模型。曾在T-RO,RA-L,ICRA等机器人领域的期刊和会议上发表多篇论文。他于2024年在中国科学院自动化研究所获得博士学位,在攻读期间,主要的研究方向是灵巧手机器人的抓取、操作和人机交互。

个人主页https://haonan-duan.github.io/

直播大纲

  1. VLA模型的发展历史以及存在的问题
  2. Dita模型结构,训练范式以及数据集
  3. Dita在仿真Benchmark和真机任务上的结果展示
  4. Dita的局限以及改进方向

参与方式

资讯配图

:3D视觉工坊很荣幸邀请到了商汤研究院担任高级算法研究员段昊男,为大家着重分享他们团队的工作。如果您有相关工作需要分享,欢迎联系微信:cv3d009,请备注:宣传工作,则不予通过。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 开源
more
【他山之石】ICCV 2025 | 换脸迈入“电影级”!小红书发布DynamicFace,统一图像视频换脸基线
荣耀Magic 8成“最强AI”原生手机!
Anthropic模型自动“变笨”,从业者称“已对硅谷AI祛魅”
台积电日月光领导,3DIC先进封装联盟正式成立
清华最新综述!迈向Deep Reasoning的Agentic RAG,200篇工作尽览~
苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
扣子空间,偷偷搞全了AI Office
OPPO美女产品经理Monica离职了
荣耀方飞:下一代Magic系列将支持2亿长焦下的超强蓝调
SiC价格史上首次低于IGBT!功率半导体大厂中报发生了哪些变化?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号