
据MIT Technology Review网站2025年9月8日消息,2025 MIT Technology Review 35 Innovators Under 35(简称TR35)已正式揭晓,获奖者分五个领域,其中,材料科学6人,计算8人,AI 8人,生物技术7人,气候与能源6人。以下是机器人与AI研究相关的获奖者信息。
计算领域


—— 他致力于让机器人适应千家万户。
当前,机器人在生产线或仓库中重复执行单一任务方面的表现相当出色。但若想让它们足够可靠地走进家庭提供帮助,就必须使其具备在陌生环境中处理多样化任务的能力。
然而,这背后存在着巨大的技术挑战,主要原因在于缺乏足够的数据来训练机器人应对家庭环境中杂乱无章、不断变化的场景。毕竟,人们通常不会将自己洗碗或整理凌乱衣物抽屉的视频发布分享。
27岁的Nur Muhammad "Mahi" Shafiullah自纽约大学攻读博士学位期间,便一直致力于解决这一数据鸿沟问题。
当时他所在的团队提出了一种智能可扩展的数据采集方案,来记录人们完成家务的动作数据,并将这些数据整理为可用于训练AI模型及机器人的数据集。具体方式包括:将iPhone固定在抓取杆上,拍摄人们打开橱柜门或抽屉、拿取餐巾纸或纸袋或整理散落物品的视频。该数据集已被Nvidia、Microsoft及Google等多家公司采用。
Nur Muhammad "Mahi" Shafiullah还参与了一个跨机构合作项目,共同构建了包含527种不同机器人技能的数据集,涵盖图像、视频、动作及文本指令,以帮助机器执行从未接触过的操作,例如在厨房移动玩具果蔬、展开皱褶的毛巾及整理鞋和杯子等。他表示,“该数据集为机器人实现更通用的行为奠定了基础,如抓取任意手持物体,或在陌生家庭环境中整理物品。”
如今,作为Meta基础AI研究团队(Fundamental AI Research,FAIR)的博士后研究员,他专注于探索利用AR和头戴设备等新型硬件采集视频来训练机器人。此外,Nur Muhammad "Mahi" Shafiullah还着眼于开发让机器人能够更长时间自主执行任务的方法,为实现机器人在家庭环境中无需监督的可靠应用铺平道路。他坦言道,这是一个复杂且艰巨的课题——但也充满着乐趣。


—— 她构建了面向可穿戴及康复设备的统一人体运动模型。
尽管机器人具备超越人类肌肉耐力的电机,以及比神经元速度更快的电路系统,但在行走这件事上,人类依然更擅长——尤其是在陌生环境中。人类为何如此擅长这类动作,至今仍是个未解之谜,部分原因在于,用于理解人类运动的计算机模型被拆分成了反馈控制、学习及能量效率等多个独立模块。
麻省理工学院34岁的Nidhi Seethapathi通过创建一个统一的模型来解决这个谜题,该模型可以准确预测人类如何在日常生活中移动、学习新任务和在新环境中活动。
Seethapathi表示,关于人类如何规划下一步行动,“这个问题有两个主要观点,一个是尽量减少运动的代谢能量消耗,另一个是以稳定、安全且无误差的方式行动。”
她的研究目标正是揭示这两种时而相互制约的条件如何相互作用,以维持人体的动态平衡。她将从现实世界的自然运动中获得的数据集与在跑步机上运动者的视频分析相结合(这些运动者既包括无阻碍运动的,也包括偶尔使用弹性绳拉的),并收集了传感器的测量数据。随后,她对人体在不同运动行为(如奔跑与行走)、不同地面步态调整或肌肉激活微小误差响应时的能量消耗进行了分析。
最终结果是创建了一个新的人体运动计算机模型,Seethapathi希望这项成果可以推动外骨骼装备、用于中风康复的分带式跑步机和假肢等技术的进步。此外,这一模型还可以激发特定运动或医疗条件的新型运动方式。
AI领域


—— 她帮助AI理解真实世界。
大语言模型(LLMs)在文字处理方面表现出色,这在一定程度上得益于它们被投喂的海量文本数据。然而,AI的前沿研究在于构建能够超越文本理解、感知周围世界——即具备视觉、听觉和复杂情境响应能力。这是一个巨大的飞跃,也是该领域面临的最大挑战之一。美国西北大学33岁的研究员李曼玲,正致力于推动这一前沿领域的发展。
李曼玲的研究专注于AI领域的核心挑战:将语言转化为现实世界中的行动。传统AI系统专注于单一类型的数据输入(如文本),而李曼玲开发的系统则整合了感知、推理和行动。她构建出了一个框架,使AI能够从图像、音频、视频及文本等多模态信息中,拼凑出正在发生的事件全貌。这种跨数据格式的“感知”能力,对于构建在现实世界中做出更全面判断的AI至关重要。
李曼玲的工作不仅帮助AI系统识别周围环境中发生的事情,还帮助系统“理解”事情发生的原因及其内在关联。除了识别视频中的物体或从句子中提取关键词,该系统还能追踪事件动态,解析不同行为之间的关联,并解释事件发生的原因。随着AI在日常生活中做出更多重要决策,这种透明性正变得愈发关键。
她的研究成果已走出实验室,被包括DARPA在内的政府机构所采用。通过开源工具,她还将这项先进的AI技术进行了更广泛的推广。此外,她还创建了用于评估AI在现实环境中表现的新基准,例如在物理环境中导航以及回答视频中正在发生的事情等复杂问题。
随着AI广泛融入从智能助手到自动驾驶汽车的各个领域,李曼玲的研究确保了这些系统在能力提升的同时,变得更加可靠、更加透明。


—— 他致力于打开AI模型的“黑箱”,以理解其为何会完成特定输出。
AI模型的决策逻辑,至今无人能完全参透。因此,AI模型常被视为“黑箱”——数据输入后,输出的是文本、图像或视频等内容。
但如果研究人员无法理解模型的运行机制,便难以在其生成错误或无用信息时进行修正。这正是26岁的Neel Nanda所专注的研究领域,他表示,”我的使命是:通过研究,以确保我们开发出相当于人类水平的AI时,对世界是安全且有益的。”
Nanda领导着Google DeepMind的一个团队,专注于AI安全的子领域——机制可解释性(mechanistic interpretability,常简称为“mech interp”)的研究,该领域通过数学知识深入理解AI模型内部的运作机制。
常见的方法是将AI模型分解为计算层,并利用稀疏自编码器(sparse autoencoders)等工具提取模型在各层中内隐学习的特征与概念。去年,Nanda和其他研究人员共同发布了Gemma Scope,这是一组包含超过400个稀疏自编码器的集合。每个模型都是在Google的Gemma 2模型上训练的,以表示Gemma在文本片段中解释的独特概念。这个公开的数据集合可以在线演示,使研究人员能够以透视视角,深入了解 Gemma模型的行为,揭示模型完全自主建立的关联。
Nanda投身AI领域,源于他对通用AI(AGI)可能迅速到来的日益担忧——他认为若不能完全理解如何确保其安全性,AGI便可能会带来重大风险。他认为,让更多人参与该领域至关重要,这样才能确保人们在构建AGI之前先理解其本质。为此,Nanda撰写关于机制可解释性的科普文章,制作YouTube视频,并在“ML Alignment & Theory Scholars”项目中担任导师。
Nanda认为,这些推广工作有助于机制可解释性这一领域的发展。“我看到教授们在X(推特)上抱怨,太多博士申请者想研究机制解释性,”他说,“我为自己对他们有所帮助感到高兴。”


—— 从生成图像到编写代码,他正在训练AI模型的新技能。
ChatGPT能够流畅地处理文本、音频和图像,能够接受一种格式的提示并生成另一种格式的结果。这一出色能力在很大程度上要归功于34岁的Mark Chen——他现任OpenAI首席研究官。
自2018年加入OpenAI以来,Chen带领团队开发了许多当今领先AI模型用于处理和生成视觉数据的技术。尤为关键的是,他找到了将 Transformer架构适配于图像处理的方法 —— 此前研究者已成功利用该架构生成自然语言。事实证明,图像中的像素可以像句子中的词语一样,被编码为一系列token。
“一旦将图像转化为类似‘特殊语言’的表示方式,就能把它应用到Transformer中。”Chen 表示。该团队首先将这一方法应用于2020年发布的ImageGPT,随后又推出了DALL·E系列。目前,他们已将此技术部署到了GPT-5中。
除了在图像方面的工作,Chen还主导了OpenAI Codex模型的开发,该模型能够根据提示生成计算机代码。尽管代码以文本形式编写,但生成代码的模型与其它语言模型有着不同的标准——因为生成的代码在执行时必须能够实现预期功能,而不仅仅是看起来正确。
现在,Chen正领导OpenAI团队创建一个比早期版本更具复杂推理能力的模型。该公司的策略是让模型放慢速度,将提示分解为步骤,即所谓的“思维链”,OpenAI在2024年发布其o1模型时首次展示了这一技术。Chen的目标是尽快构建能够长期自主运行的模型,以生成更细致的输出,例如制定科学实验的研究计划。
在其新职位上,Chen还负责产品安全。他认为,安全的AI模型应能按照用户意愿行事,且不会“失控”,例如在未经用户同意的情况下向他人发送邮件。他还需应对公司模型因表现出的文化和政治偏见而受到的批评,以及关于其训练数据中存在的知识产权侵权的诉讼问题。


—— 他是OpenAI的视频生成模型Sora的共同发明者。
2022年12月,Tim Brooks即将在加州大学伯克利分校完成AI博士学业时,他意识到,在AI视频生成领域留下自己印记的时机已经成熟。一个月前ChatGPT的发布,让生成式AI迎来了爆发时刻。通过简单的提示词,用户就能与聊天机器人流畅对话——有些系统还能生成高清、逼真的图像。然而,AI对于视频的生成仍然无法真正实现。早期模型虽在模拟特定场景或让静态图像产生小幅动态方面取得了一些进展,但高质量、通用化的模型仍难以实现。
31岁的Brooks加入OpenAI后,一场竞赛就此展开:他与在伯克利的同事Bill Peebles合作,着手开发一款能够生成长达一分钟高清视频片段的模型。他们的策略采用了一种创新方法,将图像和视频分解为更小的信息单元,从而能够在更广泛的视觉数据上训练模型。他们还采用了与大多数聊天机器人底层架构相似的Transfomer架构,使其模型在扩展过程中能够不断优化。最终成果便是Sora,一款突破性的AI视频生成器,于2024年12月公开发布。
与谷歌、Meta等公司推出的类似产品一样,Sora既引起了大家的惊叹,也引发了担忧。一些批评者担心这些模型将导致广告、电影等创意产业的就业岗位流失;而且,由于深度伪造技术(deepfakes)和虚假信息的传播,大多数 Sora 用户被禁止制作涉及真实人物的视频。此外,人们还担心这将导致更多“AI 垃圾内容”(AI slop)的产生,即大量低质量内容在网上泛滥。
但Brooks相信,这些工具将为数字创作者开辟新的可能性。作为Google DeepMind的研究科学家,他认为这些工具是迈向构建更全面“世界模型”的重要一步,从而提升AI对物理环境的理解,使其更接近人类大脑的运行方式。


—— 他正在训练一种可在人类入睡后仍能持续工作的AI。
今年3月,季逸超出现在一段迅速走红的发布视频中。这位32岁的年轻人用流利的英语介绍了由中国初创公司Butterfly Effect(蝴蝶效应)开发的AI Agent Manus。该Agent基于多种模型构建,包括Anthropic的Claude。
“这不仅仅是一个聊天机器人或工作流程,”季逸超在视频中说道,“它是一个真正自主的 Agent,架起了从构思到执行的桥梁。”
随着AI Agent成为硅谷的最新热潮,Manus的独特之处在于其实现了真正的自主性。大多数Agent需要持续监督,但Manus被设计为独立运行——能够自主完成任务、在过程中自适应调整,甚至无需重启即可响应新指令。用户完全可以关上笔记本电脑,回来时任务已经完成。
发布一周内,Manus就吸引了多达两百万申请用户。这种热潮迅速转化为资金:一轮7,500万美元的融资使该公司估值达到约5亿美元。此次发布为中国的创业氛围注入了活力,并引起了人们对中国涌现出的AI应用的关注。
多年以来,季逸超致力于构建结合技术深度和实际应用的工具。作为长期开源贡献者和产品狂热者,他自高中起便开始发布软件——其中最有名的是Mammoth,一款曾短暂成为中国同类应用中下载量最高的iPhone浏览器。20多岁时,他获得红杉资本和真格基金的投资,创立Peak Labs,并开发了基于定制语言模型驱动的知识搜索引擎Magi。该引擎受前沿AI研究启发,构建知识图谱——一张展示知识关联关系的“思维导图”。
但季逸超的独特之处不仅在于其产品,更在于他所代表的群体:新一代中国科技人才,他们具备全球视野、深受开源文化影响,并且在技术架构与产品愿景方面均游刃有余。
目前定居新加坡的季逸超,是新一代打造世界级AI的创始人代表。Manus本身也是全球流动性的产物——由中国团队开发,基于美国模型,为全球用户设计。


—— 她利用数据集来减少AI的幻觉。
生成式AI模型会犯错——它们可能会自信地陈述错误事实,或者将真实的片段拼凑成毫无意义的内容。即使用大量真实的数据对AI模型进行训练,这些所谓的“幻觉”也会发生。
对于30岁的Akari Asai来说,这是一个大问题,尤其是对事实准确性要求极高的领域,如科学研究或软件开发。她认为,解决方案是不再专注于构建越来越大、只会根据提示输出答案的模型。“我们需要从单纯扩展单一语言模型转向开发增强型语言模型,”她解释道,这意味着模型能够与其他实体互动,并分析自身输出和行为。
Akari Asai致力于研究检索增强生成(RAG)技术,该技术使语言模型在生成响应前先检索存储的参考资料(即数据集)。检索数据集可帮助模型识别即将生成虚假信息的情况,随后利用检索到的信息修正响应。
Self-RAG是Asai与合作者于2023年提出的一个行为框架,在此基础上更进一步,让模型并行处理数据存储的不同部分以确定最相关的内容Self-RAG无法完全防止幻觉,但它试图限制幻觉,同时确保机器听起来不是在朗读百科全书。根据其团队的测试,基于Meta Llama训练的Self-RAG在回答简短问题时,比仅使用普通RAG的Llama,准确率高出10~25%,具体准确率取决于问题类型;与未采用RAG的Llama相比,提升幅度更为显著。
Asai刚刚在华盛顿大学完成博士学业,将于2026年开始在卡耐基梅隆大学担任教授,她还在构建定制化数据集,这可能比维基百科等通用数据库提供更好的事实检索结果。目前,她和同事已构建了科学文献数据集(含4,500万篇论文)和编程数据集(含2,500万份文档)。她还计划探索该方法用于处理敏感生物医学数据的应用可能性。


—— 她致力于开发更安全且更具全球适用性的生成式AI。
全球以英语为母语的人口不到20%,但有专家估计,在用于训练大型语言模型的数据中,英语数据占比超过 90%。结果导致,这些AI模型在全球大约 7,000 种非英语语言中的表现较差,强化了英语数据所推崇的文化规范与价值观,并产生了难以察觉的危害。
作为Google Research的高级研究科学家,32岁的Sunipa Dev正试图通过使用更具包容性、多语言和多元文化的数据集来训练和评估AI,以改变这一现状。
自2023年起,Dev及其团队发表了两篇关于 SeeGULL数据集的论文,这是一个多语言、多区域刻板印象数据集,是当时同类中规模最大的。他们采用合成数据与社区贡献数据相结合的方法,涵盖了178个英语国家以及23个地区的20种非英语语言的示例。
为确保生成式AI的输出结果与本地用户相关,她的团队与全球各地(包括中东地区)的个人数据标注员展开合作。在一些代表性不足的地区,如印度、拉丁美洲和撒哈拉以南非洲,他们与当地非营利组织、用户体验设计师等合作,以吸纳更多见解。
Google目前已开始使用SeeGULL数据集来评估其大语言模型避免复现有害刻板印象的能力。该数据集也已公开发布,供更广泛的AI安全评估使用。鉴于SeeGULL的开源特性,Dev与同行们希望通过这一工具,确保非西方社区的担忧能被纳入AI的安全测试中。
Dev希望通过建立一个志同道合的AI从业者社区来扩大这一使命的影响力。她表示,其最终的愿景是,在未来五年内,全球主要语言的90%使用者能够获得连贯、相关、安全且最终有益的AI;并且有一天,这一比例将逐步覆盖所有人。“AI必须具备全球智能,” Dev表示,“而不仅仅是在某些特定情境下表现得很聪明。”


—— 她开发了一个AI平台,旨在简化金融研究流程。
2020年代初,当支持ChatGPT和其他聊天机器人的大语言模型正在硅谷研发时,Maithra Raghu已经开始展望更远的未来。作为Google 的一名AI研究科学家,34岁的Raghu看到了利用这些模型创建能够进行类人对话的平台的潜力。但她最兴奋的是这项技术让更多研究密集型任务实现自动化的可能性,例如支持金融领域的基础数据收集和分析工作。
然而,ChatGPT和其他通用型大语言模型在处理专业化、实时信息方面表现不佳。因此,在金融界朋友的鼓励下,Raghu决定自主研发模型:她的初创公司Samaya AI于2022年正式成立。
该公司首个由AI驱动的工具,功能与个人研究助理类似:它会搜索网络和用户内部数据,提供研究与分析结果,并且可输出多种格式,包括报告和演示文稿。目前该工具已经在包括Morgan Stanley在内的多家金融机构投入使用。
与大多数依赖单一大语言模型的通用聊天机器人不同,Samaya使用多个内部开发的专用小型模型。这些模型经过特殊训练,能够协同优化,从而提升其检索高质量信息、从中提取见解并将所有内容置于上下文中的能力。Raghu表示,这种方法使工具能够更准确地处理海量数据,从而最大限度地降低“幻觉”(即提供虚假信息)的风险。
目前,Samaya的技术主要被研究分析师使用:它能够在海量文档中精准定位单一数据点,分析比人类分析师能够处理的更多来源,或者跟踪实时信息。早期测试表明,这些模型也可能用于自动预测公司或更广泛的经济领域的业绩表现。

信息来源:
https://mp.weixin.qq.com/s/svnTc4lQonFlxq--0pHO6Q?from=industrynews&color_scheme=light
https://www.technologyreview.com/innovators-under-35/2025/
