
本文内容整理自Fei-Fei Li在Stanford Online频道的专访,公开发表于2025年09月03日。原始内容参考:https://www.youtube.com/watch?v=2fq9wYslV0A
内容提要: 李飞飞在斯坦福大学2025春季CS231N课程上的首次公开课
人工智能的高度跨学科性: AI已成为一个高度跨学科的领域,计算机视觉作为其不可或缺的一部分,与自然语言处理、语音识别、机器人技术,以及数学、神经科学、计算机科学、心理学、物理学、生物学等众多学科深度交叉。 视觉是智能的基石: 视觉不仅是智能的一部分,更是智能的基石。解开视觉智能的奥秘,就是系统性地解开整个智能的奥秘。 机器学习和深度学习的核心地位: 机器学习(或统计机器学习)是解决AI问题的重要数学工具,而作为机器学习领域过去十多年重大革命的深度学习,正是本课程的核心。 视觉进化的历史与智能发展: 视觉的历史可追溯至5.4亿年前的寒武纪大爆发。眼睛(感光细胞)的出现,是驱动动物物种爆发和智能进化的关键,生命体也因此从被动“新陈代谢”的角色,转变为能主动适应环境的个体。 人类的视觉特征: 人类是典型的视觉动物,大脑皮层中超过一半的细胞都参与视觉处理,拥有一个极其复杂精密的视觉系统。 制造“看见”的机器的探索: 从达芬奇的暗箱研究到现代相机的普及,人类一直在探索制造能够“看见”的机器。但相机与人眼一样,本身只是工具,真正的“看见”需要更深层次的理解。 神经科学对计算机视觉的启发: Hubel和Wiesel对哺乳动物视觉通路的研究,揭示了神经元的“感受野”(对特定空间区域响应)和视觉通路的分层结构,这为神经网络算法的设计提供了至关重要的灵感。 计算机视觉的早期探索与里程碑: Larry Roberts在1963年的博士论文标志着计算机视觉作为一门学科的诞生;David Marr在20世纪70年代的著作为视觉处理研究构建了系统性框架,提出了从“原始草图”、“2.5D草图”到3D表示的经典概念。 从2D图像恢复3D信息的挑战: 从2D图像中恢复3D信息本质上是一个不适定问题。自然界通过多视角(如三角测量)来解决,人类也演化出了这种能力,但其精度仍有局限。 语言与视觉的本质区别: 语言是纯粹由人类创造的生成性建构,而视觉则根植于物理世界,遵循物理定律。这一根本区别对AI算法的设计具有深远影响。 AI寒冬与暗流涌动: 20世纪80年代末至90年代,AI领域虽经历“寒冬”,但计算机视觉、自然语言处理、机器人学等领域的研究仍在积蓄力量,认知科学和神经科学的蓬勃发展也为AI的未来指明了方向。 人类视觉处理的惊人速度和效率: 认知神经科学研究表明,人类大脑能在看到图像后的150毫秒内完成初步的物体分类,其神经处理效率极高。大脑中甚至存在专门负责识别人脸、地点等特定类别物体的区域。 深度学习的崛起与ImageNet挑战: 21世纪初,互联网和数码相机的普及带来了海量数据。2012年,AlexNet在ImageNet挑战赛中取得突破性成果,将错误率大幅降低,正式拉开了深度学习革命的序幕。 深度学习的关键要素: 深度学习的成功归功于两大关键:一是被称为“反向传播”(backpropagation)的学习算法,二是海量数据的应用。数据真正驱动了高容量模型的发展。 计算机视觉任务的多样化: 除了图像分类,计算机视觉还涵盖语义分割、目标检测、实例分割、视频分类、多模态视频理解、图像检索、图像描述生成、物体关系理解、风格迁移、三维表示生成等丰富多样的任务。 生成式AI的爆炸式发展: 如今,以DALL·E、Midjourney和扩散模型为代表的生成式AI,能够根据文本提示生成图像,融合了理解、创造和控制,标志着AI进入了一个激动人心的全新时代。 硬件(GPU)的飞跃式发展: 以NVIDIA GPU为代表的硬件,其计算能力(每美元浮点运算次数)的指数级增长,是驱动AI大爆发的重要引擎。 AI伦理与社会影响: AI算法(尤其是大型模型)可能会继承并放大人类社会存在的偏见,导致歧视性结果(如人脸识别中的偏差)。AI在影响贷款审批、求职资格等人类生活关键领域的巨大潜力,也带来了严峻的伦理挑战,亟需我们关注以人为本的应用和影响。 AI在医学和医疗保健领域的应用: AI在医学影像分析、老年人口和病患护理等方面展现出巨大的应用价值,是AI向善发展的重要方向。 人类视觉的精妙与AI的局限: 尽管计算机视觉已取得巨大成就,但人类视觉所拥有的细腻、丰富、复杂和情感维度,仍是AI需要持续探索的远大目标。 本课程的结构: 课程将从深度学习基础讲起,逐步深入探讨计算机视觉的核心任务、关键模型(CNN、RNN、Transformer等)、大规模分布式训练、生成式与交互式视觉智能(自监督学习、生成模型、视觉语言模型、3D视觉),最后将关注以人为中心的应用及其社会影响。 核心学习目标: 将计算机视觉问题形式化为具体任务;学习开发和训练视觉模型;深入了解该领域的现状与未来方向。
李飞飞简介
李飞飞(Fei-Fei Li)是一位享誉全球的人工智能(AI)科学家,在计算机视觉领域做出了开创性贡献。她目前担任斯坦福大学计算机科学系教授,并领导斯坦福人工智能实验室(SAIL)。
李飞飞教授最广为人知的成就是她创建了ImageNet。这是一个规模宏大、标注精细的图像数据库,包含数千万张涵盖数千个物体类别的图片。ImageNet的诞生极大地推动了深度学习在计算机视觉领域的革命性进步,为自动驾驶、医疗影像分析等众多AI技术的突破奠定了坚实基础。
除了ImageNet,李飞飞教授的研究还涵盖机器学习、机器人学及AI伦理等多个方向。她曾担任谷歌云AI/ML首席科学家,并在白宫科技政策办公室任职,积极推动AI的负责任发展与应用。李飞飞教授不仅是一位杰出的研究者,更是一位充满热情的教育家与倡导者,致力于让AI技术造福全人类。
公开课实录
李飞飞: 大家好,这里是CS231N课程,我是计算机科学系的李飞飞。本学期,我将与Ehsan Adeli教授以及我的研究生Zane共同授课。稍后大家还会见到我们优秀的助教团队。好了,我们正式开始。
人工智能已经成为一个高度跨学科的领域,这一点令我非常兴奋。虽然这门课的技术性很强,专注于计算机视觉和深度学习,但我真心希望大家能将所学知识活学活用,应用到你们所热爱和从事的任何领域中去。
我们常说人工智能,那么计算机视觉和本课程在其中处于什么位置呢?如果把人工智能想象成一个巨大的整体,那么计算机视觉是其不可或缺的一部分。我曾多次说过,视觉不仅是智能的一部分,更是智能的基石。解开视觉智能的奥秘,就是系统性地解开整个智能的奥秘。
解决人工智能问题最重要的数学工具之一是机器学习,也有人称之为统计机器学习,这正是本课程的核心内容。在机器学习领域,过去十多年我们经历了一场名为“深度学习”的重大革命。我将简要解释深度学习的内涵。
深度学习包含了一整套围绕“神经网络”算法构建的技术。如果要界定本课程的范围,我们无法涵盖计算机视觉、机器学习或深度学习的全部内容,但我们将聚焦于这几个领域最核心的交叉地带。
与人工智能一样,计算机视觉也日益成为一个跨学科领域。我们使用的许多技术和研究的问题,都与自然语言处理、语音识别、机器人技术等领域息息相关。此外,人工智能还与数学、神经科学、计算机科学、心理学、物理学、生物学等基础学科紧密相连,并在医学、法律、教育、商业等领域有着广泛的应用。
在今天的第一节课中,我将简要回顾计算机视觉和深度学习的历史,之后Adeli教授会介绍课程的整体安排,并阐明我们对大家的期望。
视觉的历史,并非始于人类的诞生,而是可以追溯到5.4亿年前。你们可能会问,为什么是5.4亿年前?为什么是进化史上这样一个精确的时间点?这是因为大量化石研究指向了一个被称为“寒武纪大爆发”的神秘时期。化石记录显示,在进化史上大约1000万年的时间里——这对于进化而言转瞬即逝。
动物物种经历了一次大爆发。在寒武纪大爆发之前,地球上的生命相当平静,主要存在于水中,陆地上还是一片荒芜。动物们只是在水中漂浮。那么,是什么触发了物种的大爆发呢?对此有许多理论,从气候变化到海洋化学成分的改变,但其中最引人注目的理论之一,是眼睛的出现。最早的动物,如三叶虫,演化出了感光细胞。

我们所说的眼睛,并非如今复杂的晶状体、视网膜和神经系统,而仅仅是能够采集光线的简单针孔。一旦生命体获得了采集光线的能力,一切都变得截然不同。没有感官,生命就只剩下被动的新陈代谢,周而复始。而感官的出现,让生命体成为了环境的主动参与者,渴望在其中生存、适应和改变。某些动植物会成为你的晚餐,而你,也可能成为别人的盘中餐。
因此,进化的力量开始驱动智能的演化,这正是源于感官,特别是视觉和触觉的出现——这是动物最古老的两种感官。这长达5.4亿年的视觉进化史,本质上就是一部智能的进化史。视觉作为动物最主要的感官之一,驱动了神经系统与智能的协同发展。
如今,地球上几乎所有我们已知的动物都拥有视觉,或将其作为主要感官之一。人类更是典型的视觉动物。我们大脑皮层中超过一半的细胞都参与视觉处理,我们拥有一个极其复杂和精密的视觉系统。这就是我投身视觉研究并为之着迷的原因,我也希望它能同样点燃你们的热情。

现在,让我们从寒武纪大爆发快进到人类文明。人类富于创造,我们不仅自己能看见,还渴望制造出能“看见”的机器。这里有一些达芬奇的画作,这位对万物充满好奇的巨匠,曾深入研究暗箱(camera obscura),探索制造“看见”的机器的方法。
事实上,在他之前,古希腊和古代中国的思想家与哲学家就已记载过如何通过针孔来投射并创造物体影像。当然,在现代生活中,相机已经无处不在。然而,相机本身并不能“看见”,正如眼睛本身不足以带来真正的理解。它们都只是采集信息的工具。

我们需要理解的是视觉智能如何产生,而这正是本课程的核心。让我们花些时间,回顾一下那段将我们引向深度学习与计算机视觉交汇点的历史。
让我把时间拨回到20世纪50年代。那时,一系列至关重要的神经科学实验,特别是针对哺乳动物视觉通路的研究,取得了突破。这项开创性工作主要由Hubel和Wiesel完成,他们通过电极来研究麻醉状态下的活猫。他们探查了位于初级视觉皮层中神经元的感受野,并得出了两个至关重要的发现。
首先,他们发现初级视觉皮层中负责视觉的神经元,都有其各自的“感受野”(receptive field)。所谓感受野,是指每个神经元能够“看见”的特定空间区域。这些区域范围有限,只对应一小片空间。在这些区域内,神经元会对特定的简单模式作出反应,尤其是在视觉通路的早期阶段。例如,在位于大脑后部的初级视觉皮层,神经元能够响应特定方向的边缘或运动的边缘。不同的神经元会对不同方向的边缘产生响应,这标志着大脑中视觉信息计算的开端。

第二个重要发现是视觉通路具有分层结构。随着信息在视觉系统中逐级传递,神经元将信号传输给下一级神经元。通路中更深层级的神经元,会表现出更复杂的感受野。例如,最初对简单边缘作出反应的神经元,可能会将信息传递给能够识别角点甚至物体的神经元。这虽然是一个简化的描述,但其核心思想——神经元相互连接,构成处理视觉信息的庞大网络——正是关键所在。
当然,在座的许多人可能已经想到,这种对神经结构的描述,如何深刻地启发了视觉建模,特别是神经网络算法的设计。大约二三十年后,也就是1981年,Hubel和Wiesel因其揭示视觉处理原理的开创性工作而荣获诺贝尔生理学或医学奖。
计算机视觉早期历史的另一个里程碑,是该领域的第一篇博士论文。学界普遍认为这项荣誉属于Larry Roberts,他在1963年完成了第一篇完全专注于研究形状识别的博士论文。
这项工作触及了通过视觉感知来理解世界的一个根本性问题。其核心在于,我们能否让机器像人类一样,凭直觉理解一个形状,识别出其表面、边角和特征。
为此,他撰写了一篇完整的博士论文来系统性地探究这个问题。这标志着计算机视觉作为一个独立学科的正式开端。
大约在1966年,麻省理工学院的一位教授组织了一个夏季项目,计划聘请几位非常聪明的本科生来研究视觉。他们的目标是:在一个夏天之内解决计算机视觉问题。当然,这和人工智能历史上的许多时刻一样,我们总是倾向于对短期内能取得的成就过于乐观。
那个夏天当然没能解决视觉问题。事实上,从那时起,计算机视觉已经发展成为一个庞大的计算机科学领域。如今,我们每年的顶级会议都能吸引上万名参会者,可见其规模之盛。20世纪60年代是我们领域的一个重要节点,其标志性事件是拉里·罗伯茨(Larry Roberts)的博士论文以及与之相关的项目。我们将那个时期视为计算机视觉领域的开端。
大卫·马尔的开创性工作与计算机视觉的早期探索
20世纪70年代,大卫·马尔(David Marr)写下了一本开创性的著作。他英年早逝,令人惋惜。他希望系统性地研究视觉,并开始思考视觉信息的处理过程。尽管没有明确说明,但他的研究受到了神经科学和认知科学的深刻启发。他思考的是,当我们接收一张输入图像时,我们究竟是如何处理并理解它的?
也许第一层处理的是边缘信息,他称之为“原始草图”(primal sketch)。然后是“二维半草图”(two and a half D sketch),它负责将图像中物体的不同深度分离开来。例如,球是前景,而地面是背景。他提出了“二维半草图”这一概念,以辅助视觉理解。

最终,在大卫·马尔看来,视觉问题的终极圣杯,在于构建完整的世界三维表示。这正是视觉领域最具挑战性的难题。请允许我花20秒跑个题。纵观动物界的视觉系统,你会发现这其实是一个不适定问题(ill-posed problem)。从最早的三叶虫在水下收集光线开始,来自世界各处的光子,最终都会投射到一个大致为二维的表面上。
当时,那只是动物身上的一个感光区域,但对我们而言,那就是视网膜。然而,真实世界是三维的。因此,如何从二维图像中恢复完整的三维信息,至今仍是视觉处理领域的一大挑战。
从二维图像中恢复三维信息,既是自然演化必须攻克的根本难题,也是计算机视觉亟待解决的核心挑战。从数学上讲,这是一个不适定问题。那么,自然界是如何解决的呢?有人有大胆的猜测吗?

李飞飞: 自然界使用的技巧,就是演化出多只眼睛,通常是两只,有些动物甚至更多。这样便可以利用三角测量法来获取深度信息。但仅有两只眼睛还不够,你还需要理解左右眼图像之间的对应关系等等。我们会简单触及这些话题,但斯坦福大学有其他专门讨论3D视觉的计算机视觉课程。但重点在于,这是一个极其困难的问题。我们必须解决它。自然界已经解决了,人类也解决了,只是精度还远不够高。
事实上,人类的感知精度并不高。例如,我能大致感知物体的三维形状,但无法精确掌握其几何细节。这一点,能让我们更好地理解和体会这个问题的艰巨性。
另一件在计算机视觉和语言之间存在巨大差异的事,在哲学层面其实相当微妙。语言并非自然之物。你无法指着世间万物说:“看,那就是语言”。语言是纯粹源自人类经验的生成式构造。
它由我们的大脑生成,具有生成性、一维性和序列性的特点。这实际上对最新一浪的生成式AI算法产生了深远影响。这也解释了为什么大型语言模型(LLM)——尽管超出了本课程的范围——会如此强大,正是因为语言的这些特性使其易于建模。
但视觉则不同,它并非生成。我们眼前的,是一个遵循着物理与材料法则的真实物理世界。因此,视觉的任务也截然不同。我希望大家能体会到语言和视觉的根本区别,并由此赞叹自然界解决视觉问题的精妙之道。
好的,我们继续。20世纪70年代,在没有海量数据、没有强大算力、也没有今天这样成熟的数学工具的情况下,计算机视觉的早期先驱们就已经开始挑战一些领域内最棘手的问题,例如物体识别。在斯坦福大学,罗德尼·布鲁克斯(Rodney Brooks)和汤姆·宾福德(Tom Binford)的“广义圆柱体”(Generalized Cylinders)是一项开创性工作。
巧合的是,罗德尼·布鲁克斯今天就在校园里,正在不远处的机器人会议上发表演讲。他后来成为我们这个时代最伟大的机器人学家之一,是扫地机器人Roomba及许多其他机器人的创始人。而在帕洛阿尔托的另一端,也有研究人员致力于构建人体和物体的组合模型。然后到了20世纪80年代,

数字照片开始出现,至少人们可以对照片进行数字化处理了。随后,出现了一些出色的边缘检测工作。回顾这一切,你可能会感到一丝失望。如果这就是当时计算机视觉的全部,那似乎并无太大进展。
事实也的确如此。在你们许多人出生之前,人工智能领域步入了寒冬。领域之所以陷入寒冬,是因为人们对AI研究的热情与投资都急剧降温。许多承诺都未能兑现:计算机视觉、专家系统、机器人技术,无一实现突破。
然而,在寒冬的冰层之下,许多研究的种子正在计算机视觉、自然语言处理和机器人学等领域悄然发芽。因此,我们再来看看另一条对计算机视觉产生深远影响的研究脉络:认知科学与神经科学的持续发展。
尤其对计算机视觉领域而言,认知科学与神经科学为我们指明了值得追求的“北极星”问题。例如,心理学家告诉我们,观察自然、真实的世界有其特殊之处。这是一项由欧文·比德曼(Irving Biederman)进行的研究,他发现,在两张图片中检测同一辆自行车,其难度会因图像背景是否被打乱而有所不同。从光子学的角度看,两辆自行车的影像落在你视网膜上的位置完全相同,但背景信息却以某种方式影响着观察者感知物体的方式。
这告诉我们,看到全局——无论是整片森林还是整个世界——会影响我们对局部物体的感知。这也表明视觉处理的速度非常快。另一个实验则直接衡量了我们识别物体的速度。这是一项20世纪70年代初的实验,受试者观看一段视频,任务是检测视频中是否出现人。我想你们每个人都在某一帧中看到了那个人。
想一想你的眼睛或大脑是多么卓越(remarkable),因为你从未看过这段视频,我没有告诉你目标在哪一帧出现,也没有指明其样貌、位置或姿态,你却毫不费力地识别出了那个人。最关键的是,这些帧以10赫兹的频率播放,意味着你观看每帧的时间只有100毫秒。这充分说明了我们的视觉系统是多么卓越。
事实上,另一位认知神经科学家西蒙·索普(Simon Thorpe)测量了我们的视觉处理速度。如果你让受试者戴上脑电图(EEG)帽,向他们展示复杂的自然场景,并要求他们区分包含动物和不含动物的图像,你就可以测量他们的脑电波。结果显示,在看到一张照片仅150毫秒后,你的大脑中已经产生了足以区分不同类别的信号。
与如今的GPU和现代芯片相比,150毫秒的速度或许并不惊艳。但你必须欣赏我们的“湿件”(wetware):大脑神经元的工作速度远不及晶体管。尽管如此,对于神经处理而言,150毫秒已经快得惊人,这期间信号在大脑中仅传递了寥寥数步。
所以,这再次告诉我们,人类非常擅长观察和分类物体。事实上,我们不仅擅长此道,甚至还演化出了专门处理特定类别的大脑区域,用于识别人脸、地点或身体部位。这些是麻省理工学院的神经生理学家在20世纪90年代和21世纪初做出的发现。
所有这些研究都告诉我们,我们不应仅仅局限于研究字符形状或图像草图,而应真正追求那些驱动视觉智能的核心基础问题。其中一个被凸显出来的问题,便是在自然场景下的物体识别。世界上的物体纷繁多样,研究它们,正是解锁视觉智能的关键一环。
作为一个领域,我们最初着眼于如何将前景物体从背景中分离出来,这被称为“分组识别”(recognition by grouping),始于20世纪90年代。请记住,当时我们仍处在AI寒冬,但研究实际上仍在暗流涌动,不断取得进展。随后出现了特征研究,有些人可能还记得SIFT特征及其匹配。

我读研究生时,最激动人心的进展是人脸检测。我记得研究生第一年,一篇标志性的论文发表,仅仅五年后,第一台采用该论文算法的数码相机便问世了,它利用人脸检测技术实现了自动对焦。技术开始真正落地,并融入产业。
计算机视觉的重大进展
进入21世纪初,一件大事发生了:互联网开始腾飞。随着互联网的扩张,数据呈爆炸式增长。数码相机与互联网的结合,为计算机视觉领域提供了海量可供研究的数据。在早期,研究人员需要处理成千上万张图像来研究物体识别等问题。这一时期诞生了像Pascal VOC挑战赛和Caltech 101这样的数据集。

这标志着计算机视觉发展的一个关键节点。你可能会好奇我为什么在这里停顿,因为我稍后会回到深度学习的话题。虽然视觉领域经历了从神经生理学到计算机视觉,再到认知神经科学,最后又回归计算机视觉的演进路径,但与此同时,另一条独立的研究路线也在并行发展,并最终催生了深度学习。这一发展始于对神经网络的早期研究,包括感知机等模型。大卫·鲁梅尔哈特(David Rumelhart)等研究人员参与了这项工作,而杰弗里·辛顿(Geoffrey Hinton)在早期也开始用少量感知机进行实验,探索它们处理信息和学习的方式。
此外,马文·明斯基(Marvin Minsky)等知名学者也在感知的不同方面做出了贡献。然而,明斯基也曾声称感知机无法学习某些逻辑函数(如异或)。这一论断导致了神经网络发展的挫折,这凸显了该领域在萌芽时期所面临的挑战。
尽管遭遇挫折,研究仍在继续。在第一个转折点到来之前,最重要的工作之一是日本科学家福岛邦彦(Kunihiko Fukushima)的“神经认知机”(Neocognitron)。福岛手工设计了一个神经网络,它看起来是这样的:大约有五六层,他为不同层级设计了不同的功能,其灵感正源于我前面描述的视觉通路(visual pathway)。还记得关于猫的视觉皮层实验吗?视觉信号从处理简单特征的感受野(receptive fields)传递到处理复杂特征的感受野。他在这里也做了类似的事情。早期层级执行简单的功能,如卷积;而后期层级则执行更复杂的功能,从卷积层中提取信息。因此,神经认知机在当时堪称一项工程壮举,它的每一个参数都是手工设计的。他精心组合了数百个参数,使得这个小小的神经网络能够识别数字或字母。

真正的突破发生在1986年左右,当时一种被称为反向传播(backpropagation)的学习算法被引入。这将是我们第一堂课的内容。我们将讨论鲁梅尔哈特、杰弗里·辛顿等人如何采用神经网络架构,并引入一个用于纠正误差的目标函数。这个函数让你能够输入数据,将网络的输出与正确答案进行比较,然后计算出差异。其目标是将误差信息沿网络反向传播,从而优化网络参数。这种从输出端到输入端的信息回流,便是“反向传播”,其背后是微积分中的链式法则。这对神经网络算法而言,是一个里程碑式的时刻。
当然,在此期间,我们仍处在AI寒冬之中,所以所有这些工作都在公众视野之外默默进行。然而,在研究界,这些都是重要的里程碑。反向传播在神经网络中的早期应用之一,是杨立昆(Yann LeCun)于20世纪90年代在贝尔实验室开发的卷积神经网络。他构建了一个稍大的七层网络,其鲁棒性足以识别手写字符。这项技术后来被应用于美国邮政服务和部分银行,用于读取支票上的数字和字母。因此,它代表了早期神经网络的一项重要落地应用。
杰弗里·辛顿和杨立昆继续研究神经网络。然而,他们的进展受到了限制。尽管对神经网络进行了各种改进和调整,但性能却停滞不前。他们收集了大量手写数字和字母的数据集,这些数据集相对简单,识别效果尚可。但当这些系统用于识别真实世界的照片时——比如猫、狗、微波炉、椅子和花——结果却令人大失所望。
这个问题的一个重要原因是数据的缺乏。数据匮乏不仅是操作上的不便,更是一个深刻的数学挑战。当时的算法属于高容量模型,它们极度依赖海量数据来学习泛化能力。泛化与过拟合背后,有着深刻的数学原理。不幸的是,数据的重要性常常被忽视,因为大多数研究人员只专注于算法架构,而没有认识到数据是机器学习与深度学习的基石。
在21世纪初,我和我的学生们开始着手弥补这一疏忽。我们认识到数据的重要性,并意识到整个领域可能都低估了它的价值。为此,我们启动了一个名为ImageNet的项目,旨在构建一个前所未有的超大规模数据集。我们从十亿张图片中筛选、清理,最终整理出包含1500万张图片的数据库。这1500万张图片被分入22,000个不同的物体类别。我们还参考了大量认知科学和心理学文献,以确保这22,000个类别的划分是科学且有意义的。
这22,000个类别的数量级,与人类在生命早期学习识别的物体类别数量大致相当。然后,我们开源了该数据集,并以此为基础,创办了一项名为“ImageNet大规模视觉识别挑战赛”(ILSVRC)的国际竞赛。我们从ImageNet中选取了一个包含1000个类别、超过100万张图片的子集,用作竞赛数据。这场国际挑战赛持续了多年,旨在邀请全球的研究人员参与,构建最优秀的识别算法。算法类型不限,我们只用一个标准来衡量:看谁的算法能最准确地识别出这1000个类别的物体。

在我们举办ImageNet挑战赛的第一年,表现最佳的算法错误率仍接近30%,这成绩相当糟糕,因为人类的错误率还不到3%。2011年的结果并不尽如人意,但2012年,非凡的突破出现了。那一年,Geoffrey Hinton和他的学生们带着卷积神经网络参赛,将错误率几乎减半,一举证明了深度学习算法的强大威力。

这个在2012年ImageNet挑战赛中大放异彩的算法,就是著名的AlexNet。有趣的是,AlexNet的架构与32年前福岛邦彦(Kunihiko Fukushima)提出的Neocognitron并无本质区别。
然而,在这三十多年间,有两大突破至关重要。其一是反向传播算法的问世。它提供了一种基于原则、数学上严谨的学习规则,让模型不再依赖于繁琐的手工调参,这无疑是理论上的一大飞跃。
另一大突破,则是数据。人们逐渐认识到,数据是驱动这些大容量模型(当时参数已达数百万,未来更将达到万亿级别)的核心动力。这种认知,是点燃深度学习革命的火种,对其最终的成功起到了决定性作用。
因此,许多人将2012年AlexNet赢得ImageNet挑战赛的这一刻,视为现代人工智能诞生或复兴的历史性转折点,是深度学习革命的真正开端。当然,在座的许多人之所以会在这里,正是因为从那时起,我们迎来了一个深度学习的爆发时代。

以计算机视觉领域的顶级年度会议CVPR为例,其论文提交数量呈爆炸式增长;同样,人工智能年度回顾(ARCA)的论文量也一路飙升。在随后的几年里,为了挑战ImageNet,大量新算法如雨后春笋般涌现。我们将探讨其中一些代表性的算法,但关键在于,AlexNet之后诞生的许多算法,都对计算机视觉领域及其应用产生了深远影响。
所以,我们将要涵盖的内容非常丰富。ImageNet挑战赛之后,计算机视觉领域高歌猛进。我们不仅能精准识别猫、狗、椅子等日常物品,更迅速发展出能够理解复杂图像场景的算法,例如图像检索、多目标检测和图像分割等。在本课程中,你们将熟悉视觉识别领域的这些核心任务,因为视觉的魅力远不止于识别猫狗,更在于其探索世界的细腻与深度。

此外,视觉的世界也并非静止。在视频分类和人类活动识别等领域,同样有大量重要的研究在进行。我展示这份概览,是为了强调你们将学到的视觉任务是多么丰富多样。大家现在不必完全理解其中的所有细节,但重要的是认识到这些应用的广阔前景。
在医学影像领域,对于有医学背景的同学来说——无论是放射学、病理学还是其他医学分支——视觉分析都扮演着至关重要的角色,并对科学发现产生深远影响。一个典型的例子就是那张具有里程碑意义的首张黑洞照片,其背后就凝聚了大量的计算机视觉和计算摄影技术。
此外,计算机视觉在可持续发展和环境保护等领域也做出了广泛贡献。在ImageNet 2012这一里程碑之后,我们在图像描述生成方面也取得了长足进步。值得一提的是,这项工作正是由我的学生Andrej Karpathy主导完成的,他的博士论文便以此为题。

我们还进一步探索如何理解物体间的关系,这体现了视觉智能不仅仅是识别像素层面的内容。它还与风格迁移这一迷人的研究领域相互交叉。本课程还将邀请在风格迁移领域做出重要贡献的Justin Johnson进行客座讲座,分享他的开创性见解。
当然,在生成式AI时代,我们见证了许多令人惊叹的成果,比如图像生成。这是DALL-E早期的作品。我想这应该是初代的DALL-E。如今,Midjourney和各类工具生成的图像早已超越了这些牛油果椅子。我们正处在AI爆炸时代中最激动人心的时刻。
计算、算法和数据这三大力量的融合,将整个领域推向了前所未有的高度。我们已经彻底走出了AI的寒冬,我甚至想说,我们正处在一个AI的“全球变暖”时代。无论好坏,这股热潮丝毫没有放缓的迹象。
另外,既然我们身处硅谷,就在黄仁勋大楼(Jensen Building)的英伟达报告厅(NVIDIA Auditorium),就不能不提硬件的进步及其发挥的关键作用。这张图表展示了NVIDIA GPU每美元所能提供的浮点运算性能。在深度学习成为GPU和芯片设计的主要驱动力之前,性能增长曲线还算平稳;但之后,大家可以看到,每秒吉浮点运算次数(G-flops)的曲线陡然起飞。
无论用哪个指标衡量,我们都处在一条加速曲线上,拥有海量的算力和人工智能应用。这些图表展示了会议参与人数、初创公司数量以及企业在人工智能领域的投入,不仅覆盖计算机视觉,也包括自然语言处理等,所有这些都呈现出爆炸式增长。

最后,同样重要的是,尽管这一切令人振奋,也取得了诸多成功,但计算机视觉领域仍有大量工作亟待完成。这个问题远未被完全解决。
强大的工具往往伴随着深远的影响。计算机视觉可以造福社会,也可能带来伤害。例如,人类偏见。当今的每一个AI算法,尤其是大型算法,都由数据驱动。而数据,是人类在地球上生活与历史活动的产物。这些数据承载着我们既有的偏见,并不可避免地将这些偏见注入到AI系统中。我们已经看到,许多人脸识别算法就表现出与人类社会相同的偏见。
我们必须正视这一点。人工智能可以深刻影响人类生活,有些是积极的,比如在医疗影像领域的应用;但有些则值得商榷。想象一下,如果AI完全主导了你是否能获得一份工作或一笔贷款的决定,会是怎样的情景?这再次凸显了解决技术偏见和伦理问题的紧迫性。
这一切究竟是好是坏?这些都是极其复杂的问题。这也是为什么我总是特别欢迎来自医学院、法学院、教育学院或商学院的学生来上我的课。因为AI的问题,不全是工程问题,更是关乎人类与社会的问题。

我个人对AI在医学和医疗健康领域的应用尤为关注,这也是我非常珍视的研究方向。Adeli教授、Zane以及我本人,作为本课程的联合讲师,正致力于研究面向老年人和病患的AI技术,尝试利用计算机视觉为他们提供更好的关怀。这是AI向善的一个绝佳范例。
此外,即便是在技术层面,人类视觉的非凡之处也远超想象。我希望通过今天的课程以及后续的学习,大家能认识到,尽管计算机视觉成就斐然,但人类视觉所拥有的细腻、精妙、丰富、复杂乃至情感,仍是机器难以企及的。看看这些孩子们探索未知的好奇眼神,或是这张图片中所蕴含的幽默感,这些都是计算机视觉目前还无法完全理解的。
我希望这种认知能持续激发你们学习计算机视觉的热情。现在,我将讲台交给Adeli教授,由他为大家讲解课程的后续内容。谢谢。
Ehsan Adeli: 太棒了。谢谢你,Feifei。这是一个非常精彩的开场,希望我的麦克风工作正常。好的,我看到有人点头了。

很高兴能和大家在这里。希望你们能享受这门有趣且富有挑战性的课程,我们拥有一支非常优秀的联合讲师和助教团队。
在本课程中,我们将广泛探讨计算机视觉以及深度学习在该领域的应用,内容主要分为四大主题。
我们将从深度学习的基础讲起。让我们先从一个简单的问题开始:究竟什么是计算机视觉?从本质上说,计算机视觉就是让机器学会“观察”并“理解”图像。
这个领域最基础的任务,可以说是图像分类。你给模型一张图片,比如猫的照片,模型应该能输出“猫”这个标签。
就这么简单。然而,这项看似简单的任务,却是从自动驾驶到医疗诊断等无数复杂应用的重要基石。那么,我们该如何教会机器完成这件事呢?最简单的方法之一是使用线性分类器,就像大家在这张幻灯片上看到的。
想象一下,我们数据集中的每张图片都是空间中的一个点,坐标轴代表从图片中提取的某种特征。为了简化,这里展示的是一个二维空间。线性分类器的任务就是找到一个超平面或线性函数,将不同类别(比如猫和狗)分隔开。

但我们都知道,线性模型的局限性很大。当数据无法用一条直线清晰地划分时,它们就会束手无策。那么,下一步该怎么办?我们将探讨如何构建能模拟更复杂模式的模型。
在构建复杂模型的过程中,我们常常会遇到过拟合和欠拟合的挑战,这些都是课程早期会涵盖的主题。为了达到理想的平衡,我们会运用正则化等技术来控制模型复杂度,并通过优化算法来寻找最佳参数。
这些都是深度学习的基石——训练出的模型不仅要能拟合现有数据,更要能泛化到未见过的新数据上。
现在,让我们进入有趣的部分:神经网络。我们已经多次提及它。与线性分类器不同,神经网络通过堆叠多层非线性操作来模拟复杂关系。
它能够学习复杂的函数,从而解决图像分类等问题。从Google Photos到大家现在熟知的ChatGPT视觉模型,背后都是由这些模型驱动的。在本课程中,我们将深入探讨它们的工作原理、训练方法,以及如何进行调试和改进。
在掌握了深度学习的基础之后,我们将进入下一个主题:感知和理解视觉世界。这是一个复杂的过程,需要我们解释海量的视觉信息。为了实现这一目标,我们通常会先定义具体的任务来应对特定的挑战。
我们的目标是解决诸如目标检测、场景理解、运动检测等问题。为此,我们使用不同的模型,这些模型是我们为了模拟或解释视觉系统如何完成这些任务而开发的计算和理论框架。神经网络就是其中一个例子。
通过将模型与任务相结合,我们就能创建出能够“看见”并“解读”我们周围世界的系统。说到任务,让我们回到图像分类,也就是为整张图片预测一个单一的标签。但现实世界中的计算机视觉远比这丰富得多。让我们来看一些超越分类的任务。首先是语义分割。

我们不再仅仅标记物体或整个图像,比如“猫”或“树”。在这里,我们的目标是为图像中的每一个像素分配一个标签。因此,每个像素都会被标记为“草”、“猫”、“树”或“天空”,但我们并不区分同类物体的不同个体。
接下来是目标检测,我们不仅要识别出图像中有什么,还要精确地标出它们的位置。为此,我们在物体周围绘制边界框,并将它们与相应的标签关联起来。
最后是实例分割,这是所有方法中最精细的一种。它结合了目标检测与语义分割的思路,为每一个独立的物体实例都生成一个精确的掩码。
这些任务要求模型具备更深层次、更细致的图像理解能力,迫使它们不仅仅是识别类别。复杂性并不仅限于静态图像。让我们看看一些涉及时间维度的任务。就像Feifei提到的视频分类,我们希望理解视频中正在发生什么。是有人在跑步、跳跃还是跳舞?
另一个主题是多模态视频理解,它融合了视觉、听觉和其他模态的信息。例如,在这个例子中,一个人正在演奏颤音琴。要真正理解发生了什么,我们必须同时利用视觉和音频特征,才能全面把握整个场景。

最后,在本课程中,我们还会涵盖可视化与理解这一主题,旨在解释模型究竟学到了什么。我们将探索注意力机制和注意力图等框架,以了解模型是如何做出正确分类等决策的。
接下来是模型。除了任务,我们还会深入研究模型。我将要介绍的第一个主题是卷积神经网络(CNNs)。它由一系列操作组成。我们会在课堂上详细讲解,从输入图像开始,经过一系列卷积、池化和全连接层,最终生成输出。除了卷积神经网络,我们还将学习用于处理序列数据的循环神经网络,以及像Transformers和基于注意力机制的框架这样的先进神经架构。接下来,我们将介绍大规模分布式训练,这是今年的一个新主题。相信大家都听说过大型语言模型、大型视觉模型等等。我们将简要讨论这些模型实际上是如何训练的。
我们知道,数据和数据集的规模在不断扩大,大型模型也变得越来越庞大。为了训练这些模型,业界发展出了一些策略,例如数据并行化和模型并行化,我们将在课程中介绍这些策略。同时,这也会带来许多挑战,比如模型与工作节点间的同步问题等,我们将在学期的某个讲座中进行探讨。我们还会回顾训练这些大型模型的一些趋势。
完成这个主题后,我们将探索生成式和交互式视觉智能,首先从自监督学习开始。自监督学习是机器学习的一个分支,模型通过从数据本身挖掘监督信号来学习理解和表征数据。我们将介绍这个主题,因为它是利用海量无标签数据来训练大规模模型的关键途径之一。
自监督学习在近期的计算机视觉突破中扮演了至关重要的角色。我们也会简要讨论生成模型。它们超越了识别的范畴,进入了创造的领域。
比如这张图,它将一张斯坦福校园的照片,以梵高《星月夜》的风格进行了重构。这就是“风格迁移”,一个神经生成技术的经典应用。
如今,生成模型已经可以根据文本提示将语言转化为图像。像DALL-E、DALL-E 2这样的模型能够生成全新的图像,这展示了生成式视觉模型如何在创造中融合理解力、创造力和控制力。大家最近可能也常听到“扩散模型”这个词,这也是我们本学期将要介绍的另一个重要内容。
这些模型的核心原理,是学习如何逆转一个逐步添加噪声的过程,从而生成全新的图像。有趣的是,在课程的第三次作业中,你们将亲手实现一个生成模型。这个模型能够根据文本提示,例如“一个戴着牛仔帽的人脸”,从纯粹的噪声开始,逐步去噪,最终生成对应的表情符号。
接下来,我们将探讨另一个重要主题:视觉语言模型。这类模型通过构建一个共享的表示空间,将文本和图像紧密地联系在一起。无论是给定一段文字描述来检索或生成图像,还是反过来,模型都能精准匹配。这个领域发展迅猛,我们将介绍几个关键案例。需要强调的是,这项技术是实现跨模态检索、视觉问答等任务的核心,因此也是我们课程的重点。
超越二维图像,现在的模型已经能够从单张图片中重建并生成三维表示。在这里,大家可以看到一些例子,如体素重建、形状补全,甚至仅凭一张图像就能进行三维物体检测。三维视觉为我们带来了更贴近物理世界的本质理解,这对于机器人技术、增强现实(AR)和虚拟现实(VR)等应用至关重要。
最后,视觉是赋予具身智能体在物理世界中行动能力的关键。 这些智能体需要利用视觉进行感知、规划并最终执行任务,无论是打扫凌乱的房间,还是从人类的演示中学习并泛化新技能。围绕这些主题,我们将深入探讨生成式和交互式视觉智能的方方面面。课程的最后一部分,我们将探讨以人为中心的应用及其社会影响。
正如李飞飞(Fei-Fei Li)教授所阐述的,计算机视觉乃至整个人工智能领域,在过去几年中产生了巨大的社会影响。因此,理解以人为中心的应用和影响至关重要。这一点,从授予该领域研究人员的至高荣誉中便可见一斑。
2018年,计算机视觉领域首次获得了图灵奖的认可。图灵奖是计算领域的最高荣誉,旨在表彰那些做出了持久且重大贡献的学者。Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 因其在概念和工程上的突破而共同获奖,正是这些突破,使得深度神经网络成为现代计算的核心组成部分。
此外,就在去年(2024年),Geoffrey Hinton 与 John Hopfield 因其在神经网络领域的奠基性贡献,共同荣获了诺贝尔物理学奖。
最后,我将简要介绍本课程的学习目标:
首先,学习如何将实际的计算机视觉应用,形式化为明确定义的任务。其次,掌握开发和训练视觉模型的核心技能,这些模型能够处理图像、视频等各类视觉数据。再次,洞悉该领域的前沿动态与未来趋势,这也是我们今年特别加入一些全新主题的原因。
课程前期,我们将用几周时间,为大家讲解我前面提到的四大主题的基础知识。这部分内容至关重要,需要大家耐心学习,因为理解如何从零开始构建模型是后续深入研究的基石。
在打好基础之后,我们将进入计算机视觉领域中那些更前沿、更激动人心的话题。最后,我们还会安排一场关于以人为本的AI与计算机视觉的专题讲座。
在今天的结尾,我想预告一下下次课的内容:图像分类与线性分类器。这将是我们正式开启 CS231N 课程的第一步。谢谢大家。
参考资料: https://www.youtube.com/watch?v=2fq9wYslV0A,公开发表于2025年09月03日
☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)
人工智能产业链联盟高端社区

一次性说清楚DeepSeek,史上最全(建议收藏)
DeepSeek一分钟做一份PPT
用DeepSeek写爆款文章?自媒体人必看指南
【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero


