作者 | Cv大法代码酱 编辑 | 大模型之心Tech
原文链接:https://www.zhihu.com/question/15608452195/answer/1941805356612293245
点击下方卡片,关注“大模型之心Tech”公众号
>>点击进入→大模型没那么大Tech技术交流群
本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
这问题绝对是今年计算机应届生最焦虑的问题,没有之一。 我这几年面过的人没有一千也有八百,从海外大厂回来的博士到你这样的985硕士,聊得多了,有些话也就憋不住了,今天就发帖子聊聊。
我不跟你扯那些虚头巴脑的行业报告,什么市场规模、增长率,那些东西对你找工作没半毛钱关系。我就从一个在一线带队、看简历、拍板给offer的人的角度,跟你盘盘这几条路。
时间坐标:2025年8月。 这个时间点很重要,因为技术风向标变得太快了,去年的答案今年可能就是个坑。
先摆结论,不卖关子:
all in 多模态。
如果你的目标是就业,特别是找一份有长期价值、不容易被替代、薪资天花板还高的算法岗,就别犹豫,头也不回地扎进多模态。
为什么?我把我的逻辑掰开揉碎了讲给你听,你听完自己品。
我们先看看这三条路现在分别是个什么光景
1. 纯语言大模型(LLM)
LLM现在啥情况?四个字: 基建化、工程化 。
你得明白,2025年的今天,从零开始训一个SOTA级别的基座模型,这事儿已经不是一个普通公司,甚至不是一个普通大厂能玩得起的游戏了。这是巨头的战争,是算力、数据和顶尖人才的无差别火力覆盖。OpenAI、Google、Meta,国内的几家头部,牌桌上就这么几个玩家了。
所以,对于一个应届生,你进去能干嘛?
大概率不是去设计新的Transformer架构,而是去做模型的“下游工作”。具体点:
Fine-tuning(微调) :拿别人训好的基座模型,用行业数据做微调,解决特定业务问题。这里面有技术含量,但越来越像个熟练工种。 RAG(检索增强生成) :这玩意儿去年火得一塌糊涂,现在基本是标配了。怎么做好embedding、怎么优化检索、怎么减少幻觉,这里面有很多工程上的know-how,但算法的创新空间在缩小。 Agent开发 :基于LLM做各种智能体,听起来很酷,但本质是prompt engineering + tool using + a bit of planning。核心还是在“用”模型,而不是“造”模型。 模型压缩、量化、部署 :这些岗位很实在,需求也稳定,但更偏向于模型工程(Model Engineering)或 MLOps,离核心算法越来越远。
你看,纯LLM方向的算法岗,正在快速分化。一小撮人在头部公司的核心团队里继续搞模型结构、预训练算法的创新,这部分人凤毛麟角,门槛高得离谱。而大部分所谓的“LLM算法岗”,正在变得越来越“应用”,越来越“工程”。
薪资上,LLM岗位的下限很高,应届生拿个大白菜、sp不成问题,但天花板…说实话,有点被锁死了。因为你创造的价值,很大程度上依赖于你所使用的那个基座模型,你的“杠杆”不够长。
2. 生成式模型(AIGC)
我得先澄清一下,AIGC这个词太宽泛了,它几乎把前面两个都包进去了。但从业内招聘的角度看,当我们特指“AIGC”方向时,通常更偏向 产品和应用落地 。
比如,你去做一个AI生成PPT的应用,一个AI生成广告视频的平台,或者一个AI辅助编程的工具。
在这些公司里,岗位分得更细。可能有一个小团队负责维护和优化模型,但更多的人是“应用算法工程师”或者干脆就是“后端工程师”,他们的工作是把模型的能力封装成API,嵌入到业务流程里,去打磨产品体验。
这个方向好不好?好,离钱近,业务导向强,能快速看到自己的工作成果。但对你这种想做核心算法的人来说,可能有点“降维”。你可能会花大量时间在处理业务逻辑、数据清洗、API调试上,而不是模型本身。
AIGC方向的薪资,方差很大。在一个成功的商业化产品里,核心成员的收入(薪资+期权)可能非常高。但在一个还没找到盈利模式的创业公司里,可能还不如去大厂拧螺丝。
3. 多模态大模型
好了,说到重点了。多模态,这才是现在真正的蛮荒之地。
为什么我这么笃定?
第一,它是通往AGI的必经之路,是真正的技术前沿。
世界是多模态的,人类的智能也是多模态的。我们看、听、说,同时处理图像、声音、文字信息。纯文本的LLM虽然强大,也只是“缸中之脑”,它理解不了这个真实的世界。从文生图(DALL-E, Midjourney)到文生视频(Sora),再到未来的物理世界交互(机器人、自动驾驶),核心技术突破都必然发生在多模态领域。
这意味着什么?意味着这里有 大量的、根本性的问题还没有被解决 。数据对齐、跨模态表征、长视频生成的一致性、3D世界的理解与生成…每一个都是大金矿,都可能诞生出伟大的公司和技术。
在这个领域,你不是一个“使用者”,你更有可能成为一个“创造者”。你做的东西,不是对现有工作流的优化,而是创造全新的可能性。
第二,技术壁垒高,护城河深。
搞多模态,你不仅要懂NLP,还得懂CV,甚至可能要懂图形学、语音处理。这个知识栈的要求,天然就筛掉了一大批人。LLM的很多知识,看看博客、刷刷论文、跑跑开源代码,似乎很快就能上手。但要真正理解Diffusion Model的数学原理,或者搞懂NeRF(神经辐射场)这种东西,没下苦功夫是不行的。
我之前团队里一个做CV的小伙,在大家一窝蜂转LLM的时候,他坐得住冷板凳,一头扎进了3D生成。当时我们都觉得这方向太窄,不好找工作。结果今年,Sora出来之后,所有大厂都在布局视频和3D生成,他手里的offer拿到手软,给的package比同级别的LLM岗高了至少30%。人家面试官问的都是底层细节,什么DiT架构、视频压缩网络,他都能对答如流。而很多搞LLM应用的同学,面试官问到Transformer的底层优化,就有点支支吾吾了。
这就是壁垒。当潮水褪去,那些只会在岸边捡贝壳的人就尴尬了,而那些学会了深潜的人,才能拿到真正的宝藏。
第三,岗位需求正在爆发,但合格的人才供给严重不足。
现在打开招聘软件看看,搜“多模态算法”,你会发现很多岗位要求都非常高,而且薪资范围也给得非常宽。这说明什么?说明用人单位自己都清楚,这个方向的人不好招。他们愿意为真正懂技术的人才付出高昂的溢价。
LLM方向呢?海量的求职者,大家都会用LangChain,都会做RAG,简历看起来都差不多,那凭什么给你高薪?只能卷项目、卷实习、卷学历。
应用岗和算法岗的区别,以及多模态的应用岗
这个问题也很好。
算法岗 ,说白了,是 生产工具 的人。他们关心的是模型的性能、效率、泛化能力。他们的工作成果通常是模型本身,或者是一篇论文,一个专利。比如,研究一种新的网络结构,让视频生成的时间一致性更好。
应用岗 ,则是 使用工具 的人。他们关心的是如何用现有的模型解决具体的业务问题。他们的工作成果通常是一个上线的功能,一个提升的业务指标。比如,用一个现有的文生图模型,做一个海报自动生成工具,并优化提示词模板,让生成的海报转化率提升5%。
所以,算法岗对技术深度要求高,应用岗对业务理解和工程能力要求高。
那多模态现在有没有应用岗?
当然有,而且越来越多了。视频平台会用多模态模型自动生成视频摘要、打标签、审查违规内容;电商平台用文生图帮助商家快速生成商品图,并通过虚拟试衣提升用户体验;设计类软件把图、文、视频等 AIGC 能力无缝嵌进创作流程,比如 Adobe Firefly;教育领域出现了“AI 老师”,能根据学生的文本提问,动态生成图片或视频解释复杂概念;游戏行业更是热闹,AI 已经能生成 3D 场景、NPC 对话,甚至角色动画,这些应用正成为新的内容生产引擎。
这些岗位,既需要你懂模型,又需要你懂业务,是连接技术和商业的桥梁。对于刚毕业的学生,如果对自己的算法研究能力没那么自信,或者更喜欢做看得见摸得着的产品,这也是一条非常好的路。
如果你想清楚了要搞多模态,下面这几条你听清楚,不是什么人生哲理,就是几条能让你少走弯路的“土办法”。
第一,别把看论文当学习,那顶多算“信息录入”。
看论文这事儿最容易自欺欺人。收藏夹里存个几百篇,感觉自己懂得挺多,面试官一问细节,支支吾吾。这没用。你得找个东西“刻”在脑子里。
怎么刻?你甭管别的,就盯住一个方向,比如现在最火的视频生成。把Sora的技术报告(假如它细节公布了的话)或者相关的开源实现,比如Open-Sora、Latte这种,给我当成你毕业设计的代码那么去读。
你得搞清楚:
人家的数据是怎么洗的?怎么切成patch的?为什么这么切? 那个DiT(Diffusion Transformer)到底是怎么把文本条件加进去的?代码里哪几行是干这个的? 跑起来,你肯定会遇到各种坑,显存爆炸、loss是NaN、生成的东西一坨屎。你就去debug,去一行一行地看,去Github issue里跟人撕逼讨论。这个过程,比你看一百篇论文的摘要都有用。
你得自己动手把一个东西从头到尾跑通,甚至魔改一下。没卡就去租,现在AutoDL、恒源云这种平台一天几十块钱就能搞个不错的卡,这顿饭钱你必须得花,不然你简历上那个“熟悉xxx模型”就是一句空话,一戳就破。
第二,数学和基础别丢。各种新奇的开源项目是好看,但不扎实的数学就像空心楼梯,踩几步就塌。
很多人把公式挂嘴边,显得自己很牛。其实大部分时候,我们根本不需要从头推导一个什么玩意儿。那为啥还要啃数学?
是为了让你在模型出问题的时候,能有方向地去猜,而不是抓瞎。
举个例子,你训个diffusion model,结果生成出来的全是纯纯的噪声,半点图像的影子都没有。这时候你怎么办?如果你懂那个加噪去噪的数学过程,你至少能怀疑几个点:是不是我的time embedding出问题了?是不是U-Net的结构没把噪声和条件信息给解耦开?是不是我用的scheduler在推理的时候步子迈得太大了?
你看,这就是懂和不懂的区别。不懂的人只会反复检查输入数据的格式,然后上网搜“diffusion model训练失败怎么办”。而你,可以直接去看模型里那几个关键模块的中间输出,用数学直觉去定位问题。这才是你比别人牛逼的地方,是你在工作里解决实际问题的能力。
第三,学点交叉领域的硬知识,多模态就是融合能力
别觉着你搞传统深度学习,尤其是PINN这种物理结合的东西,好像跟现在的大模型有点脱节。我告诉你,这恰恰是你最大的优势。
Sora出来以后,大家都在喊“世界模型”。啥是世界模型?不就是用一个统一的模型去模拟我们这个世界的运行规律吗?物理规律,就是这个世界的底层代码啊!
你比那些纯CV、纯NLP出身的人,有一个天然的优势:你习惯用数学和物理的语言去描述问题。你知道怎么把一个微分方程塞进神经网络里,你知道怎么用网络去拟合一个动力学系统。
你有 DNN/PINN 背景是优势,但还不够 。去看些计算机图形学、渲染管线,补点信号处理,搞懂音频怎么表示。这些在你做跨模态任务时,很多坑就能自己填,不用等人救火。
接下来多模态要往哪走?肯定是要跟物理世界、跟交互、跟机器人结合。到时候,怎么让模型理解刚体碰撞?怎么让它生成符合流体力学的水流?这些问题,对纯搞数据驱动的人来说可能很头疼,但对你来说,不就是把PINN那套思想换个壳子用在新问题上吗?所以,千万别丢了你的老本行,要琢磨怎么把它跟你学的新东西结合起来。
第四, 搞清楚自己想成为什么样的人,追求技术深度还是广度。
最后说个最实在的,怎么让自己值钱,或者说,怎么让自己不容易在裁员的时候被优化掉。
两条路,你自己选。
一条路是往深了钻。你就死磕一个问题,成为这个小领域里全公司、甚至全国最懂的那几个人之一。比如说,你就专搞长视频里人物身份一致性的问题,把这个问题相关的几十篇论文、几个开源代码库吃得透透的,谁也别想在这上面糊弄你。公司只要有这个业务需求,第一个想到的就是你,那你就是安全的,也是值钱的。
另一条路是往广了走。你不一定非要精通某个模型的每一个细节,但你得知道现在市面上所有主流的武器(模型)都有啥,各自的优缺点是啥,适合打什么仗(业务场景)。你能把文生图、视频生成、语音识别这些不同的模型,像搭乐高一样组合起来,攒成一个能解决复杂问题的系统。你懂工程,懂部署,能把一个算法demo变成一个几百万人能用的线上服务。这种系统性的能力,同样非常稀缺。
最怕的是啥?卡在中间。深度不够,广度也有限,做的活儿就是调调参、跑跑开源代码,发发实验报告。这种人是最好替代的,因为总有比你更年轻、更便宜、更能卷的毕业生。
前阵子整理电脑,翻出了我压箱底近十年的私藏。这不只是一份书单或课程列表,而是我从一个码农到带头人,一路踩坑验证过的知识体系地图。
从操作系统、网络这些硬核基础,到架构设计,再到算法实战,都帮你串好了。啃下来,地基绝对比别人牢。
分享出来,就是希望能帮你少走弯路,把劲儿使在刀刃上。东西放下面了,自取。
(持续更新中)技术总监收藏夹的学习资源汇总:计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型(https://zhuanlan.zhihu.com/p/1908531890048172986)
就说这些吧,祝好运~
大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!