只为了就业，纯语言大模型LLM、多模态大模型、生成式模型AIGC选那条路好？

作者 | Cv大法代码酱编辑 | 大模型之心Tech
原文链接：https://www.zhihu.com/question/15608452195/answer/1941805356612293245

点击下方卡片，关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

这问题绝对是今年计算机应届生最焦虑的问题，没有之一。 我这几年面过的人没有一千也有八百，从海外大厂回来的博士到你这样的985硕士，聊得多了，有些话也就憋不住了，今天就发帖子聊聊。

我不跟你扯那些虚头巴脑的行业报告，什么市场规模、增长率，那些东西对你找工作没半毛钱关系。我就从一个在一线带队、看简历、拍板给offer的人的角度，跟你盘盘这几条路。

时间坐标：2025年8月。 这个时间点很重要，因为技术风向标变得太快了，去年的答案今年可能就是个坑。

先摆结论，不卖关子：

all in 多模态。

如果你的目标是就业，特别是找一份有长期价值、不容易被替代、薪资天花板还高的算法岗，就别犹豫，头也不回地扎进多模态。

为什么？我把我的逻辑掰开揉碎了讲给你听，你听完自己品。

我们先看看这三条路现在分别是个什么光景

1. 纯语言大模型（LLM）

LLM现在啥情况？四个字： 基建化、工程化 。

你得明白，2025年的今天，从零开始训一个SOTA级别的基座模型，这事儿已经不是一个普通公司，甚至不是一个普通大厂能玩得起的游戏了。这是巨头的战争，是算力、数据和顶尖人才的无差别火力覆盖。OpenAI、Google、Meta，国内的几家头部，牌桌上就这么几个玩家了。

所以，对于一个应届生，你进去能干嘛？

大概率不是去设计新的Transformer架构，而是去做模型的“下游工作”。具体点：

Fine-tuning（微调） ：拿别人训好的基座模型，用行业数据做微调，解决特定业务问题。这里面有技术含量，但越来越像个熟练工种。
RAG（检索增强生成） ：这玩意儿去年火得一塌糊涂，现在基本是标配了。怎么做好embedding、怎么优化检索、怎么减少幻觉，这里面有很多工程上的know-how，但算法的创新空间在缩小。
Agent开发 ：基于LLM做各种智能体，听起来很酷，但本质是prompt engineering + tool using + a bit of planning。核心还是在“用”模型，而不是“造”模型。
模型压缩、量化、部署 ：这些岗位很实在，需求也稳定，但更偏向于模型工程（Model Engineering）或 MLOps，离核心算法越来越远。

你看，纯LLM方向的算法岗，正在快速分化。一小撮人在头部公司的核心团队里继续搞模型结构、预训练算法的创新，这部分人凤毛麟角，门槛高得离谱。而大部分所谓的“LLM算法岗”，正在变得越来越“应用”，越来越“工程”。

薪资上，LLM岗位的下限很高，应届生拿个大白菜、sp不成问题，但天花板…说实话，有点被锁死了。因为你创造的价值，很大程度上依赖于你所使用的那个基座模型，你的“杠杆”不够长。

2. 生成式模型（AIGC）

我得先澄清一下，AIGC这个词太宽泛了，它几乎把前面两个都包进去了。但从业内招聘的角度看，当我们特指“AIGC”方向时，通常更偏向 产品和应用落地 。

比如，你去做一个AI生成PPT的应用，一个AI生成广告视频的平台，或者一个AI辅助编程的工具。

在这些公司里，岗位分得更细。可能有一个小团队负责维护和优化模型，但更多的人是“应用算法工程师”或者干脆就是“后端工程师”，他们的工作是把模型的能力封装成API，嵌入到业务流程里，去打磨产品体验。

这个方向好不好？好，离钱近，业务导向强，能快速看到自己的工作成果。但对你这种想做核心算法的人来说，可能有点“降维”。你可能会花大量时间在处理业务逻辑、数据清洗、API调试上，而不是模型本身。

AIGC方向的薪资，方差很大。在一个成功的商业化产品里，核心成员的收入（薪资+期权）可能非常高。但在一个还没找到盈利模式的创业公司里，可能还不如去大厂拧螺丝。

3. 多模态大模型

好了，说到重点了。多模态，这才是现在真正的蛮荒之地。

为什么我这么笃定？

第一，它是通往AGI的必经之路，是真正的技术前沿。

世界是多模态的，人类的智能也是多模态的。我们看、听、说，同时处理图像、声音、文字信息。纯文本的LLM虽然强大，也只是“缸中之脑”，它理解不了这个真实的世界。从文生图（DALL-E, Midjourney）到文生视频（Sora），再到未来的物理世界交互（机器人、自动驾驶），核心技术突破都必然发生在多模态领域。

这意味着什么？意味着这里有 大量的、根本性的问题还没有被解决 。数据对齐、跨模态表征、长视频生成的一致性、3D世界的理解与生成…每一个都是大金矿，都可能诞生出伟大的公司和技术。

在这个领域，你不是一个“使用者”，你更有可能成为一个“创造者”。你做的东西，不是对现有工作流的优化，而是创造全新的可能性。

第二，技术壁垒高，护城河深。

搞多模态，你不仅要懂NLP，还得懂CV，甚至可能要懂图形学、语音处理。这个知识栈的要求，天然就筛掉了一大批人。LLM的很多知识，看看博客、刷刷论文、跑跑开源代码，似乎很快就能上手。但要真正理解Diffusion Model的数学原理，或者搞懂NeRF（神经辐射场）这种东西，没下苦功夫是不行的。

我之前团队里一个做CV的小伙，在大家一窝蜂转LLM的时候，他坐得住冷板凳，一头扎进了3D生成。当时我们都觉得这方向太窄，不好找工作。结果今年，Sora出来之后，所有大厂都在布局视频和3D生成，他手里的offer拿到手软，给的package比同级别的LLM岗高了至少30%。人家面试官问的都是底层细节，什么DiT架构、视频压缩网络，他都能对答如流。而很多搞LLM应用的同学，面试官问到Transformer的底层优化，就有点支支吾吾了。

这就是壁垒。当潮水褪去，那些只会在岸边捡贝壳的人就尴尬了，而那些学会了深潜的人，才能拿到真正的宝藏。

第三，岗位需求正在爆发，但合格的人才供给严重不足。

现在打开招聘软件看看，搜“多模态算法”，你会发现很多岗位要求都非常高，而且薪资范围也给得非常宽。这说明什么？说明用人单位自己都清楚，这个方向的人不好招。他们愿意为真正懂技术的人才付出高昂的溢价。

LLM方向呢？海量的求职者，大家都会用LangChain，都会做RAG，简历看起来都差不多，那凭什么给你高薪？只能卷项目、卷实习、卷学历。

应用岗和算法岗的区别，以及多模态的应用岗

这个问题也很好。

算法岗 ，说白了，是 生产工具 的人。他们关心的是模型的性能、效率、泛化能力。他们的工作成果通常是模型本身，或者是一篇论文，一个专利。比如，研究一种新的网络结构，让视频生成的时间一致性更好。

应用岗 ，则是 使用工具 的人。他们关心的是如何用现有的模型解决具体的业务问题。他们的工作成果通常是一个上线的功能，一个提升的业务指标。比如，用一个现有的文生图模型，做一个海报自动生成工具，并优化提示词模板，让生成的海报转化率提升5%。

所以，算法岗对技术深度要求高，应用岗对业务理解和工程能力要求高。

那多模态现在有没有应用岗？

当然有，而且越来越多了。视频平台会用多模态模型自动生成视频摘要、打标签、审查违规内容；电商平台用文生图帮助商家快速生成商品图，并通过虚拟试衣提升用户体验；设计类软件把图、文、视频等 AIGC 能力无缝嵌进创作流程，比如 Adobe Firefly；教育领域出现了“AI 老师”，能根据学生的文本提问，动态生成图片或视频解释复杂概念；游戏行业更是热闹，AI 已经能生成 3D 场景、NPC 对话，甚至角色动画，这些应用正成为新的内容生产引擎。

这些岗位，既需要你懂模型，又需要你懂业务，是连接技术和商业的桥梁。对于刚毕业的学生，如果对自己的算法研究能力没那么自信，或者更喜欢做看得见摸得着的产品，这也是一条非常好的路。

如果你想清楚了要搞多模态，下面这几条你听清楚，不是什么人生哲理，就是几条能让你少走弯路的“土办法”。

第一，别把看论文当学习，那顶多算“信息录入”。

看论文这事儿最容易自欺欺人。收藏夹里存个几百篇，感觉自己懂得挺多，面试官一问细节，支支吾吾。这没用。你得找个东西“刻”在脑子里。

怎么刻？你甭管别的，就盯住一个方向，比如现在最火的视频生成。把Sora的技术报告（假如它细节公布了的话）或者相关的开源实现，比如Open-Sora、Latte这种，给我当成你毕业设计的代码那么去读。

你得搞清楚：

人家的数据是怎么洗的？怎么切成patch的？为什么这么切？
那个DiT（Diffusion Transformer）到底是怎么把文本条件加进去的？代码里哪几行是干这个的？
跑起来，你肯定会遇到各种坑，显存爆炸、loss是NaN、生成的东西一坨屎。你就去debug，去一行一行地看，去Github issue里跟人撕逼讨论。这个过程，比你看一百篇论文的摘要都有用。

你得自己动手把一个东西从头到尾跑通，甚至魔改一下。没卡就去租，现在AutoDL、恒源云这种平台一天几十块钱就能搞个不错的卡，这顿饭钱你必须得花，不然你简历上那个“熟悉xxx模型”就是一句空话，一戳就破。

第二，数学和基础别丢。各种新奇的开源项目是好看，但不扎实的数学就像空心楼梯，踩几步就塌。

很多人把公式挂嘴边，显得自己很牛。其实大部分时候，我们根本不需要从头推导一个什么玩意儿。那为啥还要啃数学？

是为了让你在模型出问题的时候，能有方向地去猜，而不是抓瞎。

举个例子，你训个diffusion model，结果生成出来的全是纯纯的噪声，半点图像的影子都没有。这时候你怎么办？如果你懂那个加噪去噪的数学过程，你至少能怀疑几个点：是不是我的time embedding出问题了？是不是U-Net的结构没把噪声和条件信息给解耦开？是不是我用的scheduler在推理的时候步子迈得太大了？

你看，这就是懂和不懂的区别。不懂的人只会反复检查输入数据的格式，然后上网搜“diffusion model训练失败怎么办”。而你，可以直接去看模型里那几个关键模块的中间输出，用数学直觉去定位问题。这才是你比别人牛逼的地方，是你在工作里解决实际问题的能力。

第三，学点交叉领域的硬知识，多模态就是融合能力

别觉着你搞传统深度学习，尤其是PINN这种物理结合的东西，好像跟现在的大模型有点脱节。我告诉你，这恰恰是你最大的优势。

Sora出来以后，大家都在喊“世界模型”。啥是世界模型？不就是用一个统一的模型去模拟我们这个世界的运行规律吗？物理规律，就是这个世界的底层代码啊！

你比那些纯CV、纯NLP出身的人，有一个天然的优势：你习惯用数学和物理的语言去描述问题。你知道怎么把一个微分方程塞进神经网络里，你知道怎么用网络去拟合一个动力学系统。

你有 DNN/PINN 背景是优势，但还不够 。去看些计算机图形学、渲染管线，补点信号处理，搞懂音频怎么表示。这些在你做跨模态任务时，很多坑就能自己填，不用等人救火。

接下来多模态要往哪走？肯定是要跟物理世界、跟交互、跟机器人结合。到时候，怎么让模型理解刚体碰撞？怎么让它生成符合流体力学的水流？这些问题，对纯搞数据驱动的人来说可能很头疼，但对你来说，不就是把PINN那套思想换个壳子用在新问题上吗？所以，千万别丢了你的老本行，要琢磨怎么把它跟你学的新东西结合起来。

第四， 搞清楚自己想成为什么样的人，追求技术深度还是广度。

最后说个最实在的，怎么让自己值钱，或者说，怎么让自己不容易在裁员的时候被优化掉。

两条路，你自己选。

一条路是往深了钻。你就死磕一个问题，成为这个小领域里全公司、甚至全国最懂的那几个人之一。比如说，你就专搞长视频里人物身份一致性的问题，把这个问题相关的几十篇论文、几个开源代码库吃得透透的，谁也别想在这上面糊弄你。公司只要有这个业务需求，第一个想到的就是你，那你就是安全的，也是值钱的。

另一条路是往广了走。你不一定非要精通某个模型的每一个细节，但你得知道现在市面上所有主流的武器（模型）都有啥，各自的优缺点是啥，适合打什么仗（业务场景）。你能把文生图、视频生成、语音识别这些不同的模型，像搭乐高一样组合起来，攒成一个能解决复杂问题的系统。你懂工程，懂部署，能把一个算法demo变成一个几百万人能用的线上服务。这种系统性的能力，同样非常稀缺。

最怕的是啥？卡在中间。深度不够，广度也有限，做的活儿就是调调参、跑跑开源代码，发发实验报告。这种人是最好替代的，因为总有比你更年轻、更便宜、更能卷的毕业生。

前阵子整理电脑，翻出了我压箱底近十年的私藏。这不只是一份书单或课程列表，而是我从一个码农到带头人，一路踩坑验证过的知识体系地图。

从操作系统、网络这些硬核基础，到架构设计，再到算法实战，都帮你串好了。啃下来，地基绝对比别人牢。

分享出来，就是希望能帮你少走弯路，把劲儿使在刀刃上。东西放下面了，自取。

（持续更新中）技术总监收藏夹的学习资源汇总：计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型(https://zhuanlan.zhihu.com/p/1908531890048172986)

就说这些吧，祝好运~