大模型时代下,nlp初学者需要怎么入门?

大模型之心Tech 2025-08-09 08:00

作者 | 悦木Ivy 编辑 | 大模型之心Tech

原文链接:https://www.zhihu.com/question/595292943/answer/3495933505

点击下方卡片,关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

入门姿势简单粗暴: 打一些必要的基础就跑步进入Transformer。

大模型时代,传统的算法,像分词、词性标注,被替代得非常厉害,在入门阶段没必要花费太多精力在传统算法上面。

数学和编程基础

数学: 高数、线数、概率统计。大学水平就可以,如果基础差,可以后续边学边补。

Python: 语言推荐python,基本上绕不过去。不用学太深,掌握Python的基本语法、数据类型、控制结构(如循环和条件语句)、函数等就够了

推荐资源:b站小甲鱼

pytorch: 深度学习的主流框架之一。推荐b站刘二大人《PyTorch深度学习实践》、我是土堆的《pytorch深度学习快速入门教程》

跑步进入Transformer

学习Transformer模型的基本架构和原理,包括自注意力机制、位置编码、多头注意力等等。

推荐资料:

吴恩达的deeplearning系列课程

斯坦福CS224-深度学习自然语言处理

李沐老师的《动手学深度学习》

都是经典,选自己能听得下去的听,完成作业,在这个过程中构建完整的知识体系版图。

资讯配图
复旦大学邱锡鹏教授:神经网络与深度学习

Hugging Face Transformers: 使用Hugging Face Transformers库来加载、训练、评估模型以及完成下游NLP任务。

预训练大语言模型

最近几年,随着gpt4,llama等带起的百模大战持续火热,预训练大模型这块的研究、应用和发展都受到了广泛的关注。尤其到了现今企业纷纷开始卷应用落地的时候,用人市场现状就是 一方面有缺口,另一方面真正有全面项目落地经验的人才太少了。

我们自己招人时的体感也是一样的,就是一个抢人的气氛。人才紧俏的结果就是入行容易、薪资有溢价。所以你懂的,这就是机会啊!

像预训练大模型整套知识体系,包括常见的预训练模型、模型结构、主要的预训练任务等等,必须要有所侧重地学明白,无论是科研还是就业,都是重中之重。 PEFT(Parameter-Efficient Fine-tuning)要学,有机会动手训一个大语言模型可行性比较低,但微调是每个人都可以实践的。另外就是要会langchain进行下游任务的开发。

具体的训练方法,我这里就不多讲了,强烈推荐大家来听听这节「AI大模型公开课」,主要针对的就是想进阶AI方向的产品经理和程序员,讲解大模型相关的LangChain、Fine-tune技术,从理论实践到深度讲解,带你全程体验微调过程。一定要仔细听,有老师带着,会比自己踩坑高效很多。

而且现在课程免费,点开还能领的一定要先占个位置:

这节公开课不仅有理论知识,还会教你如何构建自己的大模型应用,挖掘大模型时代的产品机遇和商业模式。如果你懂点Python,那这节课对你来说学起来会很轻松!相信你学完这个课程,对大模型技术与商业应用的认知会上一个台阶。

项目实践

除了参加学校实验室的项目,做开源项目、参加实习都是获得项目实践机会的方法。还有就是参加竞赛。这些竞赛项目一般会提高提供基本的数据集以及要解决的问题,同时也会给出一些baseline代码作为参考,非常有助于入门学习。

1)Kaggle
Kaggle大名鼎鼎的竞赛社区,有很多有意思的数据集和任务,可以通过参加Kaggle机器学习比赛来下载相关数据集。

2)天池大赛

阿里云举办的竞赛,完全来自真实业务场景。每场赛事沉淀的课题和数据集,在天池保留和开放。

资讯配图

国内的竞赛还有很多,和鲸,华为云,datafountain等等。

大模型时代,考虑到成本和安全,在实际应用中,选择私有化部署一套自己的百亿量级的大模型的情况还是非常多的。因此项目实践中药着重锻炼的不但有编码能力,还有工程能力。

大量阅读经典论文,积累代码经验

阅读论文是获取知识和理解最新进展的重要途径。一个是细分领域的经典论文,包括baseline;另一个是前沿方案。针对论文中提到的陌生知识点,去有意识地学习;还可以通过关注论文的引用和参考文献来扩展阅读范围。总之积累的过程中还要持续消化,对于前沿方案,在可能性、局限性应用前景和潜在风险等方面要能有自己的思考,别人问时能说出来东西。

Papers with code

里面有基于深度学习各个方向的论文和代码,找到自己感兴趣的,去实现它。注意一定要读有开源代码的论文,尽量去进行实现。

Github上的Awsome系列

近年来某个领域数据集、网络结构、论文,一网打尽,快速高效。

基础倒回来补

传统算法的基础知识对于模型可解释性、模型调试等方面具有重大意义。因此在掌握了Transformer等现代模型后,可以倒回来补充学习这些传统算法的基础知识,已达到更全面地理解NLP技术的本质和应用的目的。

为面试做准备

除了理论知识基础、项目经验、实习经验,按照当前的内卷形式,留出时间来专门准备面试是非常有必要的。可以尽可能多地过一些leetcode,多看一些面经分享。

针对AIGC算法工程师方面,建议单做一份简历,真的香。

最后,你可能会用到的资料:

小甲鱼的0基础入门课程:

【Python教程】《零基础入门学习Python》最新版(完结撒花 )

PyTorch课程:

刘二大人《PyTorch深度学习实践》

PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】

Papers with code

https://paperswithcode.com/

Hugging Face

https://huggingface.co/

非常宝藏的中文LLM大合集:

https://www.github-zh.com/projects/643916827-awesome-chinese-llm

面试相关:

GitHub - DA-southampton/NLP_ability: 总结梳理自然语言处理工程师(NLP)需要积累的各方面知识,包括面试题,各种基础知识,工程能力等等,提升核心竞争力

GitHub - songyingxin/NLPer-Interview: 该仓库主要记录 NLP 算法工程师相关的面试题

祝早日修成正果!

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。 

星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练后训练知识蒸馏量化推理模型MoE强化学习RAG提示工程等多个版块)、科研/办公助手AI创作工具/产品测评、升学&求职&岗位推荐,等等。

星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!

资讯配图



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
NLP
more
大模型时代下,nlp初学者需要怎么入门?
刚刚,NLP先驱、斯坦福教授Manning学术休假,加盟风投公司任合伙人
顶会ACL 2025 议程全览,Zettlemoyer、Rieser领衔,NLP年度盛会看点速递!
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
【AI加油站】第二十六部:NLP大牛Thomas Wolf等新书《Transformer自然语言处理》(附下载)
EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号