大模型时代下，nlp初学者需要怎么入门？

作者 | 悦木Ivy 编辑 | 大模型之心Tech
原文链接：https://www.zhihu.com/question/595292943/answer/3495933505

点击下方卡片，关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

入门姿势简单粗暴： 打一些必要的基础就跑步进入Transformer。

大模型时代，传统的算法，像分词、词性标注，被替代得非常厉害，在入门阶段没必要花费太多精力在传统算法上面。

数学和编程基础

数学： 高数、线数、概率统计。大学水平就可以，如果基础差，可以后续边学边补。

Python： 语言推荐python，基本上绕不过去。不用学太深，掌握Python的基本语法、数据类型、控制结构（如循环和条件语句）、函数等就够了

推荐资源：b站小甲鱼

pytorch： 深度学习的主流框架之一。推荐b站刘二大人《PyTorch深度学习实践》、我是土堆的《pytorch深度学习快速入门教程》

跑步进入Transformer

学习Transformer模型的基本架构和原理，包括自注意力机制、位置编码、多头注意力等等。

推荐资料：

吴恩达的deeplearning系列课程

斯坦福CS224-深度学习自然语言处理

李沐老师的《动手学深度学习》

都是经典，选自己能听得下去的听，完成作业，在这个过程中构建完整的知识体系版图。

Hugging Face Transformers： 使用Hugging Face Transformers库来加载、训练、评估模型以及完成下游NLP任务。

预训练大语言模型

最近几年，随着gpt4，llama等带起的百模大战持续火热，预训练大模型这块的研究、应用和发展都受到了广泛的关注。尤其到了现今企业纷纷开始卷应用落地的时候，用人市场现状就是 一方面有缺口，另一方面真正有全面项目落地经验的人才太少了。

我们自己招人时的体感也是一样的，就是一个抢人的气氛。人才紧俏的结果就是入行容易、薪资有溢价。所以你懂的，这就是机会啊！

像预训练大模型整套知识体系，包括常见的预训练模型、模型结构、主要的预训练任务等等，必须要有所侧重地学明白，无论是科研还是就业，都是重中之重。 PEFT（Parameter-Efficient Fine-tuning）要学，有机会动手训一个大语言模型可行性比较低，但微调是每个人都可以实践的。另外就是要会langchain进行下游任务的开发。

具体的训练方法，我这里就不多讲了，强烈推荐大家来听听这节「AI大模型公开课」，主要针对的就是想进阶AI方向的产品经理和程序员，讲解大模型相关的LangChain、Fine-tune技术，从理论实践到深度讲解，带你全程体验微调过程。一定要仔细听，有老师带着，会比自己踩坑高效很多。

而且现在课程免费，点开还能领的一定要先占个位置：

这节公开课不仅有理论知识，还会教你如何构建自己的大模型应用，挖掘大模型时代的产品机遇和商业模式。如果你懂点Python，那这节课对你来说学起来会很轻松！相信你学完这个课程，对大模型技术与商业应用的认知会上一个台阶。

项目实践

除了参加学校实验室的项目，做开源项目、参加实习都是获得项目实践机会的方法。还有就是参加竞赛。这些竞赛项目一般会提高提供基本的数据集以及要解决的问题，同时也会给出一些baseline代码作为参考，非常有助于入门学习。

1）Kaggle
Kaggle大名鼎鼎的竞赛社区，有很多有意思的数据集和任务，可以通过参加Kaggle机器学习比赛来下载相关数据集。

2）天池大赛

阿里云举办的竞赛，完全来自真实业务场景。每场赛事沉淀的课题和数据集，在天池保留和开放。

国内的竞赛还有很多，和鲸，华为云，datafountain等等。

大模型时代，考虑到成本和安全，在实际应用中，选择私有化部署一套自己的百亿量级的大模型的情况还是非常多的。因此项目实践中药着重锻炼的不但有编码能力，还有工程能力。

大量阅读经典论文，积累代码经验

阅读论文是获取知识和理解最新进展的重要途径。一个是细分领域的经典论文，包括baseline；另一个是前沿方案。针对论文中提到的陌生知识点，去有意识地学习；还可以通过关注论文的引用和参考文献来扩展阅读范围。总之积累的过程中还要持续消化，对于前沿方案，在可能性、局限性应用前景和潜在风险等方面要能有自己的思考，别人问时能说出来东西。