
《自然语言处理导论》由张奇、桂韬、黄萱菁编写,系统涵盖了自然语言处理(NLP)的基础理论、核心技术及模型分析,以下是详细内容总结:
序与前言
- 序(吴立德)
:指出 ChatGPT 的兴起推动了 NLP 的普及,NLP 作为人工智能的重要分支,研究如何让计算机像人类一样使用自然语言。本书全面梳理了 NLP 的成果,适合作为高校教材及相关读者参考,体现了作者在 NLP 教学与科研中的深厚积累。 - 前言
:作者结合近 20 年研究经历,说明本书历时近三年完成,融合语言学、计算机科学、机器学习等多学科知识。内容按 NLP 研究范式(基于规则、统计、深度学习等)组织,面向高年级本科生、研究生及入门读者。全书分基础技术、核心技术、模型分析三部分,平衡知识储备与内容完备性,建议读者先学习机器学习基础。
1. 绪论
- 基本概念
:NLP 旨在实现人机自然语言交流,包括自然语言理解(NLU)和生成(NLG),是 AI 的核心分支。 - 发展简史
:从 1940s 沃伦・韦弗提出机器翻译可能,到 1950s 图灵测试、1954 年首次机器翻译演示;经历基于规则(1950s-80s)、统计机器学习(1990s-2010s)、深度学习(2010s 至今)、大模型(2020s 至今)四个阶段,GPT 等大模型是当前热点。 - 研究内容
:分基础算法(自然语言理解与生成)和应用技术(信息抽取、机器翻译等),涉及字、词、句子、篇章等粒度,关联形态学、语法学、语义学等语言学层面。 - 主要难点
:核心是歧义问题,包括语音歧义(同音异义词)、词语切分歧义(如中文分词的交集型、组合型歧义)、词义歧义(多义词)、结构歧义(句法结构不同)、指代 / 省略歧义、语用歧义;此外,语言动态发展(新词、新用法)也带来挑战。 - 基本范式
: 基于规则:依赖人工制定的语言规则,直观但覆盖率低、维护难。 基于机器学习:将 NLP 任务转为分类问题,依赖特征工程和标注数据,流程包括数据构建、预处理、特征构建、模型学习。 基于深度学习:自动学习特征,采用分布式表示,预训练微调范式(如 BERT)成为主流。 基于大模型:通过大规模预训练和指令微调,实现通用任务泛化,如 ChatGPT。
2. 词汇分析
- 词与语素
:词是独立运用的最小单位,由语素(词根、词缀)构成,分简单词和复杂词;词按功能分实义词(名词、动词等)和功能词(代词、介词等)。 - 词的形态学
:研究构词方式,包括屈折(如动词过去式)、派生(如加前缀)、复合(如 “homework”)等。 - 词语规范化
:包括词语切分(将字符序列切为词,处理英语缩写、中文无分隔符等问题)、词形还原(还原为词根)、词干提取(简化版还原,如 Porter Stemmer)。 - 中文分词
: 难点:分词规范不统一、歧义切分(交集型、组合型、真歧义)、未登录词识别。 方法:最大匹配(前向、后向、双向)、线性链条件随机场(CRF)、感知器、BiLSTM+CRF 等。 评价:精确率、召回率、F1 值,关注未登录词召回率。 - 词性标注
:确定词语在语境中的词性,方法包括基于规则(如 Brill Tagger)、隐马尔可夫模型(HMM)、卷积神经网络;评价用准确率、宏平均 F1。
3. 句法分析
- 句法概述
:句法研究句子结构规则,分成分语法(如乔姆斯基生成语法,关注短语结构)和依存语法(如 Tesnière 理论,关注词间依存关系)。 - 成分句法分析
: 基于上下文无关文法(CFG):用 CYK 算法(动态规划)、移进 - 归约算法解析句子结构。 基于概率 CFG(PCFG):计算句法树概率,通过内向 / 外向算法求句子概率,用概率 CYK 算法求最佳树,参数通过最大似然估计或 EM 算法学习。 评价:PARSEVAL 指标(标记精确率、召回率、交叉括号数)。 - 依存句法分析
: 基于图的方法:用朱刘算法求最大生成树(非投射性),或 CYK 变体解析投射性结构;神经网络方法(如 Deep Biaffine Parser)融合上下文信息。 基于转移的方法:通过移进、左弧、右弧操作构建依存树,神经网络(如堆栈 LSTM)提升状态表示。 评价:依存准确率(DA)、无标记 / 有标记依存准确率(UAS/LAS)、根准确率、完全匹配率。
4. 语义分析
- 语义学概述
: 词汇语义学:研究词义(语义场理论、成分分析等)和词汇关系(同义、反义、上下位等),代表资源有 WordNet、知网(HowNet)。 句子语义学:研究句子意义,包括真值条件语义、格语法(语义格如施事、受事)、句子间语义关系(同义、蕴含等)。 - 语义表示
:谓词逻辑(用符号表示语义,如 “Teacher (老张)”)、框架表示(槽值结构描述对象属性)、语义网(节点和弧表示概念及关系)。 - 分布式表示
:将文本转为低维稠密向量,包括: 单词表示:基于共现矩阵 SVD、Word2Vec(CBOW、Skip-Gram)、GloVe、子词表示(BPE)。 句子表示:Skip-Thought(预测上下文句子)、Sent2Vec(融合 n-gram)。 篇章表示:TF-IDF(衡量词重要性)、fastText(融合字符特征)。 - 词义消歧
:确定多义词在语境中的含义,方法包括基于上下文分类、词义释义匹配(如 GlossBERT)、知识增强预训练(如 SenseBERT);评价用精确率、召回率、F1 值。 - 语义角色标注(SRL)
:识别谓词的论元及角色(如施事、受事),方法包括基于句法树(成分 / 依存结构)、神经网络(跨度预测、图卷积融合句法);评价关注论元识别与分类的精确率、召回率。
5. 篇章分析
- 篇章理论
:篇章是连贯的句子集合,需满足衔接(词汇 / 语法手段连接)、连贯(语义整体一致)、结构(线性与等级结构)等标准。 - 话语分割
:将篇章分为语义连贯的片段,方法包括基于词汇句法树的统计方法、循环神经网络。 - 篇章结构分析
:如修辞结构分析(RST)、浅层篇章分析,挖掘句子间修辞关系。 - 指代消解
:确定代词等指称的对象,方法包括基于表述对、排序、实体的模型。
总结
本书全面覆盖 NLP 的基础理论与核心技术,从词汇、句法、语义到篇章层面,系统介绍各任务的算法、评价及语料库,适合作为学习 NLP 的入门教材,反映了从传统方法到深度学习、大模型的发展脉络。













本书免费下载地址
关注微信公众号“人工智能产业链union”回复关键字“AI加油站47”获取下载地址。
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)