
一、机器学习基础概念
1. 什么是机器学习
机器学习并不等同于人类学习。它本质上是找到一组数学公式,使得输入(训练数据)能输出期望结果。之所以叫“学习”,源于1959年IBM的营销术语。
2. 学习类型
监督学习:用带标签的数据训练模型(如垃圾邮件分类)。
无监督学习:无标签数据,发现隐藏结构(如聚类)。
半监督学习:少量标签+大量无标签数据。
强化学习:通过奖励机制学习策略(如游戏AI)。
二、监督学习核心流程
1. 数据准备
特征工程:将原始数据(如邮件文本)转为数值特征(如词袋模型)。
标签处理:分类问题需将标签转为数值(如垃圾邮件=1,正常邮件=-1)。
2. 模型训练
以支持向量机(SVM)为例:
在高维空间中寻找超平面分离不同类别。
优化目标:最大化类别间隔(最小化||w||)。
处理噪声:引入软间隔和惩罚参数C。
非线性问题:使用核函数(如RBF核)将数据映射到高维空间。
三、五大基础算法
1. 线性回归
模型:y = wx + b,通过最小化均方误差(MSE)拟合数据。
优点:简单、不易过拟合;缺点:无法捕捉非线性关系。
2. 逻辑回归
本质是分类算法,用sigmoid函数将线性输出映射为概率。
优化:最大化似然函数,而非最小化误差。
3. 决策树(ID3/C4.5)
通过信息增益(熵减)选择分裂特征,构建树结构。
处理过拟合:剪枝(如C4.5的悲观剪枝)。
4. 支持向量机(SVM)
核心:最大间隔分类器,支持核技巧处理非线性。
关键参数:C(正则化强度)、核函数类型(线性/RBF)。
5. k近邻(kNN)
惰性学习:不训练模型,直接根据邻居投票预测。
距离度量:欧氏距离或余弦相似度,k值需调参。
四、神经网络与深度学习
1. 多层感知机(MLP)
结构:输入层→隐藏层(ReLU/tanh激活)→输出层(softmax/sigmoid)。
训练:反向传播+梯度下降,需调参学习率、层数、神经元数。
2. 卷积神经网络(CNN)
专为图像设计:卷积层提取局部特征,池化层降维。
关键概念:卷积核、步长(stride)、填充(padding)。
3. 循环神经网络(RNN)
处理序列数据(如文本),但存在梯度消失问题。
改进:LSTM/GRU通过门控机制保留长期记忆。
五、模型优化与评估
1. 过拟合与正则化
过拟合原因:模型复杂、数据量不足。
解决方案:
L1/L2正则化(惩罚大权重)。
Dropout(随机屏蔽神经元)。
早停(Early Stopping)。
2. 超参数调优
网格搜索:穷举参数组合(如SVM的C和核)。
交叉验证:将训练集分为k折,避免过拟合验证集。
3. 评估指标
分类:准确率、精确率/召回率、F1分数、AUC-ROC。
回归:均方误差(MSE)、R²。
六、无监督学习
1. 聚类算法
k-means:基于距离的硬聚类,需预设簇数k。
DBSCAN:密度聚类,自动识别任意形状簇,抗噪声。
高斯混合模型(GMM):软聚类,用EM算法估计参数。
2. 降维技术
PCA:线性投影到最大方差方向。
UMAP:非线性流形学习,保留局部结构,适合可视化。
七、高级应用场景
1. 序列到序列(Seq2Seq)
用于机器翻译、文本摘要,由编码器(RNN/CNN)和解码器(带注意力机制)组成。
2. 推荐系统
协同过滤:基于用户-物品交互矩阵(如Netflix推荐)。
因子分解机(FM):处理稀疏特征的高阶交互。
3. 迁移学习
预训练模型(如ImageNet的CNN)微调适应新任务,减少数据需求。
4. 一/零样本学习
一-shot学习:用Siamese网络比较图像相似性(如人脸识别)。
零-shot学习:通过属性嵌入预测未见类别(如识别新动物)。
八、实践建议
1. 数据不平衡处理
过采样:SMOTE合成少数类样本。
加权损失:为少数类分配更高权重。
2. 模型组合
集成方法:随机森林(Bagging)、梯度提升树(Boosting)。
堆叠(Stacking):用元模型组合不同基模型输出。
九、未涵盖内容(扩展阅读)
主题模型:LDA用于文本主题发现。
高斯过程:贝叶斯非参数回归,提供不确定性估计。
强化学习:Q-Learning、策略梯度,用于游戏和机器人控制。
生成对抗网络(GAN):生成逼真图像或数据。
十、总结
本书用简洁语言覆盖了机器学习的核心算法与实践,从线性回归到深度学习,从监督到无监督学习。重点在于理解模型假设、优化目标及适用场景,而非数学推导。实际应用中,需结合数据特性(规模、稀疏性、模态)选择算法,并通过调参和验证集优化性能。






本书免费下载地址
关注微信公众号“人工智能产业链union”回复关键字“AI加油站42”获取下载地址。
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)