让AI“开窍”的艺术：机器学习

首先，我们需要了解一下，什么是机器学习？

机器学习其实是人工智能的一个领域，本质上是研究怎样让计算机像人一样进行学习，获取新的知识和技能，从而不断改善自身的性能。

机器学习vs传统编程

在传统的编程过程中，计算机的工作主要是根据人们给它的数据和规则去进行计算，最终得到答案。

程序员需要提前写好所有规则，让计算机能够依照规则进行执行，例如要让计算机判断图片上的是猫还是狗，就得一条条写清楚猫和狗的特点（规则），但是这么一条条要全部写出来，程序员表示臣妾做不到啊~

于是机器学习反其道而行，我们不告诉计算机具体的规则，而是给计算机大量的数据，让计算机在数据中总结规律，从而能去运用规律。

我们给计算机看几千张猫的照片，不用去给它解释猫的耳朵有点像三角形，有胡须，还会喵喵叫等等，只需要计算机通过这些照片（数据）去总结规律，自然就能认识猫了。

传统编程：程序员写规则→程序执行→得到结果

机器学习：给程序数据→程序学习→自动得出规则

传统编程和机器学习的它们的本质区别就是：谁在制定规则？

传统编程适用于规则明确、逻辑清晰的问题；机器学习适用于规则复杂、难以人工总结的场景。

机器学习的三大学习方式

机器学习的核心学习方式主要分为三类：监督学习、无监督学习、强化学习。

监督学习是机器学习中最常见的学习方式之一，核心逻辑和我们上学刷题如出一辙——有明确题目、有标准答案，学完就能直接“应试”。

它的训练数据都带有“标签”，相当于“输入内容+正确结果”的配套套餐，模型就像认真刷题的学生，通过反复学习海量“题目（输入特征）+答案（标签）”，慢慢摸清两者之间的对应规律（映射关系），看到A特征，就能对应B结果。

与监督学习不同，无监督学习的输入数据都是不带标签的原始素材。

模型得像侦探一样，自己从海量数据里找到隐藏的规律。

它的核心任务是挖掘数据的内在结构：哪些数据长得像可以归为一类？数据的核心特征是什么？有没有偏离常规的“异类”？

这些全都靠模型自主发现。

强化学习的核心是在互动中成长，既没有监督学习的固定标准答案，也不像无监督学习那样没有明确的目标，它更像是一款闯关游戏，模型就是“玩家”，环境则是“游戏地图”，有明确的“通关目标”，还有即时的奖惩机制。

模型会在环境中不断尝试行动，做对了（靠近目标）能拿到奖励，做错了（偏离目标或遇到障碍）则得到惩罚。

通过一次次试错，模型可以慢慢优化行动策略，从“处处碰壁”到“精准避坑”，最终找到最快通关的最佳路径。

机器学习的学习N步曲

机器学习的过程不是一步到位的，它也有一套明确步骤的成长流程，要从菜鸟变大神，AI也需要经历“找素材、选方法、勤练习、验成果、上岗实战”的完整路径。

机器学习的核心过程可以概括为5步：数据准备→模型选择→训练优化→评估测试→部署应用，本质是“用数据喂模型、用反馈调整模型、用实战验证模型”的闭环。

1. 数据收集与预处理

学习的第一步就是收集学习素材（数据），如果模型要使用监督学习方式训练，那么就要收集“输入+标签”的配套数据，如果模型要使用无监督学习方式进行训练，那么就要收集原始无标签的数据。

当然，收集到的数据还需要进一步的加工和整理（数据清洗、数据预处理等），以便模型能够读懂。

2. 选择学习方式和算法

模型就像是一个学习工具，不同的模型，擅长处理不同任务类型的问题，比如有的擅长处理图片，有的擅长处理文字。

模型的选择取决于任务类型和数据特征，在训练时，需要根据任务的性质和数据的特点来选择模型的学习方式和算法。

文档君整理了一个表格，三种方式到底怎么选，一目了然~