无监督学习

2022年1月3日, Learn eTutorial

1322

现在我们已经了解了监督学习方法以及在监督学习中使用的不同回归和分类算法。现在是时候进一步学习非监督学习了，我们称之为无监督学习。

简单来说，无监督学习有助于解决更多实际问题，因为它类似于人脑，必须从数据集中学习底层模式，而无需构建完善的训练数据集。

什么是无监督学习？

无监督学习是另一种机器学习类型。目标是在没有人类干预的情况下，学习数据中潜在的模式和结构，而无需将其映射到响应变量或标签。相反，数据可以进行排序、压缩、聚类或可视化，从而使用户能够高层次地了解整个数据集。

换句话说，我们可以将无监督学习定义为在没有监督的情况下进行的学习。这意味着我们只有一个数据集，并且没有用于训练模型的给定训练数据集。因此，模型必须找到隐藏在数据集内部的内部模式和关系，并根据相似性对它们进行分类。

为了更清晰地理解，我们可以举一个蔬菜和水果的例子。无监督机器学习算法必须对蔬菜和水果的图片进行分类。不同之处在于，在监督学习中，有一个经过训练的数据集可以了解蔬菜和水果的特征以对其进行分类。在这里，算法对蔬菜或水果的特征一无所知；它必须自己识别图像中的相似性，并必须将给定数据集分类为水果和蔬菜。
无监督学习通过根据它从分析数据集中获得的相似性将图像聚类成组来完成这项工作。

数据探索

有时，我们得到一个数据集，但我们不知道要执行哪种分析。相反，我们被要求寻找数据中有趣的属性。

这就是无监督学习的用武之地——了解数据结构本身，没有任何强加的偏见。例如，通过对数据进行聚类，我们可以看到是否存在可以进一步分析的自然出现的模式。

数据可视化

对于包含许多特征的数据集，如果没有一种方法来可视化这些高维数据集中的数据，就很难提取洞察力。

一些现代的无监督学习算法，如 T-SNE 和 UMAP，可以将高维数据集压缩成一个较小的集合。这些方法使数据可视化变得更容易，同时为底层数据结构提供了重要的见解。

去除数据中的相关性

让我们以观察弹簧振荡来测量弹簧常数为例——一个经典的物理问题。我们提供三个摄像头，它们正在计算弹簧上球体的轨迹。

一个问题是，“我们是否在最佳方向上查看数据以测量我们的弹簧常数？”（答案是否定的）。这类似于训练机器学习模型，我们需要以最佳方式构建数据，以便模型可以提取尽可能多的信息。主成分分析等无监督方法可以通过去除数据中的相关性来做到这一点。

压缩数据

如果我们考虑上面的相机示例，我们注意到三个相机都在测量相同的事件，只是以略微不同的方式观察弹簧。因此，其中一些特征有点冗余。

无监督学习方法可以告诉我们哪些特征没有太多信息，或者彼此高度相关，从而使模型能够更有效地学习。