Home » 部落格 » 降维是简化可用数据的过程

降维是简化可用数据的过程

在统计学中特别有用,因此在机器学习中也很有用。

鉴于机器学习可能是近年来计算机科学中发展最快的领域,这一点本身就非常重要。

作为证据,让我们以戴夫·沃特斯(以及数百人)的这句名言为例——“预测未来不是魔法,而是人工智能”。

它使机器能够自行学习并执行只有人类才能完成的任务,而且规模也要小得多。

这本身就是人工智能的引擎,从而开启一个更加高效、便捷的世界。

什么是降维?

降维可以定义为通过降低集合的维数(通过减少随机变量的数量)来增加数据集的简单性的过程。

下面这段话是一个经典的降维例子。

想象一个立方体,其中分布着一系列点。在这种情况下,每个点都需要以 (x, y, z) 的形式在三维空间中进行描述。

假设存在一个平面能够通 电报数据库 过这个立方体中的大多数点,那么我们现在可以用这个平面(正方形或矩形)来代替立方体来描述这些点,形式为(x,y)。

当谈到数千甚至数百万个值时,这种减少意味着复杂性的显著降低。

让我们更详细地了解降维如何帮助处理大型复杂数据集。

为什么要降维?

要理解什么是降维,首先必须理解维数灾难。

维度灾难

维数灾难并不仅限于机 哪個是最好的客戶參與軟體? 器学习,它还指在高维空间中组织/分析数据时发生的一系列现象。请看以下例子:

维数灾难

在上面的例子中,位于一维的数据点只需要 4 个空间来描述任何一个点。

在第二幅图像中,仅增加一 台湾新闻 维(二维),空间数量就增加到 16。而在第三幅图像中,再次增加一维,空间数量增加到 64。

这表明,随着维数的增加,概括所需的数据量呈指数增长。

这反过来又影响了分类器的性能。在下图中,我们可以看出,随着维度的增加,分类器的性能会不断下降。

返回頂端