在统计学中特别有用,因此在机器学习中也很有用。
鉴于机器学习可能是近年来计算机科学中发展最快的领域,这一点本身就非常重要。
作为证据,让我们以戴夫·沃特斯(以及数百人)的这句名言为例——“预测未来不是魔法,而是人工智能”。
它使机器能够自行学习并执行只有人类才能完成的任务,而且规模也要小得多。
这本身就是人工智能的引擎,从而开启一个更加高效、便捷的世界。
什么是降维?
降维可以定义为通过降低集合的维数(通过减少随机变量的数量)来增加数据集的简单性的过程。
下面这段话是一个经典的降维例子。
想象一个立方体,其中分布着一系列点。在这种情况下,每个点都需要以 (x, y, z) 的形式在三维空间中进行描述。
假设存在一个平面能够通 电报数据库 过这个立方体中的大多数点,那么我们现在可以用这个平面(正方形或矩形)来代替立方体来描述这些点,形式为(x,y)。
当谈到数千甚至数百万个值时,这种减少意味着复杂性的显著降低。
让我们更详细地了解降维如何帮助处理大型复杂数据集。
为什么要降维?
要理解什么是降维,首先必须理解维数灾难。
维度灾难
维数灾难并不仅限于机 哪個是最好的客戶參與軟體? 器学习,它还指在高维空间中组织/分析数据时发生的一系列现象。请看以下例子:
维数灾难
在上面的例子中,位于一维的数据点只需要 4 个空间来描述任何一个点。
在第二幅图像中,仅增加一 台湾新闻 维(二维),空间数量就增加到 16。而在第三幅图像中,再次增加一维,空间数量增加到 64。
这表明,随着维数的增加,概括所需的数据量呈指数增长。
这反过来又影响了分类器的性能。在下图中,我们可以看出,随着维度的增加,分类器的性能会不断下降。