除了上述降维带来的重要好处之外,还带来了以下一些明显的好处:
(i)通过简化/压缩数据减少所需的存储空间。
(ii)通过减少数据量来减少计算时间。
(iii)有助于消除冗余点。
(iv)通过降低噪音来提高模型的准确性。
实现降维的方法
降低尺寸的两个重要方法是:
1.特征选择
顾名思义,特征选择是一种选 电报筛查 择与数据处理要求相关或适合的特征的简单技术。可以使用程序手动完成。以下是示例。
假设我们正在建立一个预测建筑物高度的模型。我们有一个包含各种特征的数据集,包括窗户数量、公寓数量、建筑物颜色等。
在这个降维的例子中,颜色特征几乎不是建筑物高度的决定因素,因此我们可以取消选择这个特征来简化我们的数据集。
特征选择可以分为三种类型:
(i)过滤器:在减少变量的同时不涉及任何学习。
(ii) 包装器:在减少变量的同时涉及一些学习。
(三)嵌入式方法:结合特征选择和分类器建立
2.特征提取
与选择不同,特征提取是将现有数据转换为变量数量减少的较不复杂的数据。
,这可能导致与原始数据集不同但更相关的数据集。
理解特征选择和特征提取之 評估標準 间的区别的一个简单方法是这样的——特征选择可以将(x,y,z)减少到(x,y);特征提取可以提取(2x-3y)。
除了上述方法之外,特征工程也是使用的方法之一,顾名思义,特征是基于现有特征设计或创建的。
它在很大程度上提高了模型的性能和准确性,但困难、耗时且通常成本高昂。
用于降维的方法
如前所述,降维就是通过降低维度来简化数据集。然而,这意味着总可用信息的减少,也意味着预测准确度的下降。
目标是使用一种降维方法来简化数据同时保留大部分信息。
回到我们的降维示例,考虑一个平面(正方形/矩形)而不是立方体,其中最大数据点位于平面中,我们可以看到大多数信息可以保留,同时降低数据的复杂性。
以下是实现降维的两种重要方法——
1.主成分分析
主成分分析(PCA) 是一种统计过程,它使用正交变换将一组可能相关的变量的观测值转换为一组称为主成分的线性不相关变量的值。