举例说明维度的高低会影响数据的预测:
二维空间中随机两点的平均距离为0.52,三维空间中随机两点的平均距离为0.66,100万维的空间中随机两点的平均距离维408.25
也就意味着无限大的高维空间是非常稀疏的,非常容易过拟合,所以预测是极不稳定的,因此我们有降维的需求。
当然,我们应该明白,不是所有的数据都一定需要降维,有些在高维空间反而更加容易区分。例如,瑞士卷,X=5左边1类,右边2类。
PCA 投影,高维空间的低维子空间。保留差异性最大的轴。利用SVD分解。 包括SVD,随机PCA
LLE 流型学习(瑞士卷),可以展开为二维空间。