PCA: my interpretation
合着按着我自己的思路才是最好理解的。PCA 的整个过程其实就是:寻找一个基变换 (change of basis),使得新坐标系内的 axes 的功效可以量化。这个量化的意思是,如果新坐标系内有 x’-axis 和 y’-axis,我可以明确地写出
第一步:CenteringPermalink
假设我有
给
(mean of each column) (column 整体减去 mean of column)
做完 column-wise centering 之后,才能有 covariance matrix
第二步:假设一个 change of basis (实际并不需要执行这个 change of basis)Permalink
当前的
假设变换后的
题外话:如果对
- 注意
的 row 才是 coordinates,所以应该是 而不是 - 另外有一点:基变换是 linear transformation,所以
的每个 column 的 mean 仍然为 0 (沿袭第一步 centering 的效果),所以仍然有
第三步:定量 Effect of axisPermalink
那我们现在研究:
这就是我们要找的 effect of axis,令
第四步:通过 Eigen-decomposition 确定 change of basisPermalink
那为了让这个比值有意义,我们可能会想说:如果
那么我们就直接这样做好了!
直接 eigen-decompose
- 因为
必定 positive semi-definite,所以 eigenvalues 都是 non-negative - 最大的 eigenvalue 对应的 eigenvector 的方向,
所保留的 covariance 最大 - 第二大的 eigenvalue 对应的 eigenvector 的方向,
所保留的 covariance 次之- 依此类推
注意很多教程写的是方法是去 SVD
Comments