SVD, pseudoinverse en PCA: SVD, pseudoinverse en PCA
PCA: Principale Componenten Analyse
Stel dat we \(n\) grootheden \(X_1,\ldots, X_n\) observeren en \(N\) gegevens voor elke grootheid \(X_i\) verzamelen. We veronderstellen voor het gemak dat het gemiddelde voor elke grootheid gelijk aan nul is (anders trekken we de gemiddelden van de gemeten grootheid af). We zetten deze gegevens in een (\(N\times n\))-matrix \(X=(x_{ij})_{i=1,\ldots N;\; j=1\ldots n}\). Dan is de covariantiematrix \(C\) een symmetrische (\(n\times n\))-matrix en te schrijven als \[C=\frac{1}{N-1}X^{\top}\!X\] In Principale Componenten Analyse, afgekort PCA, probeer je een lineaire transformatie van de grootheden \(X_1,\ldots, X_n\) naar nieuwe grootheden \(Y_1,\ldots, Y_n\) te vinden zodanig dat de getransformeerde gegevens ongecorreleerd zijn. Dit kun je realiseren door eigenvectoren van de correlatiematrix \(C\) te bepalen.
De eerste principale component van de data is de eigenvector bij de grootste eigenwaarde.
De tweede principale component van de data is de eigenvector bij de op één na grootste eigenwaarde.
Enzovoorts
De eerste principale component heeft de grootste variantie; de tweede principale component heeft de op één na grootste variantie; enzovoorts.
In plaats van alle grootheden te beschouwen kun je de gegevens compacter beschrijven door alleen de ruimte opgespannen door de eerste paar componenten van de covariantiematrix te gebruiken.
Het berekenen van principale componenten wordt gewoonlijk uitgevoerd d.m.v. de singulierewaardenontbinding.