19.8 Die Singulärwertzerlegung und die Polarzerlegung
19.8.1 Die Singulärwertzerlegung
Eine weitere wichtige Folgerung aus dem Spektralsatz für selbstadjungierte Endomorphismen ist die sogenannte Singulärwertzerlegung für komplexe oder reelle Matrizen, die insbesondere auch dann sehr nützlich ist, wenn konkrete Berechnungen mit (großen) Matrizen gemacht werden sollen. In der Numerik wird die Theorie noch weiter entwickelt, wir wollen das Thema aber hier als eine weitere schöne Anwendung des Spektralsatzes anreißen. Auch abseits der Nützlichkeit für Berechnungen trägt der Satz zum strukturellen Verständnis beiträgt.
Sei \(A\in M_{m\times n}(\mathbb K)\). Dann existieren Matrizen \(V\in GL_m(\mathbb K)\) und \(W\in GL_n(\mathbb K)\) mit \(V^{-1} = V^\ast \), \(W^{-1} = W^\ast \) und eine (Block-)Matrix
wobei \(\Sigma _r = \operatorname{diag}(\sigma _1, \dots , \sigma _r)\), \(\sigma _i\in \mathbb R\) mit \(\sigma _1\ge \cdots \ge \sigma _r {\gt} 0\) und \(r = \operatorname{rg}(A)\) ist, so dass
gilt.
Dabei ist die Matrix \(\Sigma \) eindeutig durch \(A\) bestimmt. Die Zahlen \(\sigma _i\) heißen die Singulärwerte von \(A\).
Es ist in diesem Kontext üblich, die orthogonalen bzw. unitären Matrizen im Satz mit \(V\) und \(W\) zu bezeichnen, so dass wir von unserer gewohnten Konvention, dass \(V\) und \(W\) Vektorräume bezeichnen, in diesem Abschnitt abweichen.
Wir geben zuerst den Beweis in dem übersichtlicheren Fall, dass \(m=n\) und \(A\) invertierbar ist. Der allgemeine Fall ist ein bisschen schwieriger und von der Notation her etwas schwerer zu durchdringen. Sei also \(A \in GL_n(\mathbb K)\).
Wir beginnen mit der Eindeutigkeitsaussage. Ist \(A = V\Sigma W^\ast \) wie im Satz, so ist \(\Sigma ^2 = W^{-1}(A^\ast A)W\) konjugiert zu der hermiteschen (und daher diagonalisierbaren) Matrix \(A^\ast A\), also sind die Diagonaleinträge von \(\Sigma \) die Quadratwurzeln der Eigenwerte von \(A^\ast A\) und sind daher durch \(A\) eindeutig bestimmt.
Wir sehen hier auch schon einen Ansatz für den Existenzbeweis. Die Matrix \(A^\ast A\) ist hermitesch, und die zugehörige Sesquilinearform \(\beta \), \((v, w)\mapsto v^\ast (A^\ast A) w\), ist positiv semidefinit:
Weil \(A\) und damit auch \(A^\ast A\) invertierbar ist, ist \(\beta \) nicht-ausgeartet, also positiv definit (Korollar 19.54). Nach dem Spektralsatz (in der Form von Korollar 19.110) existiert eine orthogonale bzw. unitäre Matrix \(W\), so dass \(D := W^\ast (A^\ast A)W\) eine Diagonalmatrix \(D=\operatorname{diag}(d_1, \dots , d_n) \in GL_n(\mathbb R)\) mit positiven Einträgen auf der Diagonale ist. Indem wir gegebenenfalls noch mit einer Permutationsmatrix konjugieren und \(W\) entsprechend abändern, können wir annehmen, dass diese Werte absteigend angeordnet sind. (Man beachte, dass alle Permutationsmatrizen orthogonal sind.) Wir definieren \(\sigma _i := \sqrt{d_i}\in \mathbb R_{{\gt} 0}\) und
Es gilt dann also \(\Sigma ^2 = D\).
Wir setzen jetzt \(V = AW\Sigma ^{-1}\). Dann gilt \(A = V\, \Sigma \, W^\ast \) nach Definition von \(V\) und außerdem (wegen \(W^\ast A^\ast = DW^{-1}A^{-1}\))
Die Existenz der gesuchten Zerlegung ist damit auch bewiesen.
Bevor wir den Beweis im allgemeinen Fall geben, notieren wir noch ein einfaches Lemma.
Sei \(A\in M_{m\times n}(\mathbb K)\). Dann gilt \(\operatorname{rg}(A^\ast A) = \operatorname{rg}(A)\).
Wegen der Dimensionsformel genügt es, \(\operatorname{Ker}(A^\ast A)=\operatorname{Ker}(A)\) zu zeigen. Die Inklusion \(\supseteq \) ist dabei offensichtlich. Wenn andererseits \(A^\ast Av = 0\) gilt, dann folgt \((Av)^\ast (Av) = v^\ast A^\ast A v = 0\), also \(Av =0\), weil das Standardskalarprodukt nicht-ausgeartet ist. Damit ist die Gleichheit bewiesen.
Auch für nicht-quadratisches \(A\) ist die quadratische Matrix \(A^\ast A\) hermitesch und positiv semi-definit, wie man leicht mit derselben Rechnung wie im quadratischen Fall überprüft.
Die Eindeutigkeit von \(\Sigma \) können wir dann ähnlich wie in dem vorher behandelten Fall beweisen, denn aus \(A=V\Sigma W^\ast \) (für \(V\), \(W\), \(\Sigma \) mit den Eigenschaften, die im Satz angegeben wurden) folgt \(W\Sigma ^\ast \Sigma W^{-1} = W\Sigma ^\ast V^\ast V \Sigma W^\ast = A^\ast A\). Die Matrix \(\Sigma ^\ast \Sigma \) ist eine Diagonalmatrix in \(M_n(\mathbb R)\), deren erste \(r\) Einträge die Zahlen \(\sigma _i^2\) sind; die anderen Einträge sind \(=0\). Die Rechnung zeigt, dass diese Zahlen genau die Eigenwerte der Matrix \(A^\ast A\) sind, sie sind also durch \(A\) festgelegt. Damit sind \(\sigma _1, \dots , \sigma _r\) als die Quadratwurzeln der positiven Eigenwerte von \(A^\ast A\) bestimmt.
Auch den Existenzbeweis beginnen wir ähnlich wie vorher: Wir können nach Korollar 19.110 und Lemma 19.119
für
in der im Satz angegebenen Form (und für \(r=\operatorname{rg}(A)\)) schreiben. Wie im vorherigen Fall können wir erreichen, dass \(\sigma _1\ge \cdots \ge \sigma _r\) gilt, und nehmen an, dass das der Fall ist.
Schreiben wir \(S_1, \dots , S_n\in \mathbb K^m\) für die Spalten von \(AW\) und schreiben wir die obige Definition von \(\Sigma \) um als
so sehen wir, dass gilt:
\(S_i^\ast S_j = 0\) für alle \(i\ne j\),
\(S_i^\ast S_i = \sigma _i^2 \ne 0\) für \(i=1, \dots , r\),
\(S_i^\ast S_i = 0\), also \(S_i=0\) für \(i=r+1, \dots , n\).
Aus (a) und (b) folgt, dass \(b_1:=\frac{1}{\sigma _1} S_1,\dots , b_r:=\frac{1}{\sigma _r} S_r\) ein Orthonormalsystem in \(\mathbb K^m\) bilden. Wir ergänzen dieses zu einer Orthonormalbasis \(\mathscr B=(b_1,\dots , b_m)\) von \(\mathbb K^m\) und definieren \(V\) als die (invertierbare) Matrix mit den Spalten \(b_1,\dots , b_m\). Es gilt dann \(V^{-1} = V^\ast \), weil \(\mathscr B\) eine Orthonormalbasis ist.
Behauptung. Es gilt \(A=V\Sigma W^\ast \).
Begründung. Es ist äquivalent zu zeigen, dass \(AW = V\Sigma \) ist. Für die ersten \(r\) Spalten folgt das aus der Definition von \(V\). Die letzten \(n-r\) Spalten beider Matrizen sind Null nach (c) bzw. nach Definition von \(\Sigma \).
Wir berechnen als einfaches Beispiel eine Singulärwertzerlegung der Matrix
Es ist dann
Dies ist bereits eine Diagonalmatrix, so dass wir für \(W\) eine Permutationsmatrix wählen können, die die Einträge in absteigende Reihenfolge bringt, im hier gegebenen Fall also
Dann setzen wir
und
Damit erhalten wir
als eine Singulärwertzerlegung der Matrix \(A\). Eine andere Möglichkeit wäre, \(W= \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\) zu setzen. Weil \(A\) invertierbar ist, ist \(V\) eindeutig bestimmt, sobald \(W\) gewählt wurde.
Es ist nützlich, die Singulärwertzerlegung mit dem Satz über die Smith-Normalform (Satz LA1.7.37) zu vergleichen, den wir folgendermaßen formulieren können: Für jeden Körper \(K\) und jede Matrix \(A\in M_{m\times n}(K)\) existieren invertierbare Matrizen \(V\in M_m(K)\) und \(W\in M_n(K)\) mit
Dieses Ergebnis gilt also über jedem Körper, und die Normalform ist einfacher, als diejenige, die wir aus der Singulärwertzerlegung erhalten.
Die Singulärwertzerlegung gilt über \(\mathbb R\) und über \(\mathbb C\), ist aber dort eine wesentlich stärkere Aussage, weil \(V\) und \(W\) orthogonale bzw. unitäre Matrizen sind. Stellt man sich diese Matrizen als Basiswechselmatrizen vor, so brauchen wir also nur einen Basiswechsel von der Standardbasis zu einer Orthonormalbasis von \(\mathbb K^n\) durchzuführen. Sowohl rechnerisch als auch geometrisch ist das wesentlich einfacher.
Dass die erhaltene »Normalform«, also die Matrix \(\Sigma \), in diesem Fall komplizierter ist als im Fall der Smith-Normalform ist eher ein Vorteil als ein Nachteil, weil \(\Sigma \) noch mehr Informationen über \(A\) enthält als nur den Rang von \(A\). Diesen Aspekt wollen wir im Folgenden noch etwas weiter beleuchten.
Im folgenden Lemma könnten wir über einem beliebigen Körper (mit einer Involution \(\sigma \)) arbeiten, es wird aber speziell in der Situation der Singulärwertzerlegung nützlich sein, daher formulieren wir es für den Fall der reellen bzw. komplexen Zahlen.
Seien \(m,n\in \mathbb N\). Seien \(V\in M_m(\mathbb K)\), \(W\in M_n(\mathbb K)\) und \(\Sigma = \begin{pmatrix} \Sigma _r & 0 \\ 0 & 0 \end{pmatrix}\in M_{m\times n}(\mathbb K)\) mit \(\Sigma _r = \operatorname{diag}(\sigma _1,\dots , \sigma _r)\), \(\sigma _i\in \mathbb K\).
Wir bezeichnen mit \(v_1, \dots , v_n\) die Spalten von \(V\) und mit \(w_1,\dots , w_n\) die Spalten von \(W\).
Dann gilt
Der Beweis ist eine einfache Rechnung (und vielleicht ist es einfacher, die Rechnung selbst zu machen, als den Beweis hier durchzugehen).
Wir schreiben \(V=(v_{ij})_{i,j}\), \(W=(w_{jk})_{j,k}\) und setzen \(\sigma _j = 0\) für \(j {\gt} r\). Der Eintrag in Zeile \(i\) und Spalte \(k\) des Produkts \(V\Sigma W^\ast \) ist dann
Andererseits ist \(v_j = (v_{1j}, \dots , v_{mj})^t\), \(w_j=(w_{1j}, \dots , w_{nj})^t\), also \(w_j^\ast = (\overline{w_{1j}}, \dots , \overline{w_{nj}})\), und damit
Insgesamt folgt damit die Behauptung.
Sei nun \(A = V\Sigma W^\ast \) eine Matrix vom Rang \(r\) wie im Satz über die Singulärwertzerlegung. Seien \(\sigma _i\) die Singulärwerte von \(A\). Wie im Lemma bezeichnen wir mit \(v_j\) bzw. \(w_j\) die Spalten von \(V\) und \(W\) und erhalten dann
Die Matrizen \(\sigma _j v_j w_j^\ast \in M_{m\times n}(\mathbb K)\) haben alle Rang \(=1\) (denn alle Spalten sind Vielfache von \(v_j\), und mindestens eine Spalte ist \(\ne 0\), weil weder \(v_j\) noch \(w_j\) noch \(\sigma _j\) verschwinden). Wir können also mittels der Singulärwertzerlegung die Matrix \(A\) in einer ganz speziellen Weise als Summe von Matrizen vom Rang \(1\) schreiben.
Andererseits hat für \(k\le r\) die Summe
Rang \(k\), wie man sieht, wenn man wieder Lemma 19.122 anwendet und das obige Argument »rückwärts« durchgeht. Sie kann folglich als Approximation von \(A\) durch eine Matrix vom Rang \(k\) betrachtet werden (jedenfalls, wenn man an den Fall denkt, dass nur Summanden wegfallen, für die \(\sigma _j\) »klein« ist). In der Tat kann man zeigen, dass dies in einem geeigneten Sinne die beste Approximation von \(A\) durch eine Matrix vom Rang \(k\) ist, siehe die folgende Ergänzung 19.123. Für die Praxis bedeutet das, dass die Singulärwertzerlegung eine nützliche Methode zur Datenkompression ist: Wenn \(A\in M_{m\times n}(\mathbb K)\) eine Matrix ist (die nicht zufällig sehr viele Nullen enthält oder eine andere offensichtliche Struktur hat), muss man \(mn\) Zahlen abspeichern, um die durch \(A\) gegebene Information vollständig abzuspeichern. Wenn es genügt, diese Information »näherungsweise« zu behalten, d.h. wenn man \(A\) durch die oben gegebene Approximation für ein geeignet gewähltes \(k\) ersetzt, so muss man nur noch die Zahlen und Vektoren speichern, die in die Summe \(\sum _{j=1}^k \sigma _j v_j w_j^\ast \) eingehen, also nur \(k(m+n+k)\) Zahlen abspeichern. Siehe Abschnitt 19.9.4.
Um die Tatsache zu präzisieren, dass man aus der Singulärwertzerlegung die »beste« Approximation einer Matrix \(A\) durch eine Matrix vom Rang \(k\le r\) erhält, betrachten wir auf dem Raum \(M_{m\times n}(\mathbb K)\) die sogenannte Spektralnorm, die für \(A\in M_{m\times n}(\mathbb K)\) definiert ist durch
wobei im Zähler bzw. Nenner im Term in der Mitte die Norm auf \(\mathbb K^m\) bzw. auf \(\mathbb K^n\) verwendet werde, die durch das jeweilige Standardskalarprodukt induziert wird. Weil die Menge \(\{ x\in \mathbb K^n;\ \lVert x\rVert = 1\} \) eine kompakte Teilmenge von \(\mathbb K^n\) ist, wird das Supremum an einem Punkt dieser Teilmenge angenommen, es handelt sich also in beiden Fällen um ein Maximum.
Es ist leicht zu zeigen, dass die Abbildung \(M_{m\times n}(\mathbb K)\to \mathbb R_{\ge 0}\), \(A\mapsto \lVert A\rVert _2\), die Eigenschaften einer Norm auf dem \(\mathbb K\)-Vektorraum \(M_{m\times n}(\mathbb K)\) hat (vergleiche Ergänzung 19.58), es gilt also
\(A = 0\quad \Leftrightarrow \quad \lVert A\rVert _2 = 0\) für alle \(A\in M_{m\times n}(\mathbb K)\),
\(\lVert a A\rVert _2 = \lvert a\rvert \, \lVert A\rVert _2\) für alle \(a\in \mathbb K\),
\(\lVert A+B\rVert _2 \le \lVert A\rVert _2 + \lVert B\rVert _2\) für alle \(A,B\in M_{m\times n}(\mathbb K)\).
Eine Diagonalmatrix \(D=\operatorname{diag}(d_1,\dots , d_n)\) hat die Spektralnorm \(\lVert D\rVert _2 = \max _i \lvert d_i\rvert \), wie man leicht anhand der Definition zeigt. Analog verhält es sich für Matrizen der Form, die die Matrix \(\Sigma \) in der Singulärwertzerlegung hat.
Das nächste Lemma zeigt, dass die Spektralnorm »unitär invariant« ist, sich also nicht verändert, wenn man eine Matrix von links und/oder rechts mit einer unitären Matrix multipliziert.
Seien \(A\in M_{m\times n}(\mathbb K)\) und seien \(V\in GL_m(\mathbb K)\), \(W\in GL_n(\mathbb K)\) orthogonale bzw. unitäre Matrizen, d.h. es gelte \(V^{-1}=V^\ast \), \(W^{-1}= W^\ast \).
Dann ist \(\lVert A\rVert _2 = \lVert VAW\rVert _2\).
Wir lassen den (einfachen) Beweis aus.
Als Folgerung sehen wir: Hat \(A\in M_{m\times n}(\mathbb K)\), \(A\ne 0\), die Singulärwertzerlegung \(A=V\Sigma W^\ast \) und sind \(\sigma _1\ge \cdots \ge \sigma _r\) die Singulärwerte von \(A\), so gilt \(\lVert A\rVert _2 = \lVert \Sigma \rVert _2 = \sigma _1\). Wenn wir die Beschreibung der Singulärwerte als der Quadratwurzeln der positiven Eigenwerte der Matrix \(A^\ast A\) verwenden, sehen wir: Für jede Matrix \(A\) ist \(\lVert A\rVert _2^2\) der größte Eigenwert der positiv semidefiniten hermiteschen Matrix \(A^\ast A\). (Damit kann man auch das obige Kompaktheitsargument umgehen und einen anderen Beweis dafür geben, dass das Supremum in der Definition der Spektralnorm immer angenommen wird.)
Sei \(A\in M_{m\times n}(\mathbb K)\) mit Singulärwertzerlegung \(A=V\Sigma W^\ast \), und sei \(r=\operatorname{rg}(A)\). Sei \(k\le r\) und
wobei wie oben mit \(v_j\) bzw. \(w_j\) die Spalten von \(V\) bzw. \(W\) bezeichnet werden.
Dann gilt
für alle \(B\in M_{m\times n}(\mathbb K)\) mit \(\operatorname{rg}(B)=k\).
Mit Lemma 19.124 folgt
Für \(k=r\) gilt \(A_k=A\), und dann ist die Aussage klar. Sei \(k {\lt} r\) und \(B\in M_{m\times n}(\mathbb K)\) vom Rang \(k\), also \(\dim (\operatorname{Ker}(B)) = n-k\). Sei
dies ist ein Untervektorraum der Dimension \(k+1\). Aus Dimensionsgründen folgt \(U\cap \operatorname{Ker}(B) \ne 0\), es gibt also einen Vektor \(v\ne 0\) in diesem Durchschnitt. Indem wir \(v\) geeignet skalieren, können wir \(\lVert v\rVert = 1\) annehmen.
Schreiben wir \(v = \sum _{i=1}^{k+1} a_i w_i\), so haben wir \(w_j^\ast v = a_{j}\) für \(j = 1,\dots , k\), weil die \(w_j\) eine Orthonormalbasis bilden. Damit ergibt sich
Weil \(v_1,\dots , v_m\) eine Orthonormalbasis sind, gilt weiter
und der Beweis ist abgeschlossen.
Weitere Quellen zur Singulärwertzerlegung (auch zur Geschichte, und zu Anwendungen):
[ LM ] , Kapitel 19,
R. A. Horn, I. Olkin, When does \(A^\ast A = B^\ast B\) and why does one want to know?, Amer. Math. Monthly 103 (1996) 470–482.
D. Austin, We Recommend a Singular Value Decomposition,
http://www.ams.org/publicoutreach/feature-column/fcarc-svd
19.8.2 Die Polarzerlegung
Ist \(z\in \mathbb C^\times \), so existieren eindeutig bestimmte Zahlen \(p\in \mathbb R_{{\gt} 0}\) und \(u\in \mathbb C\) mit \(\lvert u \rvert = 1\) und \(z = pu\) (nämlich \(p = \lvert z\rvert \), \(u = p^{-1}z\)). Die Zahl \(u\) lässt sich mithilfe der (komplexen) Exponentialfunktion \(\exp \colon \mathbb C\to \mathbb C\) als \(u = \exp (i\varphi )\) für eine eindeutig bestimmte Zahl \(\varphi \in [0, 2\pi )\) schreiben. Die Darstellung \(z=p\exp (i\varphi )\) nennt man die Darstellung von \(z\) in Polarkoordinaten. Wenn man auch \(p=0\) zulässt, kann man natürlich auch \(z=0\) in dieser Form schreiben; allerdings ist dann \(u\) nicht eindeutig bestimmt. Siehe Bemerkung LA1.11.43.
Analog zu der Darstellung komplexer Zahlen durch Polarkoordinaten haben wir die folgende Polarzerlegung für Matrizen über den reellen oder komplexen Zahlen. (Man kann wie im Fall der Singulärwertzerlegung auch für die Polarzerlegung eine Variante für nicht-quadratische Matrizen angeben, aber wir verzichten darauf, um die Darstellung einfacher zu halten.)
Wir nennen (siehe Definition 19.51) eine hermitesche Matrix \(A\in M_n(\mathbb K)\) positiv definit, wenn \(v^\ast A v {\gt} 0\) für alle \(v\ne 0\) gilt, und positiv semidefinit, wenn \(v^\ast A v \ge 0\) für alle \(v\) gilt, also wenn die hermitesche Sesquilinearform \(\beta \) mit \(M_{\mathscr E}(\beta )=A\) die entsprechende Eigenschaft hat. (Hier sei \(\mathscr E\) die Standardbasis von \(\mathbb K^n\).)
Seien \(n\in \mathbb N\) und \(A\in M_n(\mathbb K)\).
Es existieren eine orthogonale bzw. unitäre Matrix \(U\in GL_n(\mathbb K)\) und eine eindeutig bestimmte positiv semidefinite hermitesche Matrix \(P\in M_n(\mathbb K)\) mit \(A=UP\).
Ist \(A\) invertierbar, so ist auch \(U\) eindeutig bestimmt, und \(P\) ist sogar positiv definit.
Sei \(A = V\Sigma W^\ast \) eine Singulärwertzerlegung von \(A\). Wir setzen dann \(U=VW^\ast \) und \(P=W \Sigma W^\ast \). Dann gilt \(A = UP\), \(U\) ist orthogonal bzw. unitär und \(P\) ist positiv semi-definit. Ist \(A\) invertierbar, so ist \(\Sigma \) eine Diagonalmatrix, deren Einträge sämtlich positiv sind, also eine positiv definite Matrix, und das gilt dementsprechend auch für \(P\).
Wir müssen noch die Eindeutigkeit von \(P\) (und im invertierbaren Fall von \(U\)) begründen.
Ist \(A=UP\), so folgt \(A^\ast A = P^\ast U^\ast UP = P^2\), also ist \(P^2\) durch \(A\) eindeutig festgelegt. Die Eindeutigkeitsaussage für \(P\) folgt daher aus dem folgenden Lemma 19.127. Ist \(A\) invertierbar, so ist auch \(P\) invertierbar, und dann ist auch \(U = AP^{-1}\) eindeutig bestimmt.
Es bleibt noch das Lemma über die »Quadratwurzel« einer positv semidefiniten Matrix nachzutragen.
Sei \(Q\in M_n(\mathbb K)\) eine positiv semidefinite hermitesche Matrix. Dann existiert eine eindeutig bestimmte positiv semidefinite hermitesche Matrix \(P\in M_n(\mathbb K)\) mit \(P^2 = Q\).
Es existiert eine orthogonale bzw. unitäre Matrix \(S\), so dass \(D:=S^\ast Q S\) eine Diagonalmatrix ist (Korollar 19.110). Weil \(Q\) und damit \(D\) positiv semidefinit ist, sind alle Diagonaleinträge von \(D\) nicht-negative reelle Zahlen. Es ist dann klar, dass eine Diagonalmatrix \(D^\prime \) mit \((D^\prime )^2 = D\) existiert, und wir können \(P:=SD^\prime S^\ast \) setzen.
Nun kommen wir zur Eindeutigkeit. Sei \(P^2 = Q\) für eine positiv semidefinite hermitesche Matrix \(P\in M_n(\mathbb K)\). Sei \(S\) eine orthogonale bzw. unitäre Matrix, so dass \(S^{-1}PS\) eine Diagonalmatrix ist. Betrachten wir \(S\) als Basiswechselmatrix zwischen der Standardbasis und einer Orthonormalbasis \(\mathscr B\), so werden die Eigenräume von \(P\) jeweils von gewissen Vektoren der Basis \(\mathscr B\) erzeugt. Nun ist auch \(S^{-1}QS\) eine Diagonalmatrix, und weil für nicht-negative reelle Zahlen \(\lambda , \mu \) gilt, dass die Bedingungen \(\lambda = \mu \) und \(\lambda ^2=\mu ^2\) äquivalent sind, sehen wir, dass jeder Eigenraum von \(Q\) auch ein Eigenraum von \(P\) ist, und genauer gilt
für alle \(\lambda \in \mathbb R\) (wobei wir \(V_\lambda \) als den Nullraum betrachten, wenn \(\lambda \) kein Eigenwert der betrachteten Matrix ist). Da die Matrix \(P\) als hermitesche Matrix diagonalisierbar ist, ist \(P\) durch diese Bedingungen eindeutig festgelegt.
(Auf die Voraussetzung, dass \(P\) positiv semidefinit und hermitesch sei, kann man für die Eindeutigkeitsaussage nicht verzichten!)
Dieses Lemma kann man für invertierbares \(A\) auch benutzen, um direkt die Existenz der Polarzerlegung zu beweisen. In der Tat, ist \(A\in GL_n(\mathbb K)\), so ist \(Q:=A^\ast A\) hermitesch und positiv definit, nach dem Lemma also von der Form \(P^2\) für eine positiv semidefinite hermitesche Matrix \(P\). Für \(U:=AP^{-1}\) gilt dann \(A=UP\) und
also ist \(U\) orthogonal bzw. unitär.
Wenn \(A=UP\) die Polarzerlegung von \(A\) ist, dann ist \(\det (A) = \det (U)\det (P)\) die Polarzerlegung der komplexen Zahl \(\det (A)\) (denn \(\det (P)\in \mathbb R_{\ge 0}\) und \(\det (U)\) ist eine komplexe Zahl mit Absolutbetrag \(1\).
Ist \(z\in \mathbb C^\times \) eine komplexe Zahl mit Polarzerlegung \(z=up\), \(\lvert u\rvert = 1\), \(p\in \mathbb R_{{\gt} 0}\), dann ist \(u\) diejenige komplexe Zahl mit Absolutbetrag \(1\), die den kleinsten Abstand zu \(z\) hat, und \(-u\) die komplexe Zahl mit Absolutbetrag \(1\), die den größten Abstand zu \(z\) hat.
Eine ähnliche Aussage gilt für die Polarzerlegung von komplexen Matrizen. Recht leicht ist sie für die sogenannte Frobenius-Norm von Matrizen zu beweisen, die folgendermaßen definiert ist.
Die Frobenius-Norm ist die Norm, die dem Standardskalarprodukt auf dem Vektorraum \(M_{m\times n}(K) = K^{mn}\) zugeordnet ist; wir betrachten hier also \((m\times n)\)-Matrizen als Vektoren mit \(mn\) Einträgen und die zugehörige euklidische Norm. Eine einfache Rechnung zeigt:
Sei \(A\in M_{m\times n}(\mathbb K)\). Dann gilt
Daraus (oder einfach aus der ursprünglichen Definition) folgt, dass die Frobenius-Norm einer Diagonalmatrix \(D=\operatorname{diag}(d_1,\dots , d_n)\) gegeben ist durch \(\lVert D\rVert _F = \sqrt{\sum _{i=1}^n \lvert d_i\rvert ^2}\). Außerdem erhalten wir, dass die Frobenius-Norm unitär invariant ist.
Seien \(A\in M_{m\times n}(\mathbb K)\), \(S\in GL_m(\mathbb K)\), \(T\in GL_n(\mathbb K)\) mit \(SS^\ast = E_m\), \(TT^\ast = E_n\). Dann gilt
Damit können wir den angekündigten Satz über die Approximationseigenschaft des Faktors \(U\) in der Polarzerlegung \(A=UP\) einer Matrix \(A\) formulieren und beweisen.
Sei \(A\in M_n(\mathbb K)\) mit Polarzerlegung \(A=UP\), \(U\in GL_n(\mathbb K)\), \(UU^\ast =E_n\), \(P\in M_n(\mathbb K)\) hermitesch und positiv semidefinit.
Dann gilt für jedes \(T\in GL_n(\mathbb K)\) mit \(TT^\ast = E_n\):
Die Matrix \(P\) ist hermitesch, es existiert also \(S\in GL_n(\mathbb K)\), \(S^\ast S=E_n\), so dass \(D:=S^\ast PS\) eine Diagonalmatrix in \(M_n(\mathbb R)\) ist. Weil \(P\) positiv semidefinit ist, sind die Einträge von \(D\) alle nicht-negativ.
Weil die Frobenius-Norm unitär invariant ist, gilt
und analog
Die Matrix \(SU^\ast TS^\ast \) ist als Produkt von unitären (bzw. orthogonalen) Matrizen wieder unitär (bzw. orthogonal). Es genügt also nun zu zeigen, dass für jedes \(V\in GL_n(\mathbb K)\) mit \(V^\ast V=E_n\) gilt:
Schreiben wir \(D=\operatorname{diag}(d_1, \dots , d_n)\) und \(V=(v_{ij})_{i,j}\), so haben wir
weil die Spurabbildung linear ist, \(D^\ast =D\) gilt und \(V^\ast V=E_n\) ist. Im letzten Ausdruck dieser Gleichungskette hängt nur der mittlere Term noch von \(V\) ab, und wir wollen diesen Term für die Fälle \(E_n\), \(V\) und \(-E_n\) vergleichen. Weil für alle Matrizen \(M, M^\prime \) gilt, dass \(\operatorname{Spur}(MM^\prime )=\operatorname{Spur}(M^\prime M)\) ist, haben wir außerdem
Wenn wir für \(V\) die Einheitsmatrix bzw. das Negative der Einheitsmatrix einsetzen, ist \(v_{ii}=1\) bzw. \(v_{ii}=-1\). Wir sehen so, dass es genügt, die Abschätzung
zu beweisen. Für \(d_i=0\) ist das offensichtlich. Ist \(d_i {\gt} 0\), so können wir durch \(2 d_i\) teilen und erhalten die äquivalente Aussage
die aus \(\lVert (v_{1i}, \dots , v_{ni})^t\rVert = 1\) folgt (denn die Spalten einer orthogonalen bzw. unitären Matrix bilden eine Orthonormalbasis und haben insbesondere Norm \(=1\)).
In der Arbeit
K. Fan, A. Hoffmann, Some metric inequalities in the space of matrices, Proc. Amer. Math. Soc. 6 (1955), 111–116,
https://doi.org/10.1090/S0002-9939-1955-0067841-7
wird bewiesen, dass diese Approximationseigenschaft des unitären Faktors in der Polarzerlegung sogar für jede Norm \(\lVert \cdot \rVert \) auf \(M_n(\mathbb C)\) gilt, die unitär invariant ist, für die also \(\lVert A \rVert =\lVert SAT\rVert \) für alle \(A\in M_n(\mathbb C)\) und alle \(S, T\in U(n)\) gilt. Insbesondere hat auch die Spektralnorm \(\lVert \cdot \rVert _2\) aus Ergänzung 19.123 diese Eigenschaft (Lemma 19.124).