16.3 Der Satz von Cayley–Hamilton
In diesem Abschnitt beweisen wir den wichtigen Satz von Cayley–Hamilton. Der Satz ist benannt nach Arthur Cayley (1821–1895), der als einer der ersten Mathematiker systematisch mit Matrizen gearbeitet hat, und William Rowan Hamilton (1805–1865) (den wir im Zusammenhang mit den Quaternionen schon in der Linearen Algebra 1 erwähnt hatten). Sowohl Cayley als auch Hamilton haben aber nur Spezialfälle des Satzes bewiesen. Den ersten allgemeinen Beweis (jedenfalls über dem Körper \(\mathbb C\)) gab im Jahr 1878 Ferdinand Georg Frobenius (1849–1917).
As for everything else, so for a mathematical theory: beauty can be perceived but not explained.
Arthur Cayley
(angeblich) in: The Collected Mathematical Papers of Arthur Cayley (ed. 1895)
(ich habe aber die 14 Bände mit jeweils
mehreren hundert Seiten nicht alle durchgeschaut…)
Wir beginnen mit einigen Vorbereitungen für den Beweis. Seien \(K\) ein Körper und \(V\) ein \(K\)-Vektorraum.
Offenbar ist jeder \(f\)-zyklische Unterraum auch \(f\)-invariant. Ein \(f\)-invarianter Unterraum muss jedoch nicht \(f\)-zyklisch sein. (Suchen Sie hierfür ein Beispiel.)
Seien \(K\) ein Körper und \(V\) ein \(K\)-Vektorraum. Sei \(U = \langle u, f(u), f^2(u), \dots \rangle \subseteq V\) ein endlichdimensionaler \(f\)-zyklischer Unterraum und sei \(i= \dim U\). Dann ist \(u, f(u),\dots , f^{i-1}(u)\) eine Basis von \(U\).
Sei \(j\) maximal mit der Eigenschaft, dass \(u, f(u),\dots , f^{j-1}(u)\) eine linear unabhängige Familie von Vektoren ist. Weil \(U\) endliche Dimension hat, existiert ein solches \(j\). Die Maximalität von \(j\) impliziert, dass \(a_0, \dots , a_{j-1}\in K\) existieren mit
Folglich ist \(\langle u, \dots , f^{j-1}(u)\rangle \) ein \(f\)-invarianter Unterraum, er enthält also alle Elemente der Form \(f^n(u)\) und stimmt somit mit \(U\) überein. Es folgt \(j = i\), und daraus folgt die Behauptung.
Seien \(K\) ein Körper, \(n\in \mathbb N\). Sei \(\chi = X^n + \sum _{i=0}^{n-1} a_i X^i\in K[X]\) ein normiertes Polynom vom Grad \(n\). Dann heißt die Matrix
(wobei alle Einträge, die nicht hingeschrieben sind, \(=0\) sind) die Begleitmatrix von \(\chi \).
Ein Untervektorraum \(U\subseteq V\) ist genau dann \(f\)-zyklisch, wenn \(f(U)\subseteq U\) gilt und eine Basis von \(U\) existiert, so dass die Matrix von \(f_{|U}\) bezüglich dieser Basis die Form einer Begleitmatrix hat.
Sei \(A\in M_{n}(K)\) die Begleitmatrix des normierten Polynoms \(\chi \) (vom Grad \(n\)). Dann gilt \(\operatorname{charpol}_A = \chi \).
Wir führen Induktion nach \(n\). Für \(n=1\) ist die Sache klar. Im allgemeinen Fall ist die Determinante der Matrix
zu berechnen. (Wir lassen die Nullen wieder der Übersichtlichkeit halber weg.) Durch Entwicklung nach der ersten Spalte erhalten wir als Determinante
Die Determinante im linken Summanden können wir nach Induktionsvoraussetzung schreiben, die Determinante im zweiten Summanden ist gleich \(a_0\), wie man durch Entwicklung nach der ersten Zeile sieht. Wir haben also insgesamt
und das ist gleich \(\chi \), wie behauptet.
Nun können wir den Satz von Cayley–Hamilton formulieren und beweisen.
Jedenfalls für eine Diagonalmatrix \(A\) ist die Aussage (von Teil (1)) klar. Diese einfache Beobachtung kann man sogar zu einem vollständigen Beweis machen, siehe Bemerkung 16.30.
Andererseits sei schon hier die Warnung formuliert, dass die folgende Gleichungskette
kein Beweis des Satzes ist, weil es sich nämlich gar nicht überall um Gleichungen handeln kann, denn links steht eine Matrix in \(M_n(K)\), rechts aber ein Element des Körpers \(K\). Siehe Bemerkung 16.22
Es ist klar, dass die Aussagen (1) und (2) auseinander hervorgehen, es genügt daher, den zweiten Teil zu zeigen.
Sei also \(f\in \operatorname{End}_K(V)\) und \(\chi = \operatorname{charpol}_f\). Es genügt zu zeigen, dass \(\chi (f)(v)=0\) für alle \(v\in V\) gilt, denn das bedeutet ja gerade, dass der Endomorphismus \(\chi (f)\) die Nullabbildung ist.
Sei also \(v\in V\). Wir betrachten den \(f\)-zyklischen Unterraum \(U = \langle v, f(v), f^2(v), \dots \rangle \). Es gilt dann \(f(U)\subseteq U\). Wir betrachten die Einschränkung \(f_{|U}\) als Endomorphismus von \(U\) und bezeichnen mit \(\xi \) sein charakteristisches Polynom. Das charakteristische Polynom von \(f\) ist nach Lemma 16.5 ein Vielfaches von \(\xi \), etwa \(\chi =\zeta \cdot \xi \). Aus \(\xi (f)(v)=0\) folgt also \(\chi (f)(v)=\zeta (f)(\xi (f)(v))=0\).
Wir sehen so, dass es genügt, die Behauptung \(\operatorname{charpol}_f(f)(v)=0\) in dem speziellen Fall zu zeigen, dass \(V\) ein \(f\)-zyklischer Vektorraum mit Basis \(v, f(v), \dots , f^{n-1}(v)\) ist.
Die darstellende Matrix von \(f\) bezüglich der Basis \(v, f(v), \dots , f^{n-1}(v)\) von \(V\) (Lemma 16.17) ist eine Begleitmatrix, genauer die Begleitmatrix des Polynoms \(\chi \).
Dann ist \(\chi (f)(v)=0\) aber leicht nachzurechnen. Ist nämlich \(\chi = X^n + \sum _{i=0}^{n-1} a_i X^i\), so lesen wir aus der letzten Spalte der Begleitmatrix ab, dass
also
Es gibt viele andere Möglichkeiten, den Satz zu beweisen, selbst auf der englischen Wikipedia-Seite werden mehrere skizziert.
Es ist verlockend, die folgende »Rechnung« als einen Beweis des Satzes von Cayley–Hamilton anzusehen:
Das Problem mit diesem »Beweis« (genauer mit dem ersten Gleichheitszeichen) ist, dass das Produkt \(XE_n\) durch Einsetzen von \(A\) für \(X\) nicht das Matrizenprodukt \(AE_n\) ergibt. In der Tat ist \(XE_n\) die Matrix (in \(M_n(K[X])\)) auf deren Diagonale überall \(X\) steht und deren Einträge außerhalb der Diagonalen gleich \(0\) sind. Setzen wir für alle \(X\) nun die Matrix \(A\) ein, so erhalten wir eine Matrix mit Einträgen in \(M_n(K)\), nicht eine Matrix mit Einträgen in \(K\) (wie \(AE_n\) es ist).
Andere Wege zu sehen, dass man so nicht argumentieren kann, sind die folgenden:
Im Satz von Cayley–Hamilton bedeutet \(=0\), dass der Ausdruck \(\operatorname{charpol}_A(A)\) die Nullmatrix ist, aber \(\det (AE_n-A)\) ist ein Element des Grundkörpers \(K\)!
Analog zur Determinante können wir auch die Spur einer Matrix mit Einträgen in \(K[X]\) definieren. Die Spur ist einfach die Summe aller Diagonaleinträge. Sei \(A\in M_n(K)\) und \(f = \operatorname{Spur}(XE_n -A)\in K[X]\). Dieselbe Methode würde auch zeigen, dass \(f(A) = 0\) ist.
Es gilt aber \(f(X) = \operatorname{Spur}(XE_n-A) = nX - \operatorname{Spur}(A)\), und es ist klar, dass im allgemeinen nicht \(nA = \operatorname{Spur}(A) E_n\) gilt.
Nach Definition des Minimalpolynoms können wir den Satz von Cayley–Hamilton äquivalent auch als Teilbarkeitsaussage formulieren. So erhalten wir auch die schon angekündigte Abschätzung für den Grad des Minimalpolynoms einer Matrix (bzw. eines Endomorphismus).
Ist \(A\in M_{n}(K)\), so gilt \(\operatorname{minpol}_A | \operatorname{charpol}_A\). Insbesondere gilt \(\deg (\operatorname{minpol}_A) \le n\).
Als weiteres Korollar erhalten wir, dass für eine Begleitmatrix charakteristisches Polynom und Minimalpolynom übereinstimmen. Insbesondere sehen wir, dass jedes normierte Polynom vom Grad \(n\ge 0\) als charakteristisches Polynom und auch als Minimalpolynom einer \((n\times n)\)-Matrix auftreten kann.
Sei \(A\in M_{n}(K)\) die Begleitmatrix des normierten Polynoms \(\chi \) (vom Grad \(n\)). Dann gilt \(\operatorname{charpol}_A = \operatorname{minpol}_A = \chi \).
Wegen des Satzes von Cayley–Hamilton ist \(\operatorname{minpol}_A\) ein Teiler von \(\operatorname{charpol}_A\), also genügt es zu zeigen, dass \(\deg (\operatorname{minpol}_A) \ge n\) ist. Nun ist nach Definition des Begriffs Begleitmatrix \(Ae_i = e_{i+1}\) für \(i=1, \dots , n-1\), und wäre \(p=\sum _{i=0}^m a_iX^i\) ein Polynom vom Grad \(0\le m {\lt} n\) mit \(p(A) = 0\), so wäre auch \(p(A) e_1 = 0\), aber es ist
und \(e_1, \dots , e_{m+1}\) ist eine linear unabhängige Familie.
16.3.1 Folgerungen aus dem Satz von Cayley–Hamilton
Zunächst erlaubt der Satz von Cayley-Hamilton einen Zugang zur konkreten Berechnung des Minimalpolynoms einer Matrix.
Um das Minimalpolynom einer Matrix \(A\in M_n(K)\) über einem Körper \(K\) zu berechnen, kann man das charakteristische Polynom berechnen. Das erfolgt durch Berechnung der Determinante einer \((n\times n)\)-Matrix in \(M_n(K[X])\), was lästig sein kann, aber wofür uns mehrere Verfahren zur Verfügung stehen.
Danach sollte man die Zerlegung des charakteristischen Polynoms in irreduzible Polynome im faktoriellen Ring \(K[X]\) bestimmen. Hierfür gibt es kein allgemeines Verfahren, aber in konkreten Fällen, insbesondere für nicht zu große Matrizen, ist das in der Regel möglich. (Konkreter: Übungsaufgaben sind so gewählt, dass das machbar ist.)
Danach kann man in alle Teiler des charakteristischen Polynoms die Matrix einsetzen und so den (eindeutig bestimmten) normierten Teiler kleinsten Grades finden, der die Matrix annulliert.
Beim Ausprobieren sollte man noch die Aussage von Satz 16.26 im Hinterkopf haben, der besagt, dass jeder irreduzible Teiler des charakteristischen Polynoms auch das Minimalpolynom teilt. Man muss also nur diejenigen irreduziblen Teiler von \(\operatorname{charpol}_A\) untersuchen, die in der Primfaktorzerlegung mit Exponent \({\gt} 1\) auftreten, und schauen, ob der Exponent im Minimalpolynom kleiner ist.
Alternativ kann man natürlich das Minimalpolynom finden, indem man eine nicht-trivial Linearkombination der Matrizen \(E_n, A, A^2, \dots , A^d\) mit möglichst kleinem \(d\) sucht. (Und der Satz von Cayley-Hamilton garantiert, dass es immer ein \(d {\lt} n\) gibt, für das das möglich ist.) Das führt auf ein lineares Gleichungssystem, allerdings mit \(n^2\) Gleichungen.
Der folgende Satz zeigt eine noch engere Verbindung zwischen charakteristischem Polynom und Minimalpolynom eines Endomorphismus. Es wird uns aber im weiteren Verlauf der Vorlesung meistens genügen, die etwas schwächere Aussage des darauf folgenden Korollars zur Verfügung zu haben, für das wir einen kurzen direkten Beweis erklären. Sie können daher den Beweis des Satzes, wenn Sie möchten, zunächst überspringen.
Sei \(f\in \operatorname{End}_K(V)\), und sei \(p\in K[X]\) ein irreduzibles Polynom. Dann sind äquivalent:
\(p\) ist ein Teiler von \(\operatorname{charpol}_f\),
\(p\) ist ein Teiler von \(\operatorname{minpol}_f\).
(i) \(\Rightarrow \) (ii). Wir führen Induktion nach \(\dim V\). Ist \(\dim V \le 1\), so ist notwendigerweise \(\operatorname{charpol}_f = \operatorname{minpol}_f\). Sei nun \(\dim V {\gt} 1\). Sei \(v\in V\setminus \{ 0\} \) und sei wieder \(U=\langle v, f(v), f^2(v), \dots \rangle \) der \(f\)-zyklische Untervektorraum, der von den Vektoren \(f^i(v)\) erzeugt wird. Sei \(g = f_{|U}\in \operatorname{End}_K(U)\) die Einschränkung von \(f\).
Sei \(W\subseteq V\) ein Komplementärraum von \(U\), und sei \(\pi \colon V\to W\) die Projektion auf \(W\) (d.h. für \(v=u+w\in V\) mit \(u\in U\), \(w\in W\) gelte \(\pi (v) = \pi (u+w) = w\)). Sei \(h\in \operatorname{End}_K(W)\) der Endomorphismus von \(W\), der durch \(h(w) = \pi (f(w))\) gegeben ist.
Wir sind dann in der Situation von Lemma 16.5, es gilt folglich \(\operatorname{charpol}_f = \operatorname{charpol}_g \operatorname{charpol}_h\).
Weil \(p\) irreduzibel ist, und damit ein Primelement im Ring \(K[X]\), folgt aus unserer Voraussetzung, dass \(p\, |\, \operatorname{charpol}_g\) oder \(p\, |\, \operatorname{charpol}_h\). Im ersten Fall folgt direkt der Satz: Weil \(U\) ein \(f\)-zyklischer Untervektorraum ist, ist nämlich \(\operatorname{charpol}_g=\operatorname{minpol}_g\), und weil \(\operatorname{minpol}_f(g)=0\) ist, gilt \(\operatorname{minpol}_g\, |\, \operatorname{minpol}_f\).
Wenn \(p\, |\, \operatorname{charpol}_h\) gilt, dann folgt aus der Induktionsvoraussetzung, dass \(p \, |\, \operatorname{minpol}_h\), und wieder gilt \(\operatorname{minpol}_f(h)=0\), also \(\operatorname{minpol}_h\, |\, \operatorname{minpol}_f\).
Die Implikation (ii) \(\Rightarrow \) (i) folgt direkt aus dem Satz von Cayley–Hamilton, der besagt, dass \(\operatorname{minpol}_f\) ein Teiler von \(\operatorname{charpol}_f\) ist.
Alternativer Beweis. Eine ganz andere Möglichkeit, die Richtung (i) \(\Rightarrow \) (ii) zu beweisen, liefert das folgende Lemma. Da der Ring \(K[X]\) faktoriell ist, ist klar, dass aus dessen Aussage die Implikation (i) \(\Rightarrow \) (ii) folgt.
Seien \(K\) ein Körper, \(n\in \mathbb N\) und \(A\in M_n(K)\). Dann gilt
Der Beweis, den wir geben, ist kurz und auch nicht schwierig, aber insofern »trickreich«, als nicht offensichtlich ist, wie man auf dieses Argument kommen würde.
Vorbemerkung. Sei \(p\in K[X]\) irgendein Polynom. Wir betrachten den Polynomring \(K[X,Y]\) in zwei Unbestimmten \(X\) und \(Y\). Wenn wir in \(p=p(X)\) für \(X\) die neue Unbestimmte \(Y\) einsetzen, erhalten wir \(p(Y)\in K[X,Y]\). Dann gilt im Ring \(K[X,Y]\), dass \((X-Y)\, |\, p(X)-p(Y)\). In der Tat, im Fall \(p = X^i\) haben wir
wie man unmittelbar nachrechnet. Daraus folgt leicht der allgemeine Fall.
Sei nun zur Abkürzung \(\mu = \operatorname{minpol}_A\). Wie in der Vorbemerkung schreiben wir \(\mu (X) - \mu (Y) = (X-Y)\cdot p(X,Y)\) für ein Polynom \(p(X,Y)\in K[X, Y]\). Wir nutzen diese Umschreibung unten in der Form, dass wir für \(X\) die Matrix \(XE_n\in M_n(K[X])\) und für \(Y\) die Matrix \(A\in M_n(K)\subseteq M_n(K[X])\) einsetzen, wir haben dann also
wobei \(B:=p(XE_n, A)\in M_n(K[X])\) ist. (Es genügt uns, dass die obige Gleichung für irgendeine Matrix \(B\in M_n(K[X])\) gilt, wir müssen nichts weiter über \(B\) wissen.)
Wir können nun wie folgt rechnen:
wobei wir den Produktsatz für die Determinante von Matrizen in \(M_n(K[X])\) benutzt haben.
Also ist \(\mu ^n\) ein Vielfaches von \(\operatorname{charpol}_A\), und das ist genau, was wir zeigen wollten.
Seien \(K\) ein Körper, \(n\in \mathbb N\), \(A\in M_n(K)\) und \(\lambda \in K\). Dann sind äquivalent:
\(\lambda \) ist ein Eigenwert von \(A\),
\(\lambda \) ist eine Nullstelle von \(\operatorname{charpol}_A\),
\(\lambda \) ist eine Nullstelle von \(\operatorname{minpol}_A\).
Die Äquivalenz von (i) und (ii) haben wir bereits bewiesen (Satz 16.7). Die Äquivalenz von (ii) und (iii) ist eine direkte Folgerung aus dem vorherigen Satz, denn \(\lambda \) ist genau dann Nullstelle eines Polynoms \(p\), wenn \(p\) durch das (irreduzible) Polynom \(X-\lambda \) teilbar ist. Es ist aber auch leicht, das Korollar direkt zu beweisen.
Dass jede Nullstelle vom Minimalpolynom auch eine Nullstelle des charakteristischen Polynoms ist, folgt aus dem Satz von Cayley–Hamilton.
Sei nun \(\lambda \in K\) ein Eigenwert von \(A\) und \(v\in V\) ein Eigenvektor zum Eigenwert \(\lambda \). Es gilt dann \(A^i v = \lambda ^i v\), und daraus folgt leicht, dass
ist.
Insbesondere sehen wir
und da \(v\) als Eigenvektor nicht \(0\) ist, folgt \(\operatorname{minpol}_A(\lambda )=0\).
Wir können außerdem die Eigenschaften trigonalisierbar und diagonalisierbar nun in einfacher Weise anhand des Minimalpolynoms charakterisieren. Wir formulieren dieses Ergebnis für Endomorphismen, aber wie immer gilt natürlich die analoge Formulierung für Matrizen.
Seien \(K\) ein Körper und \(V\) ein endlichdimensionaler \(K\)-Vektorraum. Sei \(f\in \operatorname{End}_K(V)\). Dann gilt:
Der Endomorphismus \(f\) ist genau dann trigonalisierbar, wenn \(\operatorname{minpol}_f\) vollständig in Linearfaktoren zerfällt.
Der Endomorphismus \(f\) ist genau dann diagonalisierbar, wenn \(minpol_f\) vollständig in Linearfaktoren zerfällt und nur einfache Nullstellen besitzt.
Wir werden Teil (2) in etwas größerer Allgemeinheit noch einmal im Kapitel über die Jordansche Normalform beweisen (Korollar 17.16); wenn Sie in Eile sind, können Sie den Beweis an dieser Stelle überspringen. Aber vielleicht ist es gerade eine gute Vorbereitung, den Beweis für die hier betrachtete Aussage als Vorbereitung für die spätere Verallgemeinerung durchzugehen. Jedenfalls sollten Sie sich die Aussage des obigen Satzes merken, sie ist oft nützlich.
Teil (1) folgt aus Satz 16.9 und Satz 16.26, denn letzterer impliziert, dass \(\operatorname{minpol}_f\) genau dann vollständig in Linearfaktoren zerfällt, wenn das für \(\operatorname{charpol}_f\) gilt.
zu (2). Es ist auch klar, dass für einen diagonalisierbaren Endomorphismus das Minimalpolynom vollständig in Linearfaktoren zerfällt und nur einfache Nullstellen hat. Denn wir können \(f\) dann bezüglich einer geeigneten Basis durch eine Diagonalmatrix darstellen und deren Minimalpolynom kann man direkt ablesen. (Vergleiche Beispiel 16.13.)
Nun sei \(f\) ein Endomorphismus, dessen Minimalpolynom das Produkt von paarweise verschiedenen Linearfaktoren ist. Wir führen Induktion nach \(\dim (V)\), wobei der Fall \(\dim (V) \le 1\) klar ist, da dann jeder Endomorphismus diagonalisierbar ist. Seien \(\lambda _1, \dots , \lambda _r\in K\) die paarweise verschiedenen Nullstellen von \(\operatorname{minpol}_f\). Nach Satz 16.26 sind das auch genau die Nullstellen von \(\operatorname{charpol}_f\), also die paarweise verschiedenen Eigenwerte von \(f\).
Wir schreiben \(\operatorname{minpol}_f = (X-\lambda _1) p\) für ein Polynom \(p\), das nach Voraussetzung ebenfalls vollständig in Linearfaktoren zerfällt und nur einfache Nullstellen hat, und für das \(p(\lambda _1)\ne 0\) gilt. Es sei \(U:= \operatorname{Ker}(p(f))\). Dann gilt \(f(U)\subseteq U\). Wie üblich bezeichnen wir mit \(V_{\lambda _1}\) den Eigenraum von \(f\) zum Eigenwert \(\lambda _1\).
Behauptung. Es gilt \(V = V_{\lambda _1} \oplus U\).
Begründung. Wir zeigen zuerst, dass \(V_{\lambda _1} \cap U = 0\) ist. Ist \(f(v) = \lambda _1 v\), so folgt \(p(f)(v) = p(\lambda _1) v \ne 0\), es sei denn \(v=0\) (denn \(p(\lambda _1)\ne 0\), wie oben bemerkt).
Es bleibt zu zeigen, dass \(V_{\lambda _1}+ U = V\) ist. Weil \(X-\lambda _1\) irreduzibel und kein Teiler von \(p\) ist, ist \(1\) ein ggT von \(X-\lambda _1\) und \(p\) im Hauptidealring \(K[X]\), wir können folglich das konstante Polynom \(1\in K[X]\) in der Form \((X-\lambda _1)g + ph = 1\) ausdrücken (für geeignete \(g,h\in K[X]\)).
Damit sehen wir \(v = (f-\lambda _1\operatorname{id}_V)(g(f)(v)) + p(f)(h(f)(v))\), und dies ist ein Element von \(U+V_{\lambda _1}\), weil \(0 = \operatorname{minpol}_f(f) = p(f)\circ (f-\lambda _1\operatorname{id}_V) = (f-\lambda _1\operatorname{id}_V)\circ p(f)\) gilt.
Nun folgt nach Induktionsvoraussetzung, dass \(f_{|U}\) diagonalisierbar ist. Jedenfalls gilt \(\dim (U) {\lt} \dim (V)\). Außerdem ist \(p(f_{|U}) = 0\in \operatorname{End}_K(U)\), wie direkt aus der Definition von \(U\) als \(\operatorname{Ker}(p(f))\) folgt. Also gilt \(\operatorname{minpol}_{f_{|U}}\mid p\) und deshalb zerfällt \(\operatorname{minpol}_{f_{|U}}\) vollständig in Linearfaktoren und hat nur einfache Nullstellen. (Es ist auch nicht schwer zu sehen, dass \(\operatorname{minpol}_{f_{|U}}=p\) gilt.)
Es ist andererseits klar, dass \(f(V_{\lambda _1})\subseteq V_{\lambda _1}\) gilt und dass \(f_{V_{\lambda _1}}\) diagonalisierbar ist. Es folgt, dass \(f\) diagonalisierbar ist.