19.4 Bilinearformen und Sesquilinearformen über den reellen und den komplexen Zahlen
Auch wenn der Begriff der Bilinearform über beliebigen Körpern von Interesse ist, werden wir im folgenden den Fall \(K=\mathbb R\) in das Zentrum unserer Betrachtungen stellen. Wie oben ausgeführt ist es wünschenswert und möglich (mit dem Begriff der Sesquilinearform), auch den Körper \(\mathbb C\) miteinzubeziehen.
Der wesentliche Unterschied zur allgemeinen Situation ist, dass \(\mathbb R\) ein »angeordneter Körper« ist, bei dem wir über positive und negative Elemente sprechen können. Für eine hermitesche Sesquilinearform \(\beta \) bezüglich der komplexen Konjugation auf einem \(\mathbb C\)-Vektorraum \(V\) gilt wegen \(\beta (v,v) = \overline{\beta (v,v)}\), dass \(\beta (v, v)\in \mathbb R\) ist für alle \(v\in V\), so dass auch in diesem Fall eine Verbindung zu den reellen Zahlen existiert.
Im folgenden schreiben wir \(\mathbb K\) für den Grundkörper und vereinbaren, dass damit eine der folgenden beiden Situationen gemeint ist.
\(\mathbb K= \mathbb R\) und \(\sigma =\operatorname{id}_\mathbb R\), d.h. wir betrachten Bilinearformen auf reellen Vektorräumen,
\(\mathbb K=\mathbb C\) und \(\sigma \) ist die komplexe Konjugation, und wir betrachten Sesquilinearformen (bezüglich \(\sigma \)) auf \(\mathbb C\)-Vektorräumen.
Da der Begriff der Bilinearform ein Spezialfall des Begriffs der Sesquilinearform (nämlich für \(\sigma =\operatorname{id}\) ist), benutzen wir in der Regel den Begriff Sesquilinearform, um beide obigen Fälle simultan abzuhandeln. Entsprechend ist für einen \(\mathbb R\)-Vektorraum \(V\) das Symbol \(\operatorname{SLF}(V)\) als der Raum der Bilinearformen \(V\times V\to \mathbb R\) zu verstehen, und eine hermitesche Sesquilinearform ist dann eine symmetrische Bilinearform.
Für eine komplexe Zahl \(\alpha \in \mathbb C\) verwenden wir die Notation \(\alpha {\gt} 0\) mit der Bedeutung »\(\alpha \in \mathbb R\) und \(\alpha {\gt} 0\)«. Wie oben schon bemerkt, gilt für eine hermitesche Sesquilinearform \(\beta \) auf einem \(\mathbb C\)-Vektorraum \(V\) und \(v\in V\) stets gilt: \(\beta (v,v)\in \mathbb R\).
Oft schreiben wir eine Bilinearform oder Sesquilinearform auch einfach als \((\cdot ,\cdot )\), d.h. der Wert der Form für Vektoren \(v,w\) wird mit \((v,w)\in \mathbb K\) bezeichnet.
Sei \(V\) ein endlichdimensionaler \(\mathbb K\)-Vektorraum, und sei \(\beta \) eine hermitesche Sesquilinearform auf \(V\).
Die Form \(\beta \) heißt positiv definit, wenn für alle \(v\in V\setminus \{ 0\} \) gilt: \(\beta (v,v) {\gt} 0\).
Die Form \(\beta \) heißt positiv semidefinit, wenn für alle \(v\in V\) gilt: \(\beta (v,v)\ge 0\).
Die Form \(\beta \) heißt negativ definit, wenn für alle \(v\in V\setminus \{ 0\} \) gilt: \(\beta (v,v) {\lt} 0\).
Die Form \(\beta \) heißt negativ semidefinit, wenn für alle \(v\in V\) gilt: \(\beta (v,v)\le 0\).
Die Form \(\beta \) heißt indefinit, wenn \(\beta \) weder positiv semidefinit noch negativ semidefinit ist, also wenn es \(v,w\in V\) mit \(\beta (v,v) {\gt} 0\) und \(\beta (w,w) {\lt} 0\) gibt.
Eine positiv definite hermitesche Sesquilinearform heißt auch Skalarprodukt auf \(V\).
Ein endlichdimensionaler \(\mathbb R\)-Vektorraum zusammen mit einem Skalarprodukt heißt euklidischer Vektorraum, ein endlichdimensionaler \(\mathbb C\)-Vektorraum mit einem Skalarprodukt heißt unitärer Vektorraum.
Das Standardskalarprodukt auf \(\mathbb R^n\) ist ein Skalarprodukt im Sinne dieser Definition, und \(\mathbb R^n\) zusammen mit dem Standardskalarprodukt ist ein euklidischer Vektorraum. Ebenso ist das Standardskalarprodukt auf \(\mathbb C^n\) ein Skalarprodukt im Sinne dieser Definition, und \(\mathbb C^n\) zusammen mit dem Standardskalarprodukt ist ein unitärer Vektorraum.
Sei \(\beta \) eine Sesquilinearform auf einem endlichdimensionalen \(\mathbb K\)-Vektorraum \(V\) mit Strukturmatrix
\[ M_\mathscr B(\beta ) = \operatorname{diag}(a_1, \dots , a_n), \]wobei \(\mathscr B\) irgendeine Basis von \(V\) ist.
Dann ist \(\beta \) hermitesch genau, wenn \(a_i\in \mathbb R\) für alle \(i=1, \dots , n\) gilt; das wollen wir im folgenden voraussetzen.
Es gilt
\(\beta \) positiv definit \(\quad \Leftrightarrow \quad \) \(a_i {\gt} 0\) für alle \(i\),
\(\beta \) positiv semidefinit \(\quad \Leftrightarrow \quad \) \(a_i \ge 0\) für alle \(i\),
\(\beta \) negativ definit \(\quad \Leftrightarrow \quad \) \(a_i {\lt} 0\) für alle \(i\),
\(\beta \) negativ semidefinit \(\quad \Leftrightarrow \quad \) \(a_i \le 0\) für alle \(i\),
\(\beta \) indefinit \(\quad \Leftrightarrow \quad \) es existieren \(i,j\) mit \(a_i {\gt} 0\), \(a_j {\lt} 0\).
Gelegentlich benutzen wir die Begriffe positiv definit, positiv semidefinit, usw. auch für Matrizen, und zwar im Sinne der folgenden Definition.
Sei \(A\in M_n(\mathbb K)\) hermitesch. Wir sagen, die Matrix \(A\) sei positiv definit, wenn \(v^\ast A v {\gt} 0\) für alle \(v\ne 0\) gilt, also wenn die hermitesche Sesquilinearform \(\beta \) mit \(M_{\mathscr E}(\beta )=A\) die entsprechende Eigenschaft hat. (Hier sei \(\mathscr E\) die Standardbasis von \(\mathbb K^n\).)
Entsprechend kann man positiv semidefinite, negativ definite, negativ semidefinite und indefinite Matrizen definieren.
Eine unserer Aufgaben wird im folgenden sein, den Begriff »positiv definit« besser zu verstehen und insbesondere Kriterien zu entwickeln, wie man auch für Matrizen, die nicht Diagonalform haben, nachprüft, ob die zugehörige Sesquilinearform positiv definit ist.
Das folgende Lemma gibt eine geometrische Interpretation des Skalarprodukts. Wir verwenden dort schon die Schreibweise \(\lVert v\rVert = \sqrt{(v,v)}\) (für Vektoren \(v\) in einem Vektorraum mit Skalarprodukt \((\cdot , \cdot )\)), die wir erst etwas weiter unten formal definieren. Die Definition ist sinnvoll, weil \((v,v)\ge 0\) gilt, und die nicht-negative reellen Zahl \(\lVert v\rVert \) sollte als die Länge des Vektors \(v\) (bezüglich des gegebenen Skalarprodukts) interpretiert werden.
Sei \(n\in \mathbb N_{{\gt} 1}\). Sei \((V, (\cdot , \cdot ))\) ein \(\mathbb K\)-Vektorraum mit einem Skalarprodukt.
Seien \(v, w\in V\), \(v, w\ne 0\). Sei \(U\subseteq V\) ein Untervektorraum der Dimension \(2\), der \(v\) und \(w\) enthält. (In dem interessanteren Fall, dass das System \(v,w\) linear unabhängig ist, gilt also \(U = \langle v, w\rangle \).)
Sei \(v^\prime \in U\) ein Vektor \(\ne 0\), so dass \((v, v^\prime ) = 0\) gilt. Dann ist \(v\), \(v^\prime \) eine Basis von \(U\).
Sei \(p\colon U\to \langle v\rangle \) die eindeutig bestimmte lineare Abbildung mit \(p(v) = v\), \(p(v^\prime ) = 0\), also die Projektion der Ebene \(U\) auf die Gerade \(\langle v\rangle \).
Dann gilt \((v, w) = (v, p(w))\) und
Siehe Abschnitt LA1.11.2.3 für eine noch etwas präzisere Version im Fall \(\mathbb K=\mathbb R\) (in diesem Fall ist \((v,w)\) schon bis auf das Vorzeichen durch \(\lvert (v,w)\rvert \) bestimmt) und ein Bild im Fall \(V=\mathbb R^2\).
Dass \(v^\prime \) mit \(v\perp v^\prime \) überhaupt existiert, folgt daraus, dass das orthogonale Komplement von \(\langle v \rangle \) in \(U\) Dimension \(1\) hat (Satz 19.32). In diesem Fall kann man auch leicht ein direktes Argument geben: Ist \(v, v^\flat \) eine Basis von \(U\), so können wir
setzen. Wegen \(v\ne 0\) gilt ja \((v,v) \ne 0\). Es ist dann
Es ist geometrisch-anschaulich klar, dass \(v\) und \(v^\prime \) linear unabhängig sind. Weil \((v, av) = a (v,v) \ne 0\) für alle \(a\ne 0\) und \((v, v^\prime )= 0\) gilt, sehen wir auch formal, dass \(v^\prime \) kein Vielfaches von \(v\) ist.
Wir schreiben \(w = av+a^\prime v^\prime \). Dann gilt \(p(w) = av\) und wegen \((v, v^\prime ) = 0\), dass
und
Daraus folgt die Behauptung.
Es ist von der geometrischen Anschauung her klar, dass in der Situation des Lemmas die Ungleichung \(\lVert p(w)\rVert \le \lVert w\rVert \), und das lässt sich auch leicht direkt nachrechnen: Mit derselben Notation wie im Lemma gilt
weil \((v, v^\prime ) = (v^\prime , v)= 0\) ist.
Nach dem Lemma ist die Ungleichung \(\lVert p(w)\rVert \le \lVert w\rVert \) äquivalent zu
In dieser Form nennt man diese wichtige Ungleichung die Ungleichung von Cauchy und Schwarz. Siehe auch Abschnitt LA1.11.2.3 für einen anderen Beweis (dort im Fall \(\mathbb K=\mathbb R\)), den wir nun verallgemeinern wollen. Die Ungleichung gilt nämlich auch, wenn statt eines Skalarprodukts eine positiv semidefinite hermitesche Sesquilinearform zugrundegelegt wird.
Sei \((\cdot , \cdot )\) eine positiv semi-definite hermitesche Sesquilinearform auf dem \(\mathbb K\)-Vektorraum \(V\). Dann gilt für alle \(v,w\in V\):
Ist die gegebene Form sogar positiv definit, so gilt in der Ungleichung genau dann die Gleichheit, wenn \(v\) und \(w\) linear abhängig sind.
Wir beweisen zuerst die Ungleichung selbst und diskutieren am Schluss, wann Gleichheit eintreten kann. Für alle \(a\in \mathbb K\) gilt
Ist \((w,w) {\gt} 0\), so können wir \(a = \frac{(w,v)}{(w,w)}\) setzen und erhalten wegen \(\overline{(w,v)} = (v,w)\), dass
nach Multiplikation mit \((w,w)\) also
und das ist die Ungleichung aus dem Satz.
Es ist auch klar, dass wir gegebenenfalls \(v\) und \(w\) vertauschen können, um die Ungleichung zu zeigen. Daher ist nun nur noch der Fall \((v,v)=(w,w)=0\) abzuhandeln. Ist die Form \((\cdot ,\cdot )\) positiv definit, dann würde daraus \(v=w=0\) folgen, und es wäre nichts mehr zu tun. Im allgemeinen Fall können wir aber ähnlich wie oben vorgehen, indem wir nun \(a=(w,v)\) setzen. Dann haben wir
Da die rechte Seite nicht positiv sein kann, folgt \(\lvert (v,w)\rvert = 0\), und wir sind auch in diesem Fall fertig.
Es ist leicht zu sehen, dass für linear abhängige Vektoren \(v, w\) die Gleichheit gilt. Sei nun die gegebene Sesquilinearform positiv definit und gelte \(\lvert (v,w) \rvert ^2 = (v,v)(w,w)\). Sei ohne Einschränkung \(w\ne 0\), also \((w,w) {\gt} 0\) und wieder \(a = \frac{(w,v)}{(w,w)}\). Wir sehen dann mit einer ähnlichen Rechnung wie oben, dass
gilt, und weil wir im positiv definiten Fall sind, folgt daraus \(v=aw\), also insbesondere, dass \(v,w\) linear abhängig sind.
Sei \((\cdot , \cdot )\) eine positiv semi-definite hermitesche Sesquilinearform auf dem endlichdimensionalen \(\mathbb K\)-Vektorraum \(V\). Dann ist äquivalent:
\((\cdot , \cdot )\) ist nicht-ausgeartet,
\((\cdot , \cdot )\) ist positiv definit.
Sei die gegebene Form positiv semi-definit und nicht-ausgeartet. Ist \(v\in V\), \(v\ne 0\), so existiert \(w\in V\) mit \((v,w)\ne 0\), weil die Form nicht-ausgeartet ist. Aus der Ungleichung von Cauchy-Schwarz folgt dann sofort, dass \((v,v) \ne 0\) gilt. Zusammen mit der Abschätzung \((v,v)\ge 0\), die gilt, weil die Form nach Voraussetzung positiv semidefinit ist, folgt \((v,v) {\gt} 0\).
Andererseits ist klar, dass eine positiv definite Form nicht-ausgeartet ist, wenn es gilt ja \((v,v)\ne 0\) (sogar \({\gt} 0\)) für alle \(v\ne 0\).
Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot , \cdot )\) (oder allgemeiner mit einer positiv semi-definiten hermiteschen Sesquilinearform). Dann definieren wir die Länge (oder Norm) eines Vektors \(v\in V\) als
(Beachte, dass \((v,v)\in \mathbb R_{\ge 0}\) ist. Unter der Quadratwurzel verstehen wir die eindeutig bestimmte nicht-negative Quadratwurzel.)
Die so definierte Normabbildung \(V\to \mathbb R_{\ge 0}\) hat offensichtlich die Eigenschaften
und im positiv definiten Fall
Eine weitere wichtige Eigenschaft ist die sogenannte Dreiecksungleichung.
Sei \(V\) ein euklidischer/unitärer Vektorraum mit Skalarprodukt \((\cdot , \cdot )\). Für alle \(v,w\in V\) gilt
Seien \(v\), \(w\) in \(V\) gegeben. Es genügt, die Abschätzung für die Quadrate der beiden Seiten zu zeigen, da es sich um nicht-negative reelle Zahlen handelt. Das Quadrat der linken Seite ist
das Quadrat der rechten Seite ist
Nun ist \((v,w) + (w,v) = (v,w) + \overline{(v,w)}\) gerade das Zweifache des Realteils \(\operatorname{Re}((v,w))\) der komplexen Zahl \((v,w)\). Für jede komplexe Zahl \(z\) gilt \(\operatorname{Re}(z) \le \lvert z\rvert \).
Es folgt
wobei wir im zweiten Schritt die Ungleichung von Cauchy und Schwarz benutzt haben. Das ergibt die Behauptung.
Der Name »Dreiecksungleichung« kommt von der Interpretation, dass in jedem Dreieck die Summe der Längen zweier Seiten größer als die Länge der dritten Seite ist (oder gleich, wenn alle drei Ecken auf einer Geraden liegen). Wir schreiben wieder \(d(x,y):=\lVert y-x\rVert \) für den »Abstand« zwischen \(x\) und \(y\). Sind \(u,v,w\) die Eckpunkte eines Dreiecks, so gilt
Wir haben bereits definiert, wann zwei Vektoren (in einem Vektorraum mit einer hermiteschen Sesquilinearform) zueinander orthogonal genannt werden. Die Ungleichung von Cauchy-Schwarz erlaubt es uns nun auch, in einem euklidischen Vektorraum den Winkel zwischen zwei Vektoren zu definieren.
Sei \(V\) ein \(\mathbb K\)-Vektorraum mit Skalarprodukt \((\cdot , \cdot )\). Wir nennen Vektoren \(v,w\in V\) orthogonal zueinander, wenn \((v,w)=0\) gilt.
Sei \(V\) ein euklidischer Vektorraum mit Skalarprodukt \((\cdot , \cdot )\). Der Winkel zwischen zwei Vektoren \(v,w\in V\) ist die eindeutig bestimmte reelle Zahl \(\vartheta \in [0,\pi ]\), für die gilt
\[ \cos \vartheta = \frac{(v,w)}{\lVert v\rVert \cdot \lVert w\rVert }. \]
Für die Definition des Winkels ist hier zu bemerken, dass die Ungleichung von Cauchy-Schwarz gerade besagt, dass
gilt, so dass die Definition sinnvoll ist. Weil \(\vartheta = \frac{\pi }{2}\) die (einzige) Nullstelle von \(\cos \) im Intervall \([0, \pi ]\) ist, sehen wir auch, dass zueinander orthogonale Vektoren im Sinne von Teil (1) der Definition einen rechten Winkel – also \(\pi /2\) bzw. \(90^\circ \) – bilden. Mit Lemma 19.52 kann man die obige Definition des Winkels leicht zusammenbringen mit der elementargeometrischen Definition des Kosinus als dem Verhältnis der Längen von Ankathete und Hypotenuse im rechtwinkligen Dreieck. Siehe Abschnitt LA1.11.5 für eine ausführlichere Diskussion des Winkelbegriffs.
Sei \(V\) ein \(\mathbb K\)-Vektorraum. Eine Norm auf \(V\) ist eine Abbildung \(V\to \mathbb R_{\ge 0}\), \(v\mapsto \lVert v\rVert \) mit den folgenden Eigenschaften (für alle \(a\in K\), \(v,w\in V\)):
- \[ \lVert v\rVert = 0 \quad \Longleftrightarrow \quad v = 0, \]
- \[ \lVert av\rVert = \lvert a\rvert \, \lVert v\rVert , \]
- \[ \lVert v+w \rVert \le \lVert v\rVert + \lVert w\rVert , \]
Wir haben oben jedem Skalarprodukt \((\cdot , \cdot )\) auf \(V\) durch \(\lVert v\rVert :=\sqrt{(v,v)}\) eine Norm zugeordnet. Man kann zeigen, dass diese Zuordnung eine Bijektion
definiert, wobei (P) die sogenannte Parallelogrammgleichung ist:
Für die Konstruktion der Umkehrabbildung siehe Lemma 19.86 (allerdings muss man natürlich zusätzlich noch nachrechnen, dass aus den Normeigenschaften zusammen mit der Parallelogrammgleichung folgt, dass die durch die Formel aus dem Lemma gegebene Abbildung \(V\times V\to \mathbb K\) tatsächlich ein Skalarprodukt ist.
Es ist nun leicht, Beispiele von Normen anzugeben, die nicht von einem Skalarprodukt herkommen, zum Beispiel \(\mathbb R^n\to \mathbb R_{\ge 0}\), \((x_i)_i \mapsto \lvert x_1\rvert +\cdots + \lvert x_n\rvert \), für \(n {\gt} 1\).