Inhalt

7.7 Ergänzungen *

Beispiel 7.58

Sei \(n\) eine natürliche Zahl. Wir betrachten den Körper \(K=\mathbb R\) und darüber den Vektorraum \(V\) der Polynomfunktionen »vom Grad \(\le n\)«, d.h. den Vektorraum

\[ V=\left\{ f\colon \mathbb R\to \mathbb R;\ \text{es existieren}\ a_0, \dots , a_n,\ \text{so dass}\ f(x) = \sum _{i=0}^n a_i x^i\ \text{für alle}\ x\in \mathbb R\right\} . \]

Hier ist \(n\) von vorneherein festgelegt, aber es ist erlaubt, dass einige (oder sogar alle) \(a_i\) gleich Null sind.

Die übliche Addition und Skalarmultiplikation von Abbildungen in einen Vektorraum (in diesem Fall \(\mathbb R\)) liefern uns eine Vektorraumstruktur auf \(V\) (vergleiche Beispiel 6.2).

Die Abbildung

\[ \Phi \colon \mathbb R^{n+1} \to V,\quad (a_0, \dots , a_n)^t\mapsto \left(f(x) = \sum _{i=0}^n a_ix^i\right) \]

ist dann eine lineare Abbildung. Nach Definition von \(V\) ist klar, dass sie surjektiv ist. Wir haben gesehen (Korollar 4.28), dass die Koeffizienten \(a_i\) durch die Abbildung \(f(x)\) eindeutig bestimmt sind. Das bedeutet genau, dass die Abbildung \(\Phi \) injektiv ist. Es handelt sich also um einen Isomorphismus, und wir sehen insbesondere, dass \(\dim V = n+1\), und genauer, dass \(1\), \(x\), …, \(x^n\) eine Basis von \(V\) bilden (wobei wir hier \(x^i\) als Abkürzung für die Polynomfunktion \(\mathbb R\to \mathbb R\), \(x\mapsto x^i\), schreiben).

Seien \(c_0, \dots , c_n\) paarweise verschiedene reelle Zahlen. Die Abbildung

\[ \Psi \colon V\to \mathbb R^{n+1},\quad f\mapsto (f(c_0), \dots , f(c_n))^t \]

ist linear, und sie hat trivialen Kern, weil die Nullfunktion die einzige Polynomfunktion vom Grad \(\le n\) mit \(n+1\) Nullstellen ist (Satz 4.25). Daher ist die Abbildung injektiv und aus Dimensionsgründen auch surjektiv. Wir können damit schließen:

Lemma 7.59

Es gibt für jedes Element \((y_0, \dots , y_n)^t\in \mathbb R^{n+1}\) genau eine Polynomfunktion \(f\colon \mathbb R\to \mathbb R\) vom Grad \(\le n\) mit \(f(c_i)=y_i\) für alle \(i\).

(Andersherum könnte man das Lemma direkt beweisen – ist \((y_0, \dots , y_n)^t\) einer der Standardbasisvektoren, dann kann man die entsprechende Funktion direkt hinschreiben. Dann wüsste man, dass \(\Psi \) ein Isomorphismus ist, und könnte aus der Surjektivität der Abbildung \(\Phi \) auf deren Injektivität schließen. Das würde einen neuen Beweis von Korollar 4.28 liefern.)

Bis hierhin könnte man in der Diskussion \(\mathbb R\) durch irgendeinen unendlichen Körper (oder sogar einen Körper der mindestens \(n+1\) Elemente hat) ersetzen. Zum Schluss des Beispiels wollen wir noch erwähnen, dass im Fall der reellen Zahlen auch die Ableitung und das Integral über ein Intervall \([a,b]\) lineare Abbildungen definieren: Die Abbildungen

\[ V\to V,\quad f(x)\mapsto f^\prime (x), \]

und (für \(a, b\in \mathbb R\))

\[ V\to \mathbb R, \quad f(x)\mapsto \int ^b_a f(x)\ dx, \]

sind Homomorphismen von \(\mathbb R\)-Vektorräumen. Das folgt aus den Rechenregeln, die beschreiben, wie sich Ableitung und Integral für die Summe von Funktionen bzw. das Produkt einer Funktion mit einer reellen Zahl verhalten. Die Aussage über die Linearität des Ableitungsoperators und des Integrals über ein fest gewähltes Intervall gilt natürlich nicht nur für Polynomfunktionen, sondern allgemeiner für differenzierbare bzw. integrierbare Funktionen.

Ergänzung 7.60

Wir hatten in Beispiel 5.49 schon einige Beispiele für Endomorphismen von \(\mathbb R^2\) gesehen. In Bemerkung 7.3 haben wir die Bedingungen an eine (bijektive) Abbildung \(\mathbb R^n\to \mathbb R^m\), linear zu sein, geometrisch formuliert. Viele Arten von Abbildungen, die wir aus der Anschauung kennen, sind also lineare Abbildungen, zum Beispiel für den Fall \(\mathbb R^2\to \mathbb R^2\): Drehungen um den Ursprung, Spiegelungen an einer Ursprungsgeraden, Scherungen, Streckungen, und Verkettung von Abbildungen dieser Art. (Und ähnlich für den allgemeinen Fall \(\mathbb R^n\to \mathbb R^m\).) Wir sollten also in der Lage sein, alle diese Abbildungen in unserem Formalismus wiederzufinden und sie insbesondere durch Matrizen zu beschreiben.

Wie üblich, wenn man Anschauung und mathematischen Formalismus zusammenbringen möchte, stehen wir hier allerdings vor dem Problem, dass wir – beispielsweise – den Begriff der Drehung ja bisher gar nicht definiert haben. Da gibt es nun mehrere Möglichkeiten:

  1. Ich könnte Ihnen einfach eine Definition vorsetzen: Eine Abbildung \(f\colon \mathbb R^2\to \mathbb R^2\) heißt Drehung, wenn die darstellende Matrix \(M(f)\) die Form

    \[ M(f) = \begin{pmatrix} a & -b \\ b & a \end{pmatrix} \]

    für reelle Zahlen \(a,b\) mit \(a^2+b^2 = 1\) hat.

  2. Wir könnten die Theorie der analytischen Geometrie entwickeln und geometrische Begriffe wie Abstand, Winkel, …, Drehung, Spiegelung, …definieren, und danach die Verbindung zur linearen Algebra herstellen.

    Das würde letzten Endes zur selben Definition wie in Teil (1) führen, und würde diese Definition tatsächlich geometrisch motivieren und erklären.

  3. Oder wir wählen einen naiven Ansatz, nehmen den Standpunkt ein, dass wir ja wissen, was ein Winkel und eine Drehung sind, dass man den Umfang eines Kreises und die Länge eines Kreisbogens messen kann, und was die Funktionen Sinus und Kosinus (im Sinne der »elementaren« Definition als Verhältnis der Längen von Gegenkathete und Hypotenuse bzw. von Ankathete und Hypotenuse im rechtwinkligen Dreieck) sind.

Ansatz (1) lässt sich schnell durchführen, aber Sie würden sich zu recht fragen, warum ausgerechnet Matrizen dieser Form Drehungen heißen sollen; das ist also nicht sehr befriedigend. Andererseits gibt es ein offensichtliches Problem mit Ansatz (2): Es würde einige Zeit kosten, ihn tatsächlich durchzuführen. Und zwar auch deshalb, weil man für einen befriedigenden Aufbau der Theorie eine ganze Menge Mathematik braucht, die in den Anfängervorlesungen Lineare Algebra 1 & 2 und Analysis 1 & 2 gar nicht behandelt wird. (Das soll nicht heißen, dass es so schwierig wäre, dass man es nicht machen könnte. Aber im üblichen Aufbau der Anfängervorlesungen werden diese Sachen – etwa die Begriffe des Flächeninhalts/Volumens von Teilmengen von \(\mathbb R^2\) und der Länge von (nicht geradlinigen) »Kurven« in \(\mathbb R^n\) – üblicherweise zurückgestellt. In der Maß- und Integrationstheorie, wie sie typischerweise in der Analysis 3 behandelt wird, werden diese Probleme dann (neben weitreichenden Verallgemeinerungen) miterledigt.)

Mehr Informationen dazu finden Sie in Kapitel 11.

Ansatz (3) ist insofern unbefriedigend, als ja das Ziel in den Mathematik-Vorlesungen ist, die Theorie rigoros und so vollständig wie möglich aufzubauen, und sich eben nicht auf eine Anschauung zu verlassen, die nicht hinterfragt wird. An dieser Stelle sollen Sie aber wenigstens die Möglichkeit haben, ein bisschen mehr als in (1) oben zu erfahren. Ich wähle hier eine Kompromisslösung, die nur wenig Geometrie benötigt, mit der aber immerhin einiges motiviert werden kann. Wir beginnen recht rigoros, und gehen am Ende im Sinne von Ansatz (3) noch ein bisschen weiter, ohne vollständige Herleitungen der verwendeten Begriffe zu geben.

Sei zunächst \(n\ge 1\) eine natürliche Zahl. Wir definieren den Abstand von Punkten \((v_i)_i\), \((w_i)_i\) in \(\mathbb R^n\) als
\[ d(v,w) = \sqrt{\sum _{i=1}^n (w_i-v_i)^2}. \]
Veranschaulichen Sie sich diese Definition, wenigstens im Fall \(n=1\) und, anhand des Satzes des Pythagoras im Fall \(n=2\). Vergleiche die nebenstehende Abbildung: Die Länge der waagerechten Kathete des eingezeichneten rechtwinkligen Dreiecks ist \(\left| w_1-v_1\right|\), die der senkrechten ist \(\left| w_2-v_2\right|\). Siehe Abschnitt 11.2.1 für eine ausführlichere Diskussion.
\begin{tikzpicture}  \clip (-1.5, -1.5) rectangle + (6, 6); \draw [->, gray, thick] (-6.8*.5, 0) – (8.8*.5, 0); \draw [->, gray, thick] (0, -6.8*.5) – (0, 8.8*.5); 

\foreach \x in {-6, -4, -2, 2, 4, 6, 8}{ \draw [gray] (\x *.5, -0.1) – (\x *.5, 0.1) node[black, below, yshift=-.1cm] {\x }; }; \foreach \x in {-6, -4, -2, 2, 4, 6, 8}{ \draw [gray] (-0.1, \x *.5) – (0.1, \x *.5) node[black, left, xshift=-.1cm] {\x }; }; 

\draw [thick] (1,1) – (4,1) – (4,3) – (1,1); \fill [red] (4, 3) circle[radius=.5mm] node[below right, black] {$w$}; \fill [red] (1, 1) circle[radius=.5mm] node[below right, black, xshift=-.3cm] {$v$}; 

\end{tikzpicture}

Wir wollen zunächst Endomorphismen \(f\) von \(\mathbb R^n\) betrachten, die alle Abstände erhalten, das bedeutet, dass für je zwei Punkte \(v,w\in \mathbb R^n\) gelten soll: \(d(f(v), f(w)) = d(v,w)\). Beispiele dafür sind die Beispiele von Drehungen und Spiegelungen, die wir in Beispiel 5.49 gesehen haben. Jedenfalls ist jede abstandserhaltende Abbildung \(\mathbb R^2\to \mathbb R^2\) ein Isomorphismus, da für alle \(v\ne 0\) gilt, dass \(d(f(v), 0) = d(v,0)\ne 0\), also \(f(v)\ne 0\) ist.

Satz 7.61

Ein Endomorphismus \(f\colon \mathbb R^2\to \mathbb R^2\) ist genau dann abstandserhaltend, wenn die darstellende Matrix von \(f\) die Form

\[ \begin{pmatrix} a & -b \\ b & a \end{pmatrix}\quad \text{oder}\quad \begin{pmatrix} a & b \\ b & -a \end{pmatrix} \]

mit \(a^2+b^2 = 1\) hat.

Proof
Für die Standardbasisvektoren \(e_1, e_2\) gilt \(d(0, e_1) = 1\), \(d(0, e_2)=1\), also müssen auch ihre Bilder unter \(f\) Abstand \(1\) vom Ursprung haben. Außerdem gilt \(d(e_1, e_2) = \sqrt{2}\), also auch \(d(f(e_1), f(e_2)) = \sqrt{2}\).

Es ist anschaulich klar, dass es zu vorgegebenem \(f(e_1)\), also zu vorgegebenen Zahlen \(a,b\in \mathbb R\) mit \(a^2+b^2=1\), genau zwei Möglichkeiten gibt, \(f(e_2)\) so zu wählen, dass \(f(e_2)\) Abstand \(1\) zum Ursprung hat (also auf dem »Einheitskreis« liegt) und Abstand \(\sqrt{2}\) zu \(f(e_1)\) hat.

Es ist auch nicht schwer (wenn auch etwas lästig), die obige Bedingung damit auszurechnen, und ich überlasse für den Moment diese Rechnung Ihnen. Sobald wir darüber gesprochen haben werden, wann zwei Geraden bzw. Vektoren senkrecht zueinander sind, lässt sich das Ganze noch transparenter machen. Siehe Satz 11.26.

Proof

Während anschaulich die eine der beiden Möglichkeiten im Satz eine Drehung darstellt, handelt es sich bei der anderen um die Spiegelung an einer Ursprungsgeraden. Wir wollen diese Unterscheidung im folgenden etwas genauer diskutieren.

Satz 7.62
  1. Seien \(a,b\in \mathbb R\) mit \(a^2+b^2 = 1\). Sei \(f = \mathbf f_A\colon \mathbb R^2\to \mathbb R^2\) mit

    \[ A = \begin{pmatrix} a & b \\ b & -a \end{pmatrix}. \]

    Dann ist \(f\) abstandserhaltend und es gilt \(f\circ f = \operatorname{id}\). Ferner existieren \(v, v^\prime \in \mathbb R^2\setminus \{ 0\} \) mit

    \[ f(v) = v,\quad f(v^\prime )=-v^\prime . \]
  2. Sei \(v\in \mathbb R^2\setminus \{ 0\} \). Dann existiert genau eine abstandserhaltende Abbildung \(f\colon \mathbb R^2\to \mathbb R^2\) so dass \(f(v)=v\) und dass ein Vektor \(v^\prime \in \mathbb R^2\setminus \{ 0\} \) existiert mit \(f(v^\prime )=-v^\prime \), und die Matrix \(M(f)\) hat die Form der Matrix \(A\) in Teil (1).

Wir nennen \(f\) die Spiegelung an der Geraden \(\langle v\rangle \).

Proof
Wir betrachten zunächst Teil (1). Dass \(f\circ f=\operatorname{id}\) gilt, ist gleichbedeutend mit \(A^2 = E_2\); eine leichte Rechnung zeigt, dass dies tatsächlich der Fall ist. Die Bedingungen an \(v\) und \(v^\prime \) können wir formulieren als

\[ (A-E_2)v = 0,\quad (A+E_2)v^\prime = 0. \]

Die Existenz solcher Vektoren zu zeigen, heißt also einfach zu beweisen, dass diese homogenen linearen Gleichungssysteme nicht nur die triviale Lösung besitzen. Wir können die Determinante von \((2\times 2)\)-Matrizen benutzen (siehe Beispiel 5.56 und Abschnitt 2.5). Es gilt \(\delta (A-E_2) = (a-1)(-a-1) - b^2 = -a^2 + 1 - b^2 = 0\), und ähnlich berechnet man \(\delta (A+E_2)=0\).

zu (2). Zunächst zur Existenz: Ist \(v = (x,y)^t\), so setzen wir \(v^\prime = (-y, x)^t\). Da \(v\ne 0\) gilt, überprüft man leicht, dass \(\mathscr B= (v, v^\prime )\) eine Basis von \(\mathbb R^2\) ist. Es gibt daher eine eindeutig bestimmte lineare Abbildung \(f\colon \mathbb R^2\to \mathbb R^2\) mit \(f(v)=v\), \(f(v^\prime ) = -v^\prime \). Mit anderen Worten: Wir können \(f\) durch \(M^\mathscr B_\mathscr B(f) = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}\) definieren. Es bleibt dann nur nachzurechnen, dass das so definierte \(f\) abstandserhaltend ist, und durch eine Matrix wie in Teil (1) beschrieben wird.

Um die Eindeutigkeit zu sehen, schreiben wir wieder \(v = (x,y)^t\) und betrachten eine Abbildung \(f\) mit den gewünschten Eigenschaften. Aus der Existenz von \(v^\prime \) mit \(f(v^\prime ) = -v^\prime \) kann man mit einer ähnlichen Betrachtung ein in Teil (1) folgern, dass die darstellende Matrix von \(f\) die Form

\[ \begin{pmatrix} a & b \\ b & -a \end{pmatrix} \]

haben muss (und nicht die andere Möglichkeit aus Satz 7.61 eintreten kann). Dass \(f(v) = v\) ist, bedeutet also

\[ ax+by = x,\quad bx - ay = y. \]

Das können wir als Gleichungssystem in den Unbestimmten \(a\) und \(b\) (und mit Koeffizienten \(x\), \(y\)) betrachten. Die Koeffizientenmatrix \(\begin{pmatrix} x & y \\ -y & x \end{pmatrix}\) ist invertierbar, weil \(v\ne 0\) gilt. Das bedeutet, dass \(a\) und \(b\) durch \(v\) eindeutig bestimmt sind.

Proof

Es ist auch nicht schwierig, aus der Existenzaussage in Teil (2) eine Formel für die darstellende Matrix dieser Abbildung zu gewinnen. Mit den Notationen aus dem Beweis, und wenn wir die Basis \((v,v^\prime )\) mit \(\mathscr B\) und die Standardbasis mit \(\mathscr E\) bezeichnen, gilt:

\[ M^\mathscr B_\mathscr E= \begin{pmatrix} x & -y \\ y & x \end{pmatrix},\quad M(f) = M^\mathscr B_\mathscr E\, \begin{pmatrix} -1 & 0 \\ 0 & 1 \end{pmatrix}\, M^\mathscr E_\mathscr B= \frac{1}{x^2+y^2} \begin{pmatrix} y^2-x^2 & -2xy \\ -2xy & x^2-y^2 \end{pmatrix}. \]

Allgemeiner nennt man eine abstandserhaltende Abbildung \(f\colon \mathbb R^n\to \mathbb R^n\) eine Spiegelung, wenn es einen Untervektorraum \(U\subset \mathbb R^n\) der Dimension \(n-1\) gibt, so dass \(f(u) = u\) für alle \(u\in U\) gilt, und es einen Vektor \(v\in \mathbb R^n\) mit \(f(v)=-v\) gibt.

Matrizen der Form \(\begin{pmatrix} a & -b \\ b & a \end{pmatrix}\) (mit \(a^2+b^2=1\)) definieren eine Drehung. Eine ausführlichere Diskussion dieses Begriffs benötigt eigentlich, wie auch oben schon erwähnt, den Begriff des Winkels. Jedenfalls stimmt es mit der Anschauung überein, dass die Drehung, die \(e_1\) auf den Punkt \(\begin{pmatrix} a \\ b \end{pmatrix}\) abbildet, den Punkt \(e_2\) auf \(\begin{pmatrix} -b \\ a \end{pmatrix}\) abbildet. Eine Drehung erfüllt sicher die geometrische Beschreibung linearer Abbildungen in Bemerkung 7.3, so dass die folgende Definition sinnvoll ist.

Definition 7.63

Seien \(a,b\in \mathbb R\) mit \(a^2+b^2 = 1\). Sei \(f = \mathbf f_A\colon \mathbb R^2\to \mathbb R^2\) mit

\[ A = \begin{pmatrix} a & -b \\ b & a \end{pmatrix}. \]

Dann ist \(f\) abstandserhaltend. Wenn \(a=1\), dann ist \(A=E_2\) und \(f=\operatorname{id}\). Andernfalls existiert kein \(v\in \mathbb R^2\setminus \{ 0\} \) mit \(f(v) = v\).

Wir nennen \(f\) eine Drehung. Matrizen \(A\) der obigen Form nennt man auch Drehmatrizen.

Die Sachen, die hier noch zu beweisen sind, zeigt man mit ähnlichen Argumenten wie bei der Betrachtung von Spiegelungen.

\begin{tikzpicture} [scale=2] \clip (-1.5, -1.5) rectangle + (3,3); \draw [->, gray, thick] (-1.5, 0) – (1.5, 0); \draw [->, gray, thick] (0, -1.5) – (0, 1.5); 

\draw (0, 0) circle[radius=1cm]; \draw [red, thick] (1,0) arc (0:55:1) ; \draw [red, thick] (1,0) – (0,0) – (.6, .8); \draw (0,0) node[above right, black, xshift=.1cm, yshift=-.05cm] {$\alpha $}; \draw (0.3, 0) arc(0:55:0.3); 

\draw [dotted, thick] (0, 0) – (.6, 0) – (.6, .8) – (0,0); \draw [dotted, thick] (0, 0) – (0, .6) – (-.8, .6) – (0,0); \fill [red] (.6, .8) circle[radius=.3mm] node[above right, black] {$(a,b)^t$}; \fill [red] (-.8, .6) circle[radius=.3mm] node[above left, black] {$(-b,a)^t$}; \foreach \x in {-1, 1}{ \draw [black] (\x , -0.07) – (\x , 0.07) node[black, below, xshift=.1cm, yshift=-.2cm] {\x }; }; \foreach \x in {-1, 1}{ \draw [black] (-0.07, \x ) – (0.07, \x ) node[black, left, xshift=-.2cm, yshift=.1cm] {\x }; }; 

\end{tikzpicture}
Die Abbildung zeigt die Drehung \(\rho \) um den Winkel \(\alpha \). Es gilt dann \(\rho (e_1) = \begin{pmatrix} a \\ b \end{pmatrix}\) und \(\rho (e_2)= \begin{pmatrix} -b \\ a \end{pmatrix}\). Es ist dann \(a = \cos (\alpha )\), \(b = \sin (\alpha )\).

Allgemein kann man (allerdings etwas behelfsmäßig, siehe Kapitel 11 für eine ausführlichere Diskussion) definieren: Eine lineare Abbildung \(f\colon \mathbb R^n\to \mathbb R^n\) heißt Drehung, wenn sie abstandserhaltend ist und eine lineare Abbildung \(g\colon \mathbb R^n\to \mathbb R^n\) mit \(f = g\circ g\) existiert. (Anschaulich kann man jede Drehung in zwei gleiche Schritte aufteilen; in \(\mathbb R^2\) heißt das einfach, dass man zweimal um den halben Drehwinkel dreht. Eine Spiegelung kann man hingegen nie in der Form \(g\circ g\) schreiben, und diese Bedingung dient dazu, die Spiegelungen auszuschließen.)

Selbst im Fall \(n=2\) ist es aber nicht-trivial, für eine Matrix \(\begin{pmatrix} a & b \\ -b & a \end{pmatrix}\) die Matrix für die Drehung »um den halben Drehwinkel« zu berechnen. Hier kommen die trigonometrischen Funktionen Sinus und Kosinus ins Spiel. Wir wollen die Diskussion noch ein bisschen unter der Annahme fortführen, dass wir wissen, was der Winkel zwischen zwei sich schneidenden Geraden ist, und was die Sinus- und

Sei \((a,b)^t\) ein Punkt auf dem Einheitskreis, also mit Abstand \(1\) zum Ursprung, sei \(g\) die Gerade durch \((0,0)^t\) und \((a,b)^t\), und sei \(\alpha \) der Winkel den die waagerechte Koordinatenachse und \(g\) einschließen, wobei wir von der waagerechten Koordinatenachse gegen den Uhrzeigersinn bis zum Punkt \((a,b)^t\) laufen (vergleiche die Abbildung). Kosinus-Funktion sind.

Es gilt dann \(a =\cos (\alpha )\) und \(b=\sin (\alpha )\). Umgekehrt ist für jeden Winkel \(\alpha \) der Punkt \((\cos (\alpha ), \sin (\alpha ))^t\) ein Punkt auf dem Einheitskreis, denn \(\cos (\alpha )^2 + \sin (\alpha )^2 = 1\). Die Drehung um den Winkel \(\alpha \) gegen den Uhrzeigersinn wird also durch die Matrix
\[ \begin{pmatrix} \cos (\alpha ) & -\sin (\alpha ) \\ \sin (\alpha ) & \cos (\alpha ) \end{pmatrix} \]
beschrieben.
\begin{tikzpicture} [scale=2] \clip (-1.5, -1.5) rectangle + (3,3); \draw [->, gray, thick] (-1.5, 0) – (1.5, 0); \draw [->, gray, thick] (0, -1.5) – (0, 1.5); 

\draw (0, 0) circle[radius=1cm]; \draw [thick] (-1.2,-1.6) – (1.2, 1.6); \draw (.9, 1.3) node {$g$}; \draw (0,0) node[above right, black, xshift=.1cm, yshift=-.05cm] {$\alpha $}; \draw (0.3, 0) arc(0:55:0.3); 

\fill [black] (.6, .8) circle[radius=.2mm] node[above right, black, yshift=-.3cm, xshift=.1cm] {{$(a,b)^t$}}; \foreach \x in {-1, 1}{ \draw [black] (\x , -0.07) – (\x , 0.07) node[black, below, xshift=.1cm, yshift=-.2cm] {\x }; }; \foreach \x in {-1, 1}{ \draw [black] (-0.07, \x ) – (0.07, \x ) node[black, left, xshift=-.2cm, yshift=.1cm] {\x }; }; 

\end{tikzpicture}

Dass für die Drehungen \(\rho _\alpha \) und \(\rho _\beta \) um den Winkel \(\alpha \) bzw. \(\beta \) die Verkettung \(\rho _\alpha \circ \rho _\beta \) die Drehung um den Winkel \(\alpha +\beta \) ist, bedeutet

\[ \begin{pmatrix} \cos (\alpha ) & -\sin (\alpha ) \\ \sin (\alpha ) & \cos (\alpha ) \end{pmatrix} \begin{pmatrix} \cos (\beta ) & -\sin (\beta ) \\ \sin (\beta ) & \cos (\beta ) \end{pmatrix} = \begin{pmatrix} \cos (\alpha +\beta ) & -\sin (\alpha +\beta ) \\ \sin (\alpha +\beta ) & \cos (\alpha +\beta ) \end{pmatrix}, \]

oder für die Einträge ausgeschrieben:

\begin{align*} \cos (\alpha +\beta ) & = \cos (\alpha )\cos (\beta ) -\sin (\alpha )\sin (\beta ),\\ \sin (\alpha +\beta ) & = \sin (\alpha )\cos (\beta ) +\cos (\alpha )\sin (\beta ).\\ \end{align*}

Diese Gleichungen nennt man die Additionstheoreme für die Sinus- und Kosinus-Funktionen. Die weitere Diskussion verschieben wir ins Kapitel 11.

In der Linearen Algebra 2 werden wir die Theorie der Bilinearformen kennenlernen, die einige in der analytischen Geometrie besonders wichtige Konzepte in noch allgemeinerem Rahmen bereitstellt. Dann wird sich auch in natürlicher Weise die Gelegenheit ergeben, auf die hier genannten Beispiele noch einmal zurückzukommen.

Zum Schluss sei noch die Verbindung zur Matrixdarstellung der komplexen Zahlen (Bemerkung 5.42) erwähnt: Wenn wir \(\mathbb C= \mathbb R^2\) identifizieren, dann können wir als Ergebnis der obigen Diskussion sagen, dass die (lineare) Abbildung \(\mathbb C\to \mathbb C\), \(x\mapsto zx\), die durch Multiplikation mit einer komplexen Zahl \(z =a+bi\) mit \(a^2+b^2 = 1\) gegeben ist, geometrisch gesehen eine Drehung um den Ursprung ist.

Für \(z = a+bi\) nennt man die Zahl \(\sqrt{a^2+b^2}\) auch den Betrag von \(z\). Im Sinne der Identifikation \(\mathbb C=\mathbb R^2\) ist dies genau der Abstand des Punktes \(z\) zum Ursprung.

Beispiel 7.64

Das folgende Beispiel spielt in der Vorlesung Lineare Algebra weiter keine Rolle, soll aber exemplarisch die neu eingeführten Begriffe illustrieren und zeigen, dass der Begriff der linearen Abbildung es oft erlaubt, mathematische Sachverhalte prägnant auszudrücken.

Sei \(V=\mathbb R^\mathbb N\) der \(\mathbb R\)-Vektorraum aller reellen Zahlenfolgen \((a_n)_{n\in \mathbb N}\), \(a_n\in \mathbb R\). Sei \(U\) die Teilmenge der konvergenten Folgen. Diese bildet einen Untervektorraum, denn die gliedweise Summe zweier konvergenter Folgen ist wieder eine konvergente Folge, und ebenso erhält die Multiplikation aller Terme einer Folge mit einer reellen Zahl \(a\) die Konvergenzeigenschaft.

Wir erhalten eine Abbildung \(L\colon U\to \mathbb R\), \((a_n)_n\mapsto \lim _{n\to \infty } a_n\). Dass für alle konvergenten Folgen \((a_n)_n\) und \((b_n)_n\) und für \(a\in \mathbb R\) die Grenzwertsätze

\[ \lim _{n\to \infty } (a_n+b_n) = \lim _{n\to \infty } a_n + \lim _{n\to \infty } b_n, \qquad \lim _{n\to \infty } aa_n = a\, \lim _{n\to \infty } a_n \]

gelten, ist äquivalent dazu, dass \(L\) eine lineare Abbildung ist.

Der Beweis der Grenzwertsätze oder äquivalent der Tatsache, dass \(L\) linear ist, wird durch die neue Terminologie natürlich nicht einfacher.

(Der – ebenfalls richtige – Grenzwertsatz

\[ \lim _{n\to \infty } (a_nb_n) = \lim _{n\to \infty } a_n \cdot \lim _{n\to \infty } b_n \]

für konvergente Folgen \((a_n)_n\), \((b_n)_n\) wird durch den Begriff der linearen Abbildung nicht abgedeckt. Das zeigt, dass es in dieser Situation noch passender wäre, stattdessen über Abbildungen zu sprechen, die auch mit der komponentenweisen Multiplikation auf \(\mathbb R^\mathbb N\) und der Multiplikation auf \(\mathbb R\) verträglich sind. Wir werden in der Linearen Algebra 2 dieser Art von Abbildungen den Namen Ringhomomorphismus geben.)

Ergänzung 7.65 Rechtecke mit Quadraten überdecken

Eine Anwendung von Satz 7.14 ist die folgende geometrische Tatsache: Wir betrachten ein Rechteck und die Frage, ob es durch (endlich viele) Quadrate lückenlos überdeckt werden kann.

\begin{tikzpicture} [scale=0.9] \draw [thick] (1, 0) -- (9, 0) --(9, 5) -- (1, 5) -- (1,0); \draw [thick] (1, 0) -- (6, 0) --(6, 5) -- (1, 5) -- (1,0); \draw [thick] (6, 0) -- (9, 0) -- (9, 3) -- (6, 3) -- (6, 0); \draw [thick] (6, 3) -- (6, 5) -- (8, 5) -- (8, 3) -- (6, 3); \draw [thick] (8, 5) -- (9, 5) -- (9, 4) -- (8, 4); \end{tikzpicture}
Es ist leicht zu sehen, dass das nur möglich ist, wenn die Seiten aller Quadrate parallel sind zu den Seiten des Rechtecks, denn jedenfalls müssen die Quadrate, die in den vier Ecken des Rechtecks liegen, diese Eigenschaft haben, und von dort kann man sich weiter »vorarbeiten«. Wenn \(a, b\in \mathbb Q\) sind, dann lässt sich das Rechteck mit Seitenlängen \(a\) und \(b\) durch Quadrate überdecken. (Das ist »offensichtlich«. Warum? Lassen Sie sich nicht von der Zeichnung verwirren …)

Satz 7.66

Sei \(R\) ein Rechteck mit Seitenlängen \(a, b\in \mathbb R_{{\gt}0}\). Dabei sei \(a\in \mathbb Q\) und \(b\in \mathbb R\setminus \mathbb Q\). Dann lässt sich \(R\) nicht vollständig durch (endlich viele) Quadrate überdecken, die sich nicht überlappen.

Proof
Angenommen, \(R\) ließe sich durch Quadrate \(Q_1\), …, \(Q_r\) vollständig und ohne Überlappung überdecken. Sei \(q_i\) die Seitenlänge von \(Q_i\). Insbesondere ist \(ab\) (der Flächeninhalt von \(R\)) gleich der Summe \(q_1^2 + \cdots +q_r^2\). Das allein ist aber kein Widerspruch – natürlich lässt sich \(ab\) als Summe von Quadratzahlen schreiben, da wir in \(\mathbb R\) aus allen positiven Zahlen die Quadratwurzel ziehen können. Um einen Widerspruch zu erhalten, müssen wir die zusätzliche geometrische Information benutzen, dass die Quadrate so in das Rechteck gelegt werden können, dass sie es genau passend überdecken.

Wir betrachten dazu den \(\mathbb Q\)-Vektorraum \(\mathbb R\). (Als \(\mathbb Q\)-Vektorraum ist \(\mathbb R\) »riesig«, insbesondere nicht endlich erzeugt (Beispiel 6.55), aber das muss uns an dieser Stelle nicht stören. Insbesondere brauchen wir nicht zu benutzen, dass der \(\mathbb Q\)-Vektorraum \(\mathbb R\) eine Basis besitzt.)

Sei \(V \subseteq \mathbb R\) der \(\mathbb Q\)-Untervektorraum, der erzeugt wird von \(a\), \(b\) und den Zahlen \(q_i\).

Dann sind \(a\) und \(b\) linear unabhängig, denn wäre \(\alpha a + \beta b = 0\) mit \(\alpha , \beta \in \mathbb Q\) eine nicht-triviale Linearkombination, so muss \(\beta \ne 0\) sein. Dann folgt aber \(b = \frac{\alpha }{\beta } \in \mathbb Q\), ein Widerspruch zu unserer Voraussetzung \(b\not \in \mathbb Q\).

Wir können das Paar \((a, b)\) also zu einer Basis von \(V\) ergänzen. Nach Satz 7.14 existiert eine lineare Abbildung \(f\colon V\to V\) mit \(f(a) = 1\), \(f(b) = -1\). Wir definieren für jedes Rechteck \(P\) mit Kantenlängen \(x, y\in V\): \(\varphi (P):=f(x)f(y)\). Zum Beispiel gilt \(\varphi (R) = -1\), und für das Quadrat \(Q_i\) gilt \(\varphi (Q_i) = f(q_i)^2 \ge 0\).

Wir zeigen nun: \(\varphi \) verhält sich additiv für Überdeckungen, d.h. wenn \(P\) irgendein Rechteck ist, das durch andere Rechtecke \(P_1,\dots , P_r\) vollständig und ohne Überlappung überdeckt wird, und alle auftretenden Kantenlängen in \(V\) liegen, dann gilt \(\varphi (P) = \sum _{i=1}^r \varphi (P_i)\). Daraus folgt jedenfalls der Satz, denn wenn es eine Überdeckung des Rechtecks \(R\) durch Quadrate \(Q_1\), …, \(Q_r\) gäbe, so hätten wir \(-1 = \varphi (R) = \sum \varphi (Q_i) \ge 0\).

Um die Behauptung über die Additivität von \(\varphi \) einzusehen, sei also eine Überdeckung eines Rechtecks \(P\) durch Rechtecke \(P_i\) gegeben. Wir zerlegen das Rechteck noch weiter, indem wir alle Seiten der \(P_i\) über die ganze Länge des Rechtecks \(P\) verlängern, wie durch die gepunkteten Linien in der Abbildung am Beispiel der oben gezeigten Überdeckung eines Rechtecks durch Quadrate gezeigt. In dieser feineren Zerlegung sind wieder alle Kantenlängen in \(V\).
\begin{tikzpicture} [scale=0.5] \draw [thick] (0, 0) -- (9, 0) --(9, 5) -- (0, 5) -- (0,0); \draw [thick] (0, 0) -- (6, 0) --(6, 5) -- (0, 5) -- (0,0); \draw [thick] (6, 0) -- (9, 0) -- (9, 3) -- (6, 3) -- (6, 0); \draw [thick] (6, 3) -- (6, 5) -- (8, 5) -- (8, 3) -- (6, 3); \draw [thick] (8, 5) -- (9, 5) -- (9, 4) -- (8, 4); \draw [dotted, thick] (0, 3) -- (6, 3); \draw [dotted, thick] (0, 4) -- (8, 4); \draw [dotted, thick] (8, 0) -- (8, 3); \end{tikzpicture}

Da sich jedes der \(P_i\) und auch \(P\) durch eine geeignete Auswahl von diesen kleinen Rechtecken überdecken lässt, genügt es, die Additivität der Abbildung \(\varphi \) für Überdeckungen dieser einfachen Form zu zeigen, also für solche, die dadurch entstehen, dass in \(P\) einige zu den Seiten parallele Strecken über die ganze Seitenlänge eingezeichnet werden. Sind \(x_1, \dots , x_r\) die Längen der Abschnitte, in die die eine Seite unterteilt wird, und \(y_1, \dots , y_s\) die Längen der Abschnitte der anderen Seite (die Unterteilung besteht also aus \(rs\) kleinen Rechtecken), so gilt

\[ \varphi (P) = f(\sum _{i=1}^r x_i)\, f(\sum _{j=1}^s y_j) = \sum _{i, j} f(x_i) f(y_j), \]

weil die Abbildung \(f\) linear ist. Die Summe auf der rechten Seite ist genau die Summe aller \(\varphi (P_i)\) für die Rechtecke \(P_i\) der verfeinerten Zerlegung von \(P\).

Proof

Quelle: [ Ma ] Ch. 12; dort gibt es auch weiterführende Literaturverweise.

Ergänzung 7.67 Der Page-rank-Algorithmus, Fortsetzung

Dies ist die Fortsetzung der Diskussion aus Frage 2.7 und Ergänzung erg-page-rank-1. Wir hatten dort die folgende Situation erreicht.

Gegeben ist eine Matrix \(G\in M_N(\mathbb R)\), deren Einträge alle positiv sind, und deren Spaltensummen alle \(=1\) sind. Wir möchten das lineare Gleichungssystem \((G-E_N)x=0\) lösen, und genauer eine eindeutig bestimmten Lösungsvektor \(x\in \mathbb R^N\) finden, in dem alle Einträge zwischen \(0\) und \(1\) liegen und so dass die Summe der Einträge \(=1\) ist. (In der Praxis ist zudem die Zahl \(N\) sehr groß.)

Das folgende Lemma wird sich als der Schlüssel erweisen, um die Eindeutigkeit der Lösung (mit den oben genannten Eigenschaften) zu zeigen.

Lemma 7.68

Seien \(N\ge 2\) und \(x, y\in \mathbb R^N\) linear unabhängige Vektoren. Dann gibt es eine Linearkombination \(\alpha x + \beta y\), die sowohl positive als auch negative Einträge hat.

Proof
Ist \(N=2\), so gilt \(\langle x, y \rangle = \mathbb R^2\), und die Behauptung ist klar. Den allgemeinen Fall können wir darauf zurückführen; entweder durch eine elementare Überlegung, oder mit dem folgenden Argument: Wir betrachten \(x\) und \(y\) als die Spalten einer \((N\times 2)\)-Matrix. Nach Voraussetzung ist der Spaltenrang \(=2\), also auch der Zeilenrang. Es gibt also zwei Zeilen, die linear unabhängig sind. Auf diese beiden Zeilen können wir den schon behandelten Fall \(N=2\) anwenden. Es gibt also eine Linearkombination von \(x\) und \(y\), die in diesen beiden Zeilen je einen positiven und einen negativen Eintrag hat.
Proof

Satz 7.69

Sei \(G\) eine quadratische Matrix der Größe \(N\) über \(\mathbb R\), deren Einträge alle positiv und deren Spaltensummen alle gleich \(1\) sind.

Dann gilt \(\operatorname{rg}(G-E_N) = N-1\).

Mit anderen Worten: das homogene lineare Gleichungssystem \((G-E_N)x=0\) hat eine nicht-triviale Lösung, und je zwei Lösungen unterscheiden sich nur durch Multiplikation mit einem Skalar.

Ferner gilt: Ist \(x\in \operatorname{Ker}(G-E_N)\) ein Element \(\ne 0\) der Lösungsmenge, dann sind alle Einträge von \(x\) positiv, oder alle Einträge von \(x\) negativ.

Proof
Da alle Spaltensummen von \(G\) gleich \(1\) sind, sind die Spaltensummen von \(G-E_N\) alle gleich \(0\), oder mit anderen Worten: Die Summe aller Zeilen von \(G-E_N\) ist der Nullvektor. Dies liefert uns eine nicht-triviale Linearkombination der Zeilen, die den Nullvektor darstellt, und es folgt \(\operatorname{rg}(G-E_N) {\lt} N\), also \(\operatorname{Ker}(G-E_N)\ne 0\).

Für die nächsten Schritte müssen wir benutzen, dass die Einträge von \(G\) positiv sind. (Insbesondere ist dieser Teil der Aussage nicht über beliebigen Körpern sinnvoll.) Zuerst zeigen wir die Aussage am Ende des Satzes. Sei also \(x\in \operatorname{Ker}(G-E_N)\), \(x\ne 0\). Wenn \(x\) sowohl positive als auch negative Einträge hätte, dann wäre

\[ \left| \sum _{j=1}^N G_{ij} x_j \right| {\lt} \sum _{j=1}^N G_{ij} |x_j|, \]

denn alle \(G_{ij}\) sind \({\gt}0\). Die linke Seite ist gleich \(|x_i|\), denn nach Voraussetzung ist \(Gx = E_Nx = x\). Wenn wir diese Ungleichungen über alle \(i\) aufsummieren, dann erhalten wir

\[ \sum _{i=1}^N |x_i| {\lt} \sum _{i,j=1}^N G_{ij}|x_j| = \sum _{j=1}^N \left(|x_j|\, \sum _{i=1}^N G_{ij}\right) = \sum _{j=1}^N |x_j|, \]

ein Widerspruch!

Nun können wir auch beweisen, dass \(\operatorname{Ker}(G-E_N)\) eindimensional ist. Dazu benutzen wir Lemma 7.68, das besagt, dass zu zwei linear unabhängigen Vektoren \(x, y \in \mathbb R^N\) immer eine Linearkombination \(\alpha x+\beta y\) existiert, die sowohl positive als auch negative Einträge hat. Deshalb zeigt die gerade bewiesene Aussage, dass es in \(\operatorname{Ker}(G-E_N)\) keine zwei linear unabhängigen Vektoren geben kann.

Proof

Als unmittelbare Folgerung erhalten wir:

Korollar 7.70

Es gibt genau eine Lösung \(x\in \mathbb R^N\) des linearen Gleichungssystems \((G-E_N)x =0\) mit der Eigenschaft \(\sum _{i=1}^N x_i = 1\), und für diese Lösung gilt \(0 \le x_i \le 1\) für alle \(i\).

Wir werden später noch etwas mehr über Verallgemeinerungen des Satzes und darüber sagen, wie man in der Praxis versuchen könnte, diese Lösung zu berechnen. (Denken Sie daran, dass das Verfahren auch funktionieren sollte, wenn die Matrix \(G\) mehrere Milliarden Zeilen hat …). Das passt aber besser in den Abschnitt über Eigenwerte, siehe Ergänzung 10.24.

Ergänzung 7.71 Das Vier-Unterraum-Problem

Für den Moment ist diese Ergänzung nur ein Platzhalter: Das Vier-Unterraum-Problem ist eine Frage, die recht einfach zu formulieren ist und erst (relativ) kürzlich (um 1970 von Gelfand und Ponomarev  [ GP ] und unabhängig davon von Nazarova  [ Na1 ] , [ Na2 ] ) beantwortet wurde. Es gibt ähnliche Klassifikationsprobleme, die immer noch unbeantwortet sind. Hier in der Vorlesung wird die Lineare Algebra zwar überwiegend in einer extrem »optimierten« und »geglätteten« Form präsentiert, wo alle Bausteine gut zusammenpassen (und die historische Entwicklung, die natürlich auch Schwierigkeiten und Sackgassen beinhaltet, ausgeblendet). Aber auch in diesem Gebiet der Mathematik gibt es offene Fragen und wird auch aktuell geforscht.

Besonders interessant ist es, und auch das ist nicht selten, wenn solche Fragen der Linearen Algebra durch konkrete Probleme aus anderen Bereichen der Mathematik, oder durch mögliche Anwendungen, motiviert sind.

Bis ich dazu komme, etwas mehr zum Vier-Unterraum-Problem zu schreiben, können Sie – wenn Sie der Sache schon jetzt nachgehen möchten – in die folgenden Quellen schauen (die oben zitierten Arbeiten sind vermutlich schwerer aufzutreiben und auch schwieriger zu lesen).