Inhalt

5.1 Lineare Gleichungssysteme

5.1.1 Definitionen

Wir halten im gesamten Abschnitt einen Körper \(K\) fest. Im Kontext der linearen Gleichungssysteme ist es nützlich, Elemente von \(K^n\), also \(n\)-Tupel von Elementen von \(K\), nicht wie üblich als Tupel \((x_1, \dots , x_n)\) zu schreiben, sondern in einer Spalte:

\[ \left( \begin{array}{c} x_1 \\ x_2 \\ \vdots \\ x_n \end{array} \right). \]

Das von vorneherein so zu tun, erspart uns eine spätere Umstellung der Notation (und damit mögliche Verwirrung beim späteren Zurückblättern). Die Begründung für diese Konvention liegt im Formalismus des Matrizenprodukts, das wir in Abschnitt 5.3 kennenlernen werden.

Da diese Spaltenvektoren allerdings im Text sehr viel Platz wegnehmen, wollen wir stattdessen die Notation \((x_1, \dots , x_n)^t\) verwenden, wo das kleine \(t\) (» transponiert«) bedeuten soll, dass wir uns dieses Tupel als Spalte denken.

(Eine pragmatische Lösung wäre, einfach das \({}^t\) zu ignorieren, bis Sie zu Bemerkung 5.36 im Abschnitt 5.3 kommen.)

Definition 5.1

Sei \(K\) ein Körper, seien \(m, n\) natürliche Zahlen. Ein lineares Gleichungssystem (LGS) von \(m\) Gleichungen in \(n\) Unbestimmten \(X_1, \dots , X_n\) über \(K\) ist gegeben durch \(m\) Gleichungen

\begin{align*} a_{11} X_1 + a_{12} X_2 + \cdots + a_{1n} X_n & = b_1\\ a_{21} X_1 + a_{22} X_2+ \cdots + a_{2n} X_n & = b_2\\ \vdots \qquad \qquad \phantom{.} & \vdots \\ a_{m1} X_1 + a_{m2} X_2+ \cdots + a_{mn} X_n & = b_m \end{align*}

mit \(a_{ij}\in K\) für alle \(i=1,\dots , m\), \(j = 1,\dots , n\), \(b_i\in K\), \(i=1, \dots , m\).

Ein lineares Gleichungssystem heißt homogenes lineares Gleichungssystem, falls \(b_i = 0\) für alle \(i=1, \dots , m\). Sonst heißt das lineare Gleichungssystem inhomogen.

Wir schreiben kurz, das obige lineare Gleichungssystem sei gegeben durch die Elemente \((a_{ij}, b_i)\) von \(K\).

Die Elemente \(a_{ij}\) von \(K\) heißen auch die Koeffizienten des linearen Gleichungssystems. Genauer ist \(a_{ij}\) der Koeffizient von \(X_j\) in der \(i\)-ten Gleichung des Gleichungssystems. Ein Element \((x_1, \dots , x_n)^t\) von \(K^n\) heißt Lösungsvektor des linearen Gleichungssystems, wenn nach Einsetzen von \(x_i\) für \(X_i\) (für alle \(i\)) alle \(m\) Gleichungen erfüllt sind.

Die Lösungsmenge \(\mathbb L\) des linearen Gleichungssystems ist die Menge aller Lösungsvektoren, also die Menge aller \(n\)-Tupel \((x_1, \dots , x_n)^t \in K^n\), so dass für alle \(i=1, \dots , m\) gilt:

\[ a_{i1} x_1 + a_{i2} x_2 \cdots + a_{1n} x_i = b_i. \]

Sei ein lineares Gleichungssystem \(M\) gegeben durch \((a_{ij}, b_i)\). Das lineare Gleichungssystem \(M_0\), das gegeben ist durch (\(a_{ij}\), \(0\)), d.h. die Koeffizienten \(a_{ij}\) werden beibehalten, aber alle \(b_i\) werden durch \(0\) ersetzt, heißt das zu \(M\) gehörige homogene lineare Gleichungssystem.

Das Wort »linear« bezieht sich hier darauf, dass die Unbestimmten alle nur in der ersten Potenz auftreten (keine Quadrate oder höheren Potenzen und keine Produkte von Unbestimmten). Geometrisch gesehen ist die Lösungsmenge einer Gleichung der Form \(aX_1 + bX_2 = c\) über den reellen Zahlen eine Gerade in \(\mathbb R^2\), und auch in allgemeineren Fällen sind, wie sich zeigen wird, die Lösungsmengen linearer Gleichungssysteme »lineare Objekte«.

Wir nennen ein lineares Gleichungssystem lösbar, wenn die Lösungsmenge nicht leer ist, d.h. wenn es überhaupt einen Lösungsvektor gibt. Sonst heißt das System unlösbar. Gibt es genau einen Lösungsvektor, d.h. hat die Lösungsmenge genau ein Element, dann sprechen wir von einem eindeutig lösbaren System.

Jedes homogene lineare Gleichungssystem ist lösbar, denn \((0, \dots , 0)^t\) ist ein Lösungsvektor. Diese Lösung wird auch die triviale Lösung genannt. Umgekehrt gilt: Wenn ein lineares Gleichungssystem \((0, \dots , 0)^t\) als Lösungsvektor hat, dann muss es ein homogenes Gleichungssystem sein.

Beispiel 5.2

Sei \(K = \mathbb R\). Wir betrachten als Beispiel das folgende Gleichungssystem:

\begin{align*} 2 X_1 - 2 X_2 & = 3 \\ X_1 + 2X_2 & = 3 \\ \end{align*}

Addieren wir die beiden Gleichungen, so sehen wir, dass \(3X_1 = 6\), also \(X_1 = 2\) gelten muss. Durch Einsetzen in die zweite Gleichung bekommen wir dann \(X_2 = \frac12\), und man sieht direkt, dass dies tatsächlich eine Lösung des Gleichungssystems ist: Die Lösungsmenge ist

\[ \left\{ \left(2, \frac12\right)^t\right\} . \]

Vergleiche auch Abschnitt 2.5.

Wenn wir \(\mathbb R^2\) als die Zahlenebene sehen, dann können wir jede Teilmenge als eine Menge von Punkten in dieser Ebene betrachten. Zum Beispiel ist die Menge

\[ \{ (x_1, x_2);\ 2x_1 - 2x_2 = 3 \} \]

eine Gerade in \(\mathbb R^2\), siehe die Abbildung.

In ähnlicher Weise ist
\[ \{ (x_1, x_2);\ x_1 + 2x_2 = 3 \} \]
eine Gerade. Und die Lösungsmenge des obigen Gleichungssystems ist einfach die Schnittmenge dieser beiden Geraden. Das ist auch allgemeiner richtig, denn für alle \(a_1, a_2 ,b\in \mathbb R\) ist
\[ \{ (x_1, x_2);\ a_1 x_1 +a_2 x_2 = b \} \]
eine Gerade – es sei denn es ist \(a_1=a_2 =0\); dann ist diese Menge entweder gleich \(\mathbb R^2\) (wenn \(b=0\)) oder leer (wenn \(b\ne 0\)).
\begin{tikzpicture}  \begin{axis} [axis x line=middle, axis y line=middle, xmin=-2.5, xmax=4.5, ymin=-2.5, ymax=3.5, xtick={-2, -1, ..., 4}, ytick={-2, -1, ..., 3}] \draw [thick] (-1.5, 2.25) -- (8, -2.5); \draw [thick, blue] (-1.5, -3) -- (8, 6.5); \fill [red] (2, .5) circle[radius=.5mm]; \end{axis} \end{tikzpicture}

Da zwei Geraden in \(\mathbb R^2\) entweder gleich sind oder sich in höchstens einem Punkt schneiden, sehen wir, dass es kein lineares Gleichungssystem mit \(2\) Gleichungen und \(2\) Unbestimmten über \(\mathbb R\) gibt, das mehr als eine, aber nur endlich viele Lösungen hat. (Wie ist es mit mehr Gleichungen/Unbestimmten? Über anderen Körpern? – Später wird es uns leicht fallen, diese Fragen zu beantworten, zum Teil können Sie es vielleicht jetzt schon?)

In ähnlicher Weise wie im vorherigen Beispiel können wir die Lösungsmengen von linearen Gleichungssystemen in \(\mathbb R^3\) als Durchschnitte von Ebenen betrachten (und, wenn Ihre Anschauung das mitmacht, kann man die Situation auch für mehr als \(3\) Unbestimmte ähnlich sehen.)

5.1.2 Addition und Skalarmultiplikation auf \(K^n\)

Um die Struktur der Lösungsmengen besser zu verstehen, ist es hilfreich, auch auf der Menge \(K^n\) Rechenoperationen einzuführen, und zwar eine Addition und eine »Skalarmultiplikation« (also Multiplikation mit Elementen des Körpers \(K\), die auch als Skalare bezeichnet werden).

Definition 5.3

Für \((x_1, \dots , x_n)^t, (y_1, \dots , y_n)^t\in K^n\) definieren wir die Summe

\[ (x_1, \dots , x_n)^t + (y_1, \dots , y_n)^t := (x_1 + y_1, \dots , x_n+y_n)^t, \]

und für \(a \in K\) das Produkt von \(a\) mit \((x_1, \dots , x_n)^t\) durch

\[ a\cdot (x_1, \dots , x_n)^t := (ax_1, \dots , ax_n)^t. \]

Beispiel 5.4
  1. Ist \(K=\mathbb C\), so ist zum Beispiel

    \[ i\left( \begin{array}{c} 1 \\ 1+i \end{array} \right) + \left( \begin{array}{c} i \\ 1-i \end{array} \right) = \left( \begin{array}{c} 2i \\ 0 \end{array} \right). \]
  2. Ist \(K=\mathbb F_7\), dann ist zum Beispiel

    \[ 2\left( \begin{array}{c} 5 \\ 2 \end{array} \right) + \left( \begin{array}{c} 4 \\ 3 \end{array} \right) = \left( \begin{array}{c} 0 \\ 0 \end{array} \right). \]

Wir nennen die Elemente von \(K^n\) auch Vektoren. Da die Addition separat in den einzelnen Komponenten erfolgt, ist klar, dass das Assoziativgesetz und das Kommutativgesetz gelten, und dass der sogenannte Nullvektor \((0, \dots 0)^t\) ein neutrales Element für die Addition ist (und zwar das einzige). Wir bezeichnen den Nullvektor meist einfach mit \(0\) (und damit bleibt der Leserin die Aufgabe überlassen festzustellen, welches Objekt mit dem Symbol \(0\) eigentlich gerade gemeint ist). Ist \(x = (x_1, \dots , x_n)^t\in K^n\), so ist \(-x:= (-x_1, \dots , -x_n) = (-1)\cdot x\) das inverse Element von \(x\) bezüglich der Addition. Natürlich stellt sich nicht die Frage, ob es sich bei \(K^n\) für \(n{\gt}1\) um einen Körper handelt, weil wir keine Multiplikation \(K^n\times K^n\to K^n\) definiert haben. Immerhin ist klar, dass eine Art Assoziativgesetz gilt, das heißt \(a(bx)=(ab)x\) für \(a,b\in K\), \(x\in K^n\).

Bemerkung 5.5

Die Addition und Skalarmultiplikation in \(\mathbb R^2\) können wir geometrisch veranschaulichen, vergleiche die Abbildungen: Für \(p, p^\prime \in \mathbb R^2\) sind \(0\), \(p\), \(p^\prime \) und \(p+p^\prime \) die vier Eckpunkte eines Parallelogramms.

Für \(p\in \mathbb R^2\setminus \{ 0\} \) liegen alle Punkte \(ap\), \(a\in \mathbb R\) auf der Geraden durch den Ursprung \((0,0)^t\) und \(p\).

Die Definition der Addition und Skalarmultiplikation sind also der erste Schritt, »mit Punkten zu rechnen«, und damit der Beginn der analytischen Geometrie (siehe Kapitel 11).

\begin{tikzpicture} [scale=0.9]
        \begin{axis}[axis x line=middle, axis y line=middle, xmin=-2.5, xmax=4.5, ymin=-2.5, ymax=3.5, xtick={-2, -1, ..., 4}, ytick={-2, -1, 1, 3}]

        \draw[dotted] (0,0) -- (2,1);
        \draw[dotted] (0,0) -- (.5, 2);
        \draw[dotted] (.5, 2) -- (2.5, 3);
        \draw[dotted] (2.5, 3) -- (2,1);

        \fill[red] (2, 1) circle[radius=.5mm] node[below right, black] {$p= (2,1)^t$};
        \fill[red] (.5, 2) circle[radius=.5mm] node[above left, black] {$p^\prime =(\frac 12, 2)^t$};
        \fill[red] (2.5, 3) circle[radius=.5mm] node[below right, black] {$p+p^\prime$};
        \end{axis}
    \end{tikzpicture}
\begin{tikzpicture} [scale=0.9]
        \begin{axis}[axis x line=middle, axis y line=middle, xmin=-2.5, xmax=4.5, ymin=-2.5, ymax=3.5, xtick={-2, -1, ..., 4}, ytick={-2, -1, 1, 2, 3}]

        \draw[dotted] (-3, -1.5) -- (4.5,2.25);

        \fill[red] (2, 1) circle[radius=.5mm] node[below right, black] {$p= (2,1)^t$};
        \fill[red] (4, 2) circle[radius=.5mm] node[above left, black] {$2p$};
        \fill[red] (-2, -1) circle[radius=.5mm] node[below right, black] {$-p$};
        \end{axis}
    \end{tikzpicture}

Im Prinzip gelten dieselben Beschreibungen in \(\mathbb R^3\) und allgemein in \(\mathbb R^n\), allerdings ist es dann weniger leicht, dies an Abbildungen zu illustrieren.

5.1.3 Matrizen

Es ist praktisch, die Koeffizienten eines linearen Gleichungssystems zu »organisieren«, ohne dass wir immer alle Unbestimmten mit ausschreiben müssen (wie wir die Unbestimmten nennen, spielt ja ohnehin keine Rolle). Dafür führen wir den Begriff der Matrix ein. Im Moment ist das eine reine Organisationshilfe für uns, später werden wir allerdings viele, teilweise auch tiefliegendere, Anwendungen sehen, wo Matrizen sehr nützlich sind.

Definition 5.6 Matrix

Seien \(m, n\) natürliche Zahlen. Unter einer Matrix der Größe \(m\times n\) mit Einträgen in \(K\) (man spricht auch von einer \((m\times n)\)-Matrix über \(K\)) verstehen wir eine Familie \((a_{ij})_{i=1, \dots , m,\, j=1, \dots , n}\) von Elementen von \(K\). Die Elemente \(a_{ij}\) heißen die Einträge oder Koeffizienten der Matrix. Eine Matrix stellen wir uns immer in der Form

\[ \left( \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{array} \right) \]

vor, d.h. wir schreiben die Koeffizenten in einem rechteckigen Schema auf, in dem der erste Index die Zeile und der zweite Index die Spalte angibt. In der linken oberen Ecke steht der Eintrag \(a_{11}\), rechts daneben \(a_{12}\), …, und in der \(i\)-ten Zeile und \(j\)-ten Spalte steht \(a_{ij}\).

Die Menge aller \((m\times n)\)-Matrizen über \(K\) bezeichnen wir mit \(M_{m\times n}(K)\). Die Menge aller \((n\times n)\)-Matrizen bezeichnen wir manchmal mit \(M_n(K)\) statt mit \(M_{n\times n}(K)\); wir sprechen auch von quadratischen Matrizen.

Formal betrachtet können wir eine Matrix als eine Abbildung \(M\colon \{ 1, \dots , m\} \times \{ 1, \dots , n\} \to K\) definieren, dann ist \(a_{ij}\) in der obigen Definition der Wert \(M(i,j)\). Rein formal können wir dann auch die Fälle erlauben, in denen \(m=0\), oder \(n=0\) oder \(m= n = 0\) ist. Mit der Konvention \(\{ 1, \dots , m\} = \emptyset \), falls \(m=0\) (und entsprechend für \(n\)) ist eine Matrix dann eine Abbildung \(\emptyset \to K\), also gibt es in diesen Fällen genau eine Matrix (die »leere« Matrix der Größe \(0\times n\), \(m\times 0\) oder \(0\times 0\)). Die Nullmatrix (der Größe \(m\times n\)) ist die Matrix \(0\in M_{m\times n}(K)\), deren Einträge alle gleich Null sind. Es gibt also für jede Wahl von \(m\) und \(n\) eine Nullmatrix, und diese sind natürlich alle verschieden, da sie verschiedene Größen haben. Trotzdem schreibt man meist einfach \(0\) dafür, oder \(0_{m\times n}\), wenn man die Größe mitangeben möchte. Wir können Elemente von \(K^n\) auch als Matrizen mit einer einzigen Spalte und \(n\) Zeilen betrachten: \(K^n = M_{n\times 1}(K)\).

Gegeben ein lineares Gleichungssystem

\begin{align*} a_{11} X_1 + a_{12} X_2 + \cdots + a_{1n} X_n & = b_1\\ a_{21} X_1 + a_{22} X_2 + \cdots + a_{2n} X_n & = b_2\\ \vdots \qquad \qquad \phantom{.} & \vdots \\ a_{m1} X_1 + a_{m2} X_2 + \cdots + a_{mn} X_n & = b_m \end{align*}

mit \(a_{ij}\in K\) für alle \(i=1,\dots , m\), \(j = 1,\dots , n\), \(b_i\in K\), \(i=1, \dots , m\), so bezeichnen wir die Matrix

\[ \left( \begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & & \vdots \\ a_{1m} & a_{m2} & \cdots & a_{mn} \\ \end{array} \right) \]

als die Koeffizientenmatrix des linearen Gleichungssystems, und die Matrix

\[ \left( \begin{array}{cccc|c} a_{11} & a_{12} & \cdots & a_{1n} & b_1 \\ a_{21} & a_{22} & \cdots & a_{2n} & b_2\\ \vdots & \vdots & & \vdots & \vdots \\ a_{1m} & a_{m2} & \cdots & a_{mn} & b_m\\ \end{array} \right) \]

als die erweiterte Koeffizientenmatrix des linearen Gleichungssystems. (Der senkrechte Strich vor der letzten Spalte ist nur eine Erinnerung, dass diese Spalte von der rechten Seite der Gleichungen eines linearen Gleichungssystems herkommt, und hat, was die Matrix betrifft, keine mathematische Bedeutung.)

Wir führen für \(t\in K^n\) und eine Teilmenge \(U\subseteq K^n\) die folgende Schreibweise ein:

\[ t + U := \{ t+u;\ u\in U\} . \]

Beispiel 5.7

Ein Beispiel in \(\mathbb R^2\), wo \(U\) die Gerade durch den Ursprung mit Steigung \(\frac12\) und \(t\) der Punkt \((1, \frac52)^t\) ist.

Damit können wir formulieren, wie die Lösungsmenge eines linearen Gleichungssystems und die Lösungsmenge des zugehörigen homogenen linearen Gleichungssystems zusammenhängen.
\begin{tikzpicture} [scale=0.9] \begin{axis} [axis x line=middle, axis y line=middle, xmin=-2.5, xmax=4.5, ymin=-2.5, ymax=3.5, xtick={-2, -1, ..., 4}, ytick={-2, -1, 1, 2, 3}] 

\draw [blue] (-3, -1.5) – (4.5,2.25) node at (3,2) {$U$}; \draw [black] (-3, 0.5) – (6.5,5.25) node at (-1.5,1.75) {$t+ U$}; 

\fill [red] (1, 2.5) circle[radius=.5mm] node[below right, black] {$t$}; \end{axis} 

\end{tikzpicture}

Satz 5.8

Seien \(K\) ein Körper, \(A\in M_{m\times n}(K)\) und \(b\in K^m\). Sei \(\mathbb L\) die Lösungsmenge des linearen Gleichungssystems mit erweiterter Koeffizientenmatrix \((A\mid b)\), sei \(\mathbb L_0\) die Lösungsmenge des zugehörigen homogenen linearen Gleichungssystems mit Koeffizientenmatrix \(A\). Ist \(t\in \mathbb L\), so gilt

\[ \mathbb L = t + \mathbb L_0. \]

Beweis

Dass \(x\) in \(t+\mathbb L_0\) ist, ist äquivalent dazu, dass \(x-t\in \mathbb L_0\) ist. Deshalb ist die behauptete Gleichheit von Mengen äquivalent zu der Behauptung

\[ x\in \mathbb L \quad \Leftrightarrow \quad x-t\in \mathbb L_0 \]

für alle \(x=(x_1, \dots , x_n)^t\in K^n\). Nun bedeutet \(x\in \mathbb L\) gerade, dass für alle \(i=1, \dots , m\) gilt:

\[ \sum _{j=1}^n a_{ij} x_j = b_i, \]

und \(x-t\in \mathbb L_0\) heißt, dass für alle \(i\)

\[ \sum _{j=1}^n a_{ij} (x_j-t_j) = 0, \]

wobei wir mit \(t_j\) die Einträge des Vektors \(t\) bezeichnen. Nun ist nach Voraussetzung \(t\in \mathbb L\), und deshalb gilt

\[ \sum _{j=1}^n a_{ij} (x_j-t_j) = \sum _{j=1}^n a_{ij}x_j - \sum _{j=1}^na_{ij}t_j = \sum _{j=1}^n a_{ij}x_j - b_i. \]

Die behauptete Äquivalenz ist damit klar.

Es ist klar, dass die Lösungsmenge eines (inhomogenen) linearen Gleichungssystems leer sein kann. Dann existiert gar kein \(t\) wie im Satz, und der Satz liefert über diesen Fall keine Informationen.

Zum Schluss noch eine Sprechweise: Die Einträge \(a_{ii}\) einer quadratischen Matrix \(A=(a_{ij})_{i,j}\) heißen die Diagonaleinträge. Die »Felder« mit Indizes \((1,1)\), \((2,2)\), … nennt man auch die (Haupt-)Diagonale einer Matrix. Die \((n\times n)\)-Matrix, deren Diagonaleinträge alle gleich \(1\), und deren andere Einträge alle gleich \(0\) sind, heißt die Einheitsmatrix (der Größe \(n\)) und wird mit \(E_n\) bezeichnet.
\[ E_4 = \left( \begin{array}{cccc} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{array} \right). \]