Tools
Mathematik: Mehrdimensionale Differentialrechnung - Teil II
Released by matroid on Do. 22. Juni 2023 17:35:01 [Statistics] [Comments]
Written by nzimme10 - 312 x read [Outline] Printable version Printer-friendly version -  Choose language   
Analysis

\(\begingroup\)\(\renewcommand{\i}{\mathrm{i}} \renewcommand{\Re}{\operatorname{Re}} \renewcommand{\Im}{\operatorname{Im}} \newcommand{\e}{\mathrm{e}} \renewcommand{\d}{\mathrm{d}} \renewcommand{\dd}{\ \mathrm d} \newcommand{\ddz}{\frac{\mathrm{d}}{\mathrm{d}z}} \newcommand{\ddw}{\frac{\mathrm{d}}{\mathrm{d}w}} \newcommand{\ddt}{\frac{\mathrm{d}}{\mathrm{d}t}} \newcommand{\opn}{\operatorname} \newcommand{\rot}{\opn{rot}} \newcommand{\div}{\opn{div}} \let\oldvec=\vec \renewcommand{\vec}[3]{\begin{pmatrix} #1 \\ #2 \\ #3 \end{pmatrix}}\)

Mehrdimensionale höhere Ableitungen & der Satz von Taylor

Dies ist der zweite Teil einer Reihe von Artikeln über mehrdimensionale Differentialrechnung. Dieser zweite Teil setzt die im ersten Teil begonnenen Untersuchungen fort. Wir werden zunächst die partiellen Ableitungen noch einmal ausführlicher betrachten und anschließend auch koordinatenfrei die höheren mehrdimensionalen Ableitungen einführen. Das wird uns auf natürliche Weise zu einer mehrdimensionalen Version des Satzes von Taylor führen, der die Suche nach lokalen Extrema mehrdimensionaler Funktionen als wichtige Anwendung mit sich bringt.

Themenübersicht

$\bullet$ Partielle Ableitungen revisited     $\bullet$ Höhere partielle Ableitungen $\bullet$ Höhere Ableitungen im Mehrdimensionalen     $\bullet$ Interludium: Verallgemeinerung auf normierte Vektorräume     $\bullet$ Höhere Differentiale     $\bullet$ Koordinatendarstellung der höheren Differentiale     $\bullet$ Konvention: Multiindex-Notation $\bullet$ Der Satz von Taylor     $\bullet$ Die Taylorformel für $\mathbb R^n$     $\bullet$ Allgemeine Taylorformel für normierte Räume $\bullet$ Anwendung: Lokale Extrema     $\bullet$ Quadratische Formen     $\bullet$ Ein hinreichendes Kriterium Wir setzen Grundkenntnisse der mengentheoretischen Topologie voraus, wie man sie üblicherweise am Anfang einer Analysis II Vorlesung zum ersten mal sieht. Außerdem werden weitere Konzepte der linearen Algebra vorkommen, wie sie zum Beispiel in dem Artikel LinkTensoren und Tensorfelder in der Differentialgeometrie am Anfang skizziert werden.

Partielle Ableitungen revisited

Im ersten Teil haben wir gesehen, dass $$ (\d f)_{x_0}(e_j)=\nabla_{e_j}f(x_0)=\partial_jf(x_0)=\lim_{t\to 0}\frac{f(x_0+te_j)-f(x_0)}{t} $$ für eine in $x_0\in U\subseteq \mathbb R^n$ differenzierbare Funktion $f\colon U\to \mathbb R$ gilt, wobei $e_1,\dots,e_n$ die kanonische Basis von $\mathbb R^n$ ist. Auf diese partiellen Ableitungen könnte man aber auch auf ganz andere Art und Weise kommen, die in vielen Vorlesungen und Lehrbüchern auch die üblichere zu sein scheint. Tun wir mal so, als wüssten wir noch gar nichts von einer mehrdimensionalen Ableitung und betrachten eine Funktion $f\colon \mathbb R^2\to \mathbb R$. Im Vergleich zu Analysis I haben wir nun zwei Variablen, die sich unabhängig voneinander verändern können. Eine sehr natürliche Idee ist, zunächst mal eine der Variablen "festzuhalten". Zum Beispiel könnten wir $y=2$ setzen und dann nur noch die Abbildung $$ f(\cdot,2)\colon \mathbb R\to \mathbb R, \ x\mapsto f(x,2) $$ betrachten. $f(\cdot,2)$ ist dann eine Abbildung, wie wir sie in Analysis I betrachten würden. Diese Abbildung können wir mit den Methoden der Analysis I untersuchen und uns zum Beispiel nach deren Differenzierbarkeit fragen. Etwas allgemeiner betrachten wir eine offene Menge $U\subseteq \mathbb R^n$ und dann eine Abbildung $$ f\colon U\to \mathbb R, \ (x_1,\dots,x_n)\mapsto f(x_1,\dots,x_n). $$ Auch hier können wir $n-1$ der $n$ Variablen "festhalten" und erhalten eine neue Funktion, die nur noch von einer Variablen abhängt.
Obige Abbildung zeigt den Graphen der Funktion $$ f\colon \mathbb R^2\to \mathbb R, \ (x,y)\mapsto \frac 12+\exp(-x^2-y^2). $$ Wir betrachten den Punkt $x_0=(0,-1)$ und die rote Gerade im Definitionsbereich von $f$, die durch diesen Punkt verläuft. Der Graph der dadurch resultierenden Funktion $f(\cdot,-1)$ ist in der rechten Grafik zu sehen. Falls diese Funktion $f(\cdot,-1)$ in $0\in \mathbb R$ differenzierbar (im Sinne von Analysis I) ist, dann existiert der Grenzwert $$ [f(\cdot,-1)]'(0)=\lim_{h\to 0} \frac{f(x_0+he_1)-f(x_0)}{h}, $$ welchen wir dann die partielle Ableitung von $f$ in $x_0$ in die erste Koordinatenrichtung nennen. Konkret haben wir in diesem Fall $$ [f(\cdot,-1)](h)=f(h,-1)=\frac 12+\exp(-h^2-1) $$ und somit $[f(\cdot,-1)]'(0)=0$, wie die Grafik suggeriert. Da wir es im ersten Teil nur beiläufig erwähnt haben, machen wir an dieser Stelle (der Vollständigkeit halber) die folgende
Definition. Es sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to\mathbb R$ eine Funktion. Man nennt $f$ an der Stelle $x_0\in U$ in die $j$-te Koordinatenrichtung partiell differenzierbar, falls der Grenzwert $$ \partial_j f(x_0):=\lim_{h\to 0} \frac{f(x_0+he_j)-f(x_0)}{h} $$ existiert. Im Falle der Existenz nennen wir die reelle Zahl $\partial_jf(x_0)$ die partielle Ableitung von $f$ in $x_0$ in die $j$-te Koordinatenrichtung. $f$ heißt in $x_0\in U$ partiell differenzierbar, wenn $f$ in $x_0$ in jede Koordinatenrichtung partiell differenzierbar ist. $f$ heißt (auf $U$) partiell differenzierbar, falls $f$ partiell differenzierbar in jedem $x\in U$ ist.
Da die partiellen Ableitungen einfach Ableitungen bestimmter eindimensionaler Funktionen sind, folgt der nächste Satz mit den Resultaten der Analysis I.
Satz. Sei $U\subseteq \mathbb R^n$ offen und $f,g\colon U\to \mathbb R$ partiell differenzierbar. Dann gilt: (i) Die Abbildung $f+g\colon U\to \mathbb R$ ist partiell differenzierbar und es gilt $$ \partial_j(f+g)(x)=\partial_jf(x)+\partial_jg(x) $$ für $j=1,\dots,n$ und $x\in U$. (ii) Für jedes $\lambda \in \mathbb R$ ist die Abbildung $\lambda f\colon U\to \mathbb R$ partiell differenzierbar und es gilt $$ \partial_j(\lambda f)(x)=\lambda \cdot \partial_jf(x) $$ für $j=1,\dots,n$ und $x\in U$. (iii) Die Abbildung $f\cdot g\colon U\to \mathbb R$ ist partiell differenzierbar und es gilt $$ \partial_j(f\cdot g)(x)=\partial_jf(x)\cdot g(x)+f(x)\cdot \partial_jg(x) $$ für $j=1,\dots,n$ und $x\in U$. (iv) Ist $V\subseteq \mathbb R$ offen mit $f(U)\subseteq V$ und $h\colon V\to \mathbb R$ differenzierbar (im Sinne von Analysis I), dann ist $h\circ f\colon U\to\mathbb R$ partiell differenzierbar und es gilt $$ \partial_j(h\circ f)(x)=h'(f(x))\cdot \partial_jf(x) $$ für $j=1,\dots,n$ und $x\in U$.

Höhere partielle Ableitungen

Selbstverständlich kann man in bestimmten Situationen auch partielle Ableitungen höherer Ordnung einführen.
Definition. Es sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to \mathbb R$. Wir definieren für $k\geq 2$ rekursiv: $\bullet$ $f$ heißt in $x_0\in U$ 2-mal partiell differenzierbar, wenn die Abbildungen $$ \partial_jf\colon U\to \mathbb R, \ x\mapsto \partial_jf(x) $$ für $j=1,\dots,n$ in einer offenen Umgebung von $x_0$ partiell differenzierbar sind. Wir setzen dann $$ \partial_i\partial_jf(x_0):=(\partial_i\left(\partial_jf\right))(x_0) $$ für $1\leq i,j\leq n$. $f$ heißt 2-mal partiell differenzierbar, wenn $f$ in jedem $x_0\in U$ 2-mal partiell differenzierbar ist. $\bullet$ $f$ heißt $(k+1)$-mal partiell differenzierbar in $x_0\in U$, wenn die Abbildungen $$ \partial_{j_1}\partial_{j_2}\dots\partial_{j_k}f\colon U\to \mathbb R, \ x\mapsto \partial_{j_1}\partial_{j_2}\dots\partial_{j_k}f(x) $$ für alle $j_1,\dots,j_k\in \lbrace 1,\dots,n\rbrace$ in einer offenen Umgebung von $x_0$ partiell differenzierbar sind. Wir setzen dann $$ \partial_i\partial_{j_1}\partial_{j_2}\dots\partial_{j_k}f(x_0):=(\partial_i\left(\partial_{j_1}\partial_{j_2}\dots\partial_{j_k}f\right))(x_0) $$ für alle $i=1,\dots,n$ und $j_1,\dots,j_k\in \lbrace 1,\dots,n\rbrace$. $f$ heißt $(k+1)$-mal partiell differenzierbar, wenn $f$ in jedem $x_0\in U$ $(k+1)$-mal partiell differenzierbar ist. Weiter definieren wir: $f$ heißt $k$-mal stetig partiell differenzierbar, wenn $f$ $k$-mal partiell differenzierbar ist und die $k$-ten partiellen Ableitungen stetig sind. Die Menge aller auf $U$ $k$-mal stetig partiell differenzierbarer Funktionen bezeichnen wir oft mit $C^k(U,\mathbb R)$ oder einfach $C^k(U)$.
A priori ist nicht klar, ob die Reihenfolge bei den höheren partiellen Ableitungen einen Unterschied macht.
Beispiel. Wir betrachten die Funktion $$ f\colon \mathbb R^2\to \mathbb R, \ f(x,y)=\begin{cases} xy\frac{x^2-y^2}{x^2+y^2}, & (x,y)\neq (0,0) \\ 0, & (x,y)=(0,0) \end{cases}. $$ Dann ist $$ \begin{align*} \frac{f(h,0)-f(0,0)}{h}=\frac{f(h,0)}{h}=0\overset{h\to 0}{\longrightarrow}0 \end{align*} $$ und somit $\partial_1f(0,0)=0$. Analog haben wir $$ \frac{f(0,h)-f(0,0)}{h}=\frac{f(0,h)}{h}=0\overset{h\to 0}{\longrightarrow}0 $$ und daher $\partial_2f(0,0)=0$. Für $(x,y)\neq (0,0)$ ist $$ \partial_1f(x,y)=y\frac{x^4+4x^2y^2-y^4}{(x^2+y^2)^2} $$ und $$ \partial_2f(x,y)=x\frac{x^4-4x^2y^2-y^4}{(x^2+y^2)^2}. $$ Folglich ist $$ \partial_1\partial_2f(0,0)=\lim_{h\to 0}\frac{\partial_2f(h,0)-\partial_2f(0,0)}{h}=\lim_{h\to 0} \frac{h}{h}=1. $$ Analog ist $$ \partial_2\partial_1f(0,0)=\lim_{h\to 0}\frac{\partial_1f(0,h)-\partial_1f(0,0)}{h}=\lim_{h\to 0} \frac{-h}{h}=-1. $$ $f$ ist in $(0,0)$ also 2-mal partiell differenzierbar, aber es ist $$ \partial_1\partial_2f(0,0)\neq \partial_2\partial_1f(0,0). $$
Das Beispiel zeigt, dass es Funktionen gibt, bei denen es auf die Reihenfolge der partiellen Ableitungen ankommt. Allerdings verschafft folgender berühmter Satz (der auch unter wesentlich allgemeineren Voraussetzungen gilt) oft Abhilfe bei dieser Fragestellung.
Satz. (Schwarz) Es sei $U\subseteq \mathbb R^n$ offen, $f\in C^2(U,\mathbb R)$ und $x_0\in U$. Dann gilt $$ \partial_i\partial_j f(x_0)=\partial_j\partial_i f(x_0) $$ für alle $i,j=1,\dots,n$.
Durch eine vollständige Induktion kann diese Version des Satzes von Schwarz auch auf höhere partielle Ableitungen übertragen werden:
Satz. Es sei $U\subseteq \mathbb R^n$ offen, $f\in C^k(U,\mathbb R)$ und $x_0\in U$. Dann gilt $$ \partial_{j_{\sigma(1)}}\partial_{j_{\sigma(2)}}\dots\partial_{j_{\sigma(k)}}f(x_0)=\partial_{j_1}\partial_{j_2}\dots\partial_{j_k}f(x_0) $$ für alle $j_1,\dots,j_k\in \lbrace 1,\dots,n\rbrace$ und jede Permutation $\sigma \in S_k$ von $\lbrace 1,\dots,k\rbrace$.

Höhere Ableitungen im Mehrdimensionalen

Wir verallgemeinern die Definition der Differenzierbarkeit des ersten Teils zunächst ohne viel Aufwand auf beliebige normierte Vektorräume. Anschließend widmen wir uns dann (endlich!) den höheren Differentialen.

Interludium: Verallgemeinerung auf normierte Vektorräume

Die Definition der mehrdimensionalen Differenzierbarkeit aus dem ersten Teil verwendet nirgends, dass wir uns Abbildungen $\mathbb R^n\to \mathbb R^m$ ansehen. Wir haben lediglich eine Norm und das Konzept einer linearen Abbildung für die Definition verwendet. Mit fast der gleichen Definition können wir die Definition der Differenzierbarkeit daher auch auf normierte Vektorräume über $\mathbb R$ oder $\mathbb C$ übertragen. Im endlich-dimensionalen Fall können wir die Definition wortwörtlich übertragen. Im allgemeinen Fall sollte man zusätzlich fordern, dass das Differential (einer Abbildung in einem Punkt) stetig ist, wenn man ähnliche Eigenschaften haben will.
Definition. Seien $(V,\lVert\cdot\rVert_V)$ und $(W,\lVert\cdot\rVert_W)$ normierte $K$-Vektorräume, $U\subseteq V$ offen und $f\colon U\to W$ eine Abbildung. Man nennt $f$ in $x_0\in U$ Fréchet-differenzierbar, wenn es eine stetige $K$-lineare Abbildung $(\d f)_{x_0}\colon V\to W$ gibt, so dass $$ \lim_{h\to 0} \frac{\lVert f(x_0+h)-f(x_0)-(\d f)_{x_0}(h)\rVert_W}{\lVert h\rVert_V}=0 $$ gilt.
Die relevanten Grundlegenden Eigenschaften, die sich nicht auf etwas wie partielle Ableitungen beziehen, beweist man für diese Verallgemeinerung 1:1 wie im ersten Teil, weshalb wir das hier nicht wiederholen werden.
Beispiel. Wir betrachten die Abbildung $$ f\colon \mathbb R^{n\times n}\to \mathbb R^{n\times n}, \ A\mapsto A^3. $$ Für $A,H\in \mathbb R^{n\times n}$ gilt dann $$ \begin{align*} (A+H)^3 &=(A+H)(A+H)(A+H)=(A+H)(A^2+AH+HA+H^2) \\ &=A^3+A^2H+AHA+AH^2+HA^2+HAH+H^2A+H^3 \\ &= A^3+A^2H+AHA+HA^2+AH^2+HAH+H^2A+H^3. \end{align*} $$ Sei nun $L_A(H)=A^2H+AHA+HA^2$ und $\varphi(H):=AH^2+HAH+H^2A+H^3$. Die Abbildung $L_A\colon \mathbb R^{n\times n}\to \mathbb R^{n\times n}$ ist offenbar $\mathbb R$-linear und stetig und es gilt $$ f(A+H)=f(A)+L_A(H)+\varphi(H). $$ Für $H\neq 0$ haben wir mit der Operatornorm $\lVert \cdot \rVert$ $$ \begin{align*} \frac{\lVert \varphi(H)\rVert}{\lVert H\rVert} &=\frac{\lVert AH^2+HAH+H^2A+H^3 \rVert}{\lVert H\rVert} \leq \frac{\lVert AH^2\rVert+\lVert HAH \rVert+\lVert H^2A\rVert +\lVert H^3\rVert}{\lVert H\rVert} \\ & \leq \frac{\lVert A\rVert \cdot \lVert H\rVert^2+\lVert H\rVert \cdot \lVert A\rVert \cdot \lVert H \rVert+\lVert H\rVert^2 \cdot \lVert A\rVert +\lVert H\rVert^3}{\lVert H\rVert} \\ &=\lVert A\rVert \cdot \lVert H\rVert+\lVert A\rVert\cdot \lVert H\rVert +\lVert H\rVert \cdot \lVert A\rVert +\lVert H\rVert^2 \\ &=3\cdot \lVert A\rVert\cdot \lVert H\rVert+\lVert H\rVert^2 \overset{H\to 0}{\longrightarrow} 0. \end{align*} $$ Damit folgt, dass $f$ in jedem $A\in \mathbb R^{n\times n}$ Fréchet-differenzierbar ist und es gilt $(\d f)_A=L_A$.

Höhere Differentiale

Motivierendes Beispiel. Wir betrachten die Funktion $f\colon \mathbb R^2\to \mathbb R, \ f(x,y)=x^2+y^2$. $f$ ist überall differenzierbar und für alle $(x,y)\in \mathbb R^2$ gilt $$ (\d f)_{(x,y)}=2x\ (\d x^1)_{(x,y)}+2y\ (\d x^2)_{(x,y)}, $$ wobei $x^1$ und $x^2$ die kartesischen Koordinaten auf $\mathbb R^2$ sind. Zur Erinnerung: es gilt damit $$ (\d x^1)_{(x,y)}(h_1,h_2)=h_1, \quad (\d x^2)_{(x,y)}(h_1,h_2)=h_2 $$ für alle $(h_1,h_2)\in \mathbb R^2$. Da das Differential für alle $(x,y)\in \mathbb R^2$ existiert, können wir auch das (eigentliche) Differential $$ \d f\colon \mathbb R^2\to L(\mathbb R^2,\mathbb R), \ (x,y)\mapsto (\d f)_{(x,y)} $$ betrachten. Durch die Operatornorm haben wir eine natürliche Norm auf dem Vektorraum $L(\mathbb R^2,\mathbb R)$ der $\mathbb R$-linearen Abbildungen $\mathbb R^2\to \mathbb R$. Folglich ist $\d f$ eine Abbildung zwischen normierten Vektorräumen. Mit der auf normierte Räume verallgemeinerten Definition der Differenzierbarkeit, können wir uns also fragen, ob $\d f$ z.B. am Punkt $(x,y)\in \mathbb R^2$ differenzierbar ist. Wir bemerken dazu, dass $$ (\d f)_{(x,y)+(u,v)}=2(x+u)\ (\d x^1)_{(x,y)}+2(y+v)\ (\d x^2)_{(x,y)} $$ und damit $$ (\d f)_{(x,y)+(u,v)}=(\d f)_{(x,y)}+L_{(x,y)}(u,v)+\varphi(u,v) $$ für $$ L_{(x,y)}(u,v):=2u\ (\d x^1)_{(x,y)}+2v\ (\d x^2)_{(x,y)} $$ und $\varphi(u,v):=(\d f)_{(u,v)}$ gilt. Verifiziert man noch, dass $$ \lim_{(u,v)\to (0,0)} \frac{\varphi(u,v)}{\lVert (u,v)\rVert}=0 $$ gilt, dann haben wir somit gezeigt, dass $\d f$ in $(x,y)$ differenzierbar ist und, dass $$ (\d(\d f))_{(x,y)}(h_1,h_2)=2h_1\ (\d x^1)_{(x,y)}+2h_2\ (\d x^2)_{(x,y)} $$ gilt. Das ist zwar ganz nett, aber war doch relativ umständlich. Außerdem ist nicht wirklich klar, was man mit dem Resultat für $(\d(\d f))_{(x,y)}(h_1,h_2)$ nun genau anfangen soll. Wir bemerken aber, dass wir die erhaltenen Informationen etwas nützlicher formulieren können. Dazu bemerken wir genauer, dass $(\d(\d f))_{(x,y)}(h_1,h_2)$ selbst wieder eine lineare Abbildung $\mathbb R^2\to \mathbb R$ ist. Wir können in diese lineare Abbildung daher noch einen Vektor $(v_1,v_2)$ einsetzen und erhalten damit die reelle Zahl $$ [(\d(\d f))_{(x,y)}(h_1,h_2)](v_1,v_2)=2h_1v_1+2h_2v_2. $$ Man überzeugt sich nun davon, dass die so entstandene Abbildung $$ (D^2f)_{(x,y)}\colon \mathbb R^2\times \mathbb R^2\to \mathbb R, \ ((v_1,v_2),(w_1,w_2)))\mapsto (\d(\d f))_{(x,y)}(v_1,v_2)(w_1,w_2)=2v_1w_1+2v_2w_2 $$ $\mathbb R$-bilinear ist.
Um diesen Vorgang besser zu verstehen, betrachten wir die Situation erneut, aber dieses mal möglichst abstrakt, d.h. ohne unnötige Details: Es seien $(V,\lVert\cdot\rVert_V)$ und $(W,\lVert\cdot\rVert_W)$ zwei normierte $K$-Vektorräume für $K=\mathbb R,\mathbb C$. Wenn $U\subseteq V$ offen und $f\colon U\to W$ differenzierbar (d.h. Fréchet-differenzierbar) ist, dann haben wir die Abbildung $$ \d f\colon U\to L(V,W), \ x\mapsto (\d f)_x, $$ die jedem Punkt $x\in U$ das Differential von $f$ in $x$ zuordnet. $L(V,W)$ ist mit den naheliegenden Verknüpfungen selbst ein Vektorraum und durch die Operatornorm haben wir auch eine natürliche Norm darauf. Wir können daher fragen, ob diese Abbildung selbst wieder differenzierbar ist. Wenn $\d f$ differenzierbar ist, dann haben wir eine Abbildung $$ \d (\d f)\colon U\to L(V,L(V,W)), $$ die jedem $x\in U$ das Differential $(\d (\d f))_x$ von $\d f$ in $x$ zuordnet. Wie ist $(\d (\d f))_x$ für ein $x\in U$ zu verstehen? Nach Definition ist $(\d (\d f))_x\colon V\to L(V,W)$ eine $K$-lineare Abbildung und somit $(\d (\d f))_x(v_1)\colon V\to W$ eine lineare Abbildung. Daher ist $(\d (\d f))_x(v_1)(v_2)\in W$. Wir können $(\d (\d f))_x$ daher mit der $K$-bilinearen Abbildung $$ (D^2f)_x\colon V\times V\to W, \ (v_1,v_2)\mapsto (\d (\d f))_x(v_1)(v_2) $$ identifizieren. Dieses Spiel können wir nun mit $D^2f\colon U\to L(V,V;W)$ wieder treiben. Sofern $D^2f$ differenzierbar ist, haben wir die Abbildung $$ \d(D^2f)\colon U\to L(V,L(V,V;W)). $$ Für $x\in U$ ist $(\d (D^2f))_x\colon V\to L(V,V;W)$ eine $K$-lineare Abbildung. Für $v_1\in V$ ist damit $(\d (D^2f))_x(v_1)\colon V\times V\to W$ eine $K$-bilineare Abbildung. Für $v_2,v_3\in V$ ist somit schließlich $(\d(D^2f))_x(v_1)(v_2,v_3)\in W$. Wir können $(\d (D^2f))_x$ also mit der $K$-trilinearen Abbildung $$ (D^3f)_x\colon V\times V\times V\to W, \ (v_1,v_2,v_3)\mapsto (\d(D^2f))_x(v_1)(v_2,v_3) $$ identifizieren. Und so könnten wir im Prinzip weitermachen! Allgemein setzen wir nun $$ L^k(V;W):=L(\underbrace{V,\dots,V}_{k};W), \quad L^0(V;W):=W $$ und können die folgende Definition machen.
Definition. Seien $(V,\lVert\cdot\rVert_V)$ und $(W,\lVert\cdot\rVert_W)$ normierte $K$-Vektorräume, $U\subseteq V$ offen und $f\colon U\to W$ eine Abbildung. Wir definieren für $k\in \mathbb N_0$ rekursiv: $\bullet$ $f$ heißt $0$-mal differenzierbar und wir setzen $(D^0 f)_x:=f(x)\in L^0(V;W)$ für alle $x\in U$. $\bullet$ $f$ heißt $(k+1)$-mal differenzierbar, wenn die Abbildung $$ D^kf\colon U\to L^k(V;W), \ x\mapsto (D^kf)_x $$ differenzierbar ist. In diesem Fall definieren wir $(D^{k+1}f)_x$ für jedes $x\in U$ durch $$ (D^{k+1}f)_x(v_1,\dots,v_{k+1}):=(\d(D^kf))_x(v_1)(v_2,\dots,v_{k+1}) $$ für alle $v_1,\dots,v_{k+1}\in V$.
Dabei setzen wir $(D^1 f)_x=(\d f)_x$. Bei den höheren Ableitungen ist das differentialgeometrische $\d$ nicht ganz passend, da für die Cartan-Ableitung $\d^k=0$ für $k\geq 2$ gilt. Daher schreiben wir hier $D^k$.
Beispiel. Wir betrachten erneut die Abbildung $$ f\colon \mathbb R^{n\times n}\to \mathbb R^{n\times n}, \ A\mapsto A^3. $$ Wir wissen bereits, dass $$ (\d f)_A(H)=A^2H+AHA+HA^2 $$ gilt. Nun ist $$ \begin{align*} (\d f)_{A+B}(H) &=(A+B)^2H+(A+B)H(A+B)+H(A+B)^2 \\ &=A^2H+ABH+BAH+B^2H+AHA+BHA+AHB+BHB \\ &\hspace{1.42cm}+HA^2+HAB+HBA+HB^2 \\ &=A^2H+AHA+HA^2+ABH+BAH+BHA+AHB+HAB \\ &\hspace{1.42cm}+HBA+B^2H+BHB+HB^2 \\ &=(\d f)_A(H)+L_A(B)(H)+(\d f)_B(H), \end{align*} $$ mit $$ L_A(B)(H)=ABH+BAH+BHA+AHB+HAB+HBA. $$ Wir haben also $$ (\d f)_{A+B}=(\d f)_{A}+L_A(B)+\varphi(B), $$ wenn wir $\varphi(B):=(\d f)_B$ setzen. Man zeige nun noch die erforderliche Bedingung für $\varphi(B)$. Damit ist gezeigt, dass $\d f$ selbst total differenzierbar ist und $$ (\d (\d f))_A=L_A $$ gilt. Sind $X,Y\in \mathbb R^{n\times n}$ beliebig, so haben wir also $$ \begin{align*} (D^2f)_A(X,Y) &=(\d (\d f))_A(X)(Y)=L_A(X)(Y) \\ &=AXY+XAY+XYA+AYX+YAX+YXA \\ &=AXY+AYX+XYA+YXA+XAY+YAX \\ &=A(XY+YX)+(XY+YX)A+XAY+YAX. \end{align*} $$

Koordinatendarstellung der höheren Differentiale

Für bestimmte Anwendungen (z.B. beim Satz von Taylor) ist es hilfreich, wenn man auch für die höheren Ableitungen eine Darstellung mit Koordinaten hat. Uns genügt dabei ein Spezialfall.
Satz. Sei $U\subseteq \mathbb R^n$ offen und $f\in C^k(U,\mathbb R)$. Weiter seien $x^1,\dots,x^n\colon \mathbb R^n\to \mathbb R$ die kartesischen Koordinaten. Dann gilt: $$ D^mf=\sum_{j_1=1}^n\dots\sum_{j_m=1}^n \partial_{j_1}\dots\partial_{j_m}f \dd x^{j_1}\otimes\dots\otimes \d x^{j_m} $$ für $1\leq m\leq k$. Das heißt genauer: Sind $x_0\in U$ und $v_1,\dots,v_m\in \mathbb R^n$ mit $v_i=\sum_{j=1}^n v_i^je_j$, so gilt $$ (D^mf)_{x_0}(v_1,\dots,v_m)=\sum_{j_1=1}^n\dots\sum_{j_m=1}^n \partial_{j_1}\dots\partial_{j_m}f(x_0)\cdot v_1^{j_1}\cdot v_2^{j_2}\cdot\cdot\cdot v_m^{j_m}. $$
Beweis. Wir zeigen den Fall $m=2$. Die anderen zeigt man ähnlich. Da die Abbildungen $$ \partial_j f\colon \mathbb R^n\to \mathbb R, \ x\mapsto \partial_j f(x) $$ alle stetig differenzierbar sind, gibt es für $x_0,h\in \mathbb R^n$ Funktionen $\varphi_j\colon \mathbb R^n\to \mathbb R$ mit $$ \lim_{h\to 0} \frac{\varphi_j(h)}{\lVert h\rVert}=0 $$ und $$ \partial_j f(x_0+h)=\partial_j f(x_0)+(\d \left(\partial_j f\right))_{x_0}(h)+\varphi_j(h). $$ Weiter wissen wir, dass bezüglich den kartesischen Koordinaten $(x^1,\dots,x^n)$ $$ (\d \left(\partial_j f\right))_{x_0}=\sum_{i=1}^n \partial_i\partial_j f(x_0)\dd x^i $$ gilt. Damit erhalten wir $$ \begin{align*} (\d f)_{x_0+h} &=\sum_{j=1}^n \partial_j f(x_0+h) \dd x^j=\sum_{j=1}^n \left(\partial_j f(x_0)+\sum_{i=1}^n \partial_i\partial_j f(x_0)\cdot h_i+\varphi_j(h)\right)\dd x^j \\ &=\sum_{j=1}^n\partial_j f(x_0) \dd x^j + \sum_{j=1}^n\sum_{i=1}^n \partial_i\partial_j f(x_0)\dd x^i(h)\dd x^j+ \sum_{j=1}^n \varphi_j(h) \dd x^j. \end{align*} $$ Mit $\Phi(h):=\sum_{j=1}^n \varphi_j(h)\dd x^j$ erhalten wir daher $$ (\d f)_{x_0+h}=(\d f)_{x_0}+\sum_{i,j=1}^n \partial_i\partial_j f(x_0)\dd x^i(h)\dd x^j+\Phi(h). $$ Abschließend überlegt man sich noch, dass in der Tat $\lim_{h\to 0} \frac{\Phi(h)}{\lVert h\rVert}=0$ gilt. Nach Definition der Differenzierbarkeit und des Differentials ist daher $$ (D^2f)_{x_0}=\sum_{i,j=1}^n \partial_i\partial_j f(x_0) \dd x^i\otimes\d x^j, $$ was zu zeigen war. $\square$
Bemerkung. Wer hier gerne eine Matrix sehen will, erkennt nun, dass $(D^2f)_{x_0}$ als Bilinearform durch die Hesse-Matrix von $f$ in $x_0$ dargestellt wird. Wir haben also $$ (D^2f)_{x_0}(v,w)=\langle \opn{Hess}(f)(x_0)\cdot v,w\rangle. $$ Mehr dazu auch in meinem Artikel: LinkIst die Hesse-Matrix die zweite Ableitung?
An der Koordinatendarstellung der höheren Differentiale erkennt man eine weitere Möglichkeit, die höheren Differentiale zu betrachten. Für eine differenzierbare Funktion $f\colon U\to \mathbb R$ hatten wir $$ (\d f)_{x_0}(v)=\nabla_vf(x_0) $$ für alle $x_0\in U$. Lassen wir den Punkt $x_0$ variieren, so erhalten wir eine Funktion $$ \nabla_vf\colon U\to \mathbb R, \ x\mapsto \nabla_vf(x). $$ Wenn diese Abbildung differenzierbar ist, dann können wir für $u\in \mathbb R^n$ die Richtungsableitung $$ \nabla_u(\nabla_v f) (x_0) $$ betrachten. Ist $v=\sum_{j=1}^n v^je_j$ und $u=\sum_{i=1}^n u^ie_i$, so haben wir $$ \nabla_v f(x)=\sum_{j=1}^n \partial_jf(x)\cdot v^j $$ und somit $$ \nabla_u(\nabla_v f) (x_0) =\sum_{i=1}^n\sum_{j=1}^n \partial_i\partial_jf(x_0)\cdot u^i\cdot v^j=(D^2f)_{x_0}(u,v). $$ Allgemein überlegt man sich, dass folgende Darstellung gilt.
Satz. Sei $U\subseteq \mathbb R^n$ offen, $f\in C^k(U,\mathbb R)$ und $x_0\in U$. Dann gilt $$ (D^mf)_{x_0}(v_1,\dots,v_m)=\nabla_{v_1}\nabla_{v_2}\dotso\nabla_{v_m}f(x_0) $$ für $v_1,\dots,v_m\in \mathbb R^n$ und $1\leq m\leq k$.

Konvention: Multiindex-Notation

Die Ausdrücke der letzten Kapitel werden auf Dauer etwas kompliziert, aber wenn man mit Koordinaten arbeiten will (weil man zum Beispiel konkrete Berechnungen durchführen will), muss man mit solchen Ausdrücken bequem arbeiten können. Wir führen deshalb ein paar Abkürzungen für Ausdrücke, die oft vorkommen, ein.
Notation. Sei $\alpha=(\alpha_1,\dots,\alpha_n)\in \mathbb N^n$ ein $n$-Multiindex. Dann schreiben wir $\bullet$ $|\alpha|:=\alpha_1+\dots+\alpha_n$. $\bullet$ $\alpha!:=\alpha_1!\cdot \dotso \cdot \alpha_n!$. $\bullet$ $\partial^\alpha f:=\partial_1^{\alpha_1}\dots \partial_n^{\alpha_n}f$. $\bullet$ $h^\alpha:=h_1^{\alpha_1}\cdot h_2^{\alpha_2}\cdot \dotso \cdot h_n^{\alpha_n}$ für $h=(h_1,\dots,h_n)\in \mathbb R^n$. $\bullet$ Für $k\in \mathbb N$ definieren wir den Multinomialkoeffizienten $$ \binom{k}{\alpha}:=\frac{k!}{\alpha!}=\frac{k!}{\alpha_1!\cdot \dotso \cdot \alpha_n!}. $$
Insbesondere werden wir öfter dem Ausdruck $(D^mf)_{x_0}(h,\dots,h)$ (also $h$ in jeden Slot eingesetzt) für eine hinreichend oft differenzierbare Funktion $f\colon \mathbb R^n\to \mathbb R$ begegnen. Nach der Koordinatendarstellung aus dem letzten Kapitel haben wir $$ (D^mf)_{x_0}(h,\dots,h)=\sum_{j_1=1}^n\dots\sum_{j_m=1}^n \partial_{j_1}\dots\partial_{j_m}f(x_0)h_{j_1}\cdot\cdot\cdot h_{j_m}. $$ Bezeichnet nun $\alpha_j$ die Häufigkeit des Auftretens von $j$ in dem $m$-Tupel $(j_1,\dots,j_m)$, so gilt $$ \partial_{j_1}\dots\partial_{j_m}f(x_0)h_{j_1}\cdot\cdot\cdot h_{j_m}=\partial_1^{\alpha_1}\cdot\cdot\cdot \partial_n^{\alpha_m}f(x_0)\cdot h_1^{\alpha_1}\cdot\cdot\cdot h_n^{\alpha_m}=\partial^\alpha f(x_0)\cdot h^\alpha, $$ nach dem Satz von Schwarz, wobei $|\alpha|=m$ ist. Nun gibt es aber gerade $\binom{m}{\alpha}=\frac{m!}{\alpha!}$ solcher $m$-Tupel. Damit erhalten wir also
$$ (D^mf)_{x_0}(h,\dots,h)=\sum_{|\alpha|=m} \frac{m!}{\alpha!} \partial^\alpha f(x_0)\cdot h^\alpha. $$

Der Satz von Taylor

Um auch in der mehrdimensionalen Analysis eine Art "Kurvendiskussion" für Funktionen $f\colon \mathbb R^n\to \mathbb R$ durchführen zu können, brauchen wir eine Taylorentwicklung für diese Funktionen. Insbesondere die Suche nach lokalen Extrema von diesen Funktionen ist von Interesse. Dabei würden wir eine Analogie zur Formel im eindimensionalen Fall erwarten. Für eine 2-mal stetig differenzierbare Funktion $f\colon \mathbb R\to \mathbb R$ hat man für $h$ klein genug, dass $$ f(x+h)=f(x)+f'(x)h +\frac{1}{2}f''(x)h^2+o(|h|^2). $$ Nun ist die Ableitung im mehrdimensionalen eine lineare Abbildung und die "zweite Ableitung" sogar eine Bilinearform. Daher wird die Taylorformel ab Dimension $2$ deutlich komplizierter werden. Nichtsdestotrotz können wir die Formel mehr oder weniger direkt aus der Formel aus Analysis I gewinnen.

Die Taylorformel für $\mathbb R^n$

Wir betrachten eine offene Teilmenge $U\subseteq \mathbb R^n$ und eine $(k+1)$-mal stetig differenzierbare Funktion $f\colon U\to \mathbb R$. Weiter sei $x\in U$ und $h\in \mathbb R^n$ derart, dass die Verbindungsstrecke $$ [x,x+h]=\lbrace x+th\mid t\in[0,1]\rbrace $$ noch ganz in $U$ liegt, also $[x,x+h]\subseteq U$ gilt. Die entscheidende Beobachtung ist nun, dass wir $f$ auf $[x,x+h]$ mit dem üblichen Trick als eindimensionale Abbildung darstellen können. Sei dazu $$ \gamma\colon [0,1] \to U, \ t\mapsto x+th $$ und setze $$ \varphi:=f\circ \gamma \colon [0,1] \to \mathbb R, \ t\mapsto f(x+th). $$ Nach Konstruktion gilt somit $f(x+h)=\varphi(1)$. Weiter ist $\varphi\in C^{k+1}([0,1])$, da $f\in C^{k+1}(U)$ gilt. Mit dem Satz von Taylor mit Lagrange-Restglied aus Analysis I erhalten wir $$ f(x+h)=\varphi(1)=\sum_{m=0}^k \frac{\varphi^{(m)}(0)}{m!}1^m + \frac{\varphi^{(k+1)}(\theta)}{(k+1)!}1^{k+1} $$ für ein $\theta\in [0,1]$. Nun sollten wir noch versuchen, die Ableitungen von $\varphi$ mit Hilfe von $f$ auszudrücken. Dabei soll uns die Kettenregel eine große Hilfe sein.
Lemma. Seien $U\subseteq \mathbb R^n$ offen, $f\in C^k(U)$, $x\in U$ und $h\in \mathbb R^n$ mit $[x,x+h]\subseteq U$. Weiter sei $\varphi\colon [0,1] \to \mathbb R, \ t\mapsto f(x+th)$. Für $0\leq m\leq k$ gilt dann $$ \varphi^{(m)}(t)=(D^mf)_{x+th}(h,\dots,h). $$
Beweis. Nach der Kettenregel ist $$ \varphi'(t)=(\d f)_{x+th}(h)=\sum_{j=1}^n \partial_j f(x+th)\cdot h_j. $$ Erneut nach der Kettenregel hat man also $$ \varphi''(t)=\sum_{i=1}^n \sum_{j=1}^n \partial_i\partial_j f(x+th)\cdot h_ih_j. $$ Fährt man induktiv fort, so erhält man daher $$ \varphi^{(m)}(t)=\sum_{j_1,\dots,j_m=1}^n \partial_{j_1}\cdot \cdot \cdot \partial_{j_m}f(x+th)\cdot h_{j_1}\cdot \cdot \cdot h_{j_m}. $$ Das ist genau die Koordinatendarstellung von $(D^mf)_{x+th}(h,\dots,h)$, wie im letzten Kapitel gesehen. $\square$ Ersetzen wir die Ableitungen von $\varphi$ mit denen von $f$ aus obigem Lemma, so erhalten wir (mit der Vereinbarung: für $h\in \mathbb R^n$ und $m\in \mathbb N$ schreiben wir $h^m:=(h,\dots,h)\in (\mathbb R^n)^m$) $$ \begin{align*} f(x+h)=\varphi(1) &=\sum_{m=0}^k \frac{1}{m!}\varphi^{(m)}(0) + \frac{1}{(k+1)!}\varphi^{(k+1)}(\theta) \\ &=\sum_{m=0}^k \frac{1}{m!}(D^mf)_{x}h^m+\frac{1}{(k+1)!}(D^{k+1}f)_{x+\theta h}h^{k+1}. \end{align*} $$ Das ist bereits die mehrdimensionale Taylorformel!
Definition. Sei $U\subseteq \mathbb R^n$ offen, $k\in \mathbb N$, $f\in C^k(U)$ und $x\in U$. Dann heißt das Polynom $$ T_{k,f,x}(h):=\sum_{m=0}^k \frac{1}{m!}(D^mf)_{x}h^m=\sum_{|\alpha|\leq k} \frac{\partial^\alpha f(x)}{\alpha!} \cdot h^\alpha $$ das Taylorpolynom der Ordnung $k$ von $f$ im Entwicklungspunkt $x$.
Beispiel. Wir betrachten $f\colon \mathbb R^2\to \mathbb R, \ f(x,y)=\e^{-x^2-y^2}$. Dann ist $$ f(0,0)=1, \ (\d f)_{(0,0)}\equiv 0 $$ und $$ (D^2f)_{(0,0)}((x,y),(x,y))=-2x^2-2y^2. $$ Damit gilt also $$ T_{2,f,(0,0)}(x,y)=f(0,0)+(\d f)_{(0,0)}(x,y)+\frac{1}{2}(D^2f)_{(0,0)}((x,y),(x,y))=1-x^2-y^2, $$ was aufgrund von $\e^{-z}\approx 1-z$ keine Überraschung sein dürfte.
Durch unsere Herleitung haben wir insgesamt den folgenden Satz bewiesen:
Satz. (Taylorformel mit Lagrange-Restglied) Sei $U\subseteq \mathbb R^n$ offen, $k\in \mathbb N$ sowie $f\in C^{k+1}(U)$. Sei weiter $x\in U$ und $h\in \mathbb R^n$ derart, dass $[x,x+h]\subseteq U$ gilt. Dann gibt es ein $\xi\in[x,x+h]$ mit $$ f(x+h)=T_{k,f,x}(h)+\frac{1}{(k+1)!}(D^{k+1}f)_{\xi}h^{k+1} $$ beziehungsweise in Multiindex-Notation $$ f(x+h)=T_{k,f,x}(h)+\sum_{|\alpha|=k+1} \frac{\partial^\alpha f(\xi)}{\alpha!} \cdot h^\alpha. $$
Die Taylorformel mit Lagrange-Restglied macht eine präzise Aussage über den Fehler der Approximation durch das Taylorpolynom. Oft reicht es schon aus, wenn man weiß, dass der Fehler hinreichend schnell verschwindet. Wir geben daher auch noch eine qualitative Taylorformel an, die man zur Übung aus obiger Taylorformel herleiten kann.
Satz. (Qualitative Taylorformel) Sei $U\subseteq \mathbb R^n$ offen, $k\in \mathbb N$ sowie $f\in C^k(U)$. Sei weiter $x\in U$ und $r>0$ so klein, dass $B_r(x)\subseteq U$ gilt. Dann gibt es eine Funktion $\varphi\colon B_r(0)\to \mathbb R$ mit $$ \lim_{h\to 0} \frac{\varphi(h)}{\lVert h\rVert^k}=0, $$ so dass für alle $h\in B_r(0)$ gilt: $$ f(x+h)=T_{k,f,x}(h)+\varphi(h). $$

Allgemeine Taylorformel für normierte Räume

Bisher mussten wir uns bei der Taylorformel auf Funktionen mit Zielmenge $\mathbb R$ beschränken, was eigentlich unnötig ist. Zunächst können wir mit Hilfe der höheren Differentiale das Taylorpolynom verallgemeinern. In diesem Kapitel seien $(V,\lVert \cdot \rVert_V)$ und $(W,\lVert \cdot\rVert_W)$ stets endlich-dimensionale normierte $\mathbb R$-Vektorräume (Mit der allgemeinen Form des Auswahlaxioms (spezifisch: unter Verwendung des Satzes von Hahn-Banach) könnte man eine noch allgemeinere Situation betrachten - wir wollen uns damit aber hier nicht befassen). Außerdem vereinbaren wir für $v\in V$ wieder die Notation $v^m:=(v,\dots,v)\in V^m$.
Definition. Sei $U\subseteq V$ offen, $x_0\in U$ und $f\colon U\to W$ $k$-mal differenzierbar. Dann nennen wir $$ T_{k,f,x_0}(x):=\sum_{m=0}^k \frac{1}{m!}(D^mf)_{x_0}(x-x_0)^m $$ das Taylor-Polynom der Ordnung $k$ von $f$ im Entwicklungspunkt $x_0$. Entsprechend heißt $$ R_{k,f,x_0}(x):=f(x)-T_{k,f,x_0}(x) $$ das Restglied der Ordnung $k$ von $f$ im Entwicklungspunkt $x_0$.
Da es auf dem Matheplaneten bereits einen sehr schönen Artikel (LinkDie Taylorentwicklung mit linearer Algebra verstehen) über diese Version der Taylorformel gibt, geben wir an dieser Stelle nur noch der Vollständigkeit halber das entsprechende Resultat an. Für einen Beweis und weitere Diskussionen diesbezüglich sei auf den erwähnten Artikel verwiesen.
Satz. (Qualitative Taylorformel) Sei $U\subseteq V$ offen, $x_0\in U$, $k\in \mathbb N$ sowie $f\in C^k(U,W)$. Dann gilt $$ \lim_{x\to x_0} \frac{R_{k,f,x_0}(x)}{\lVert x-x_0\rVert^k}=0. $$

Anwendung: Lokale Extrema

Die Taylorentwicklung der Ordnung $2$ lässt eine interessante Beobachtung zu. Sei dazu $f\in C^2(U)$ mit $(\d f)_{x_0}\equiv 0$ für ein $x_0\in U$. Nach der Taylorformel gilt dann $$ f(x_0+h)-f(x_0)=\frac{1}{2}(D^2f)_x(h,h)+o(\lVert h\rVert^2). $$ Das bedeutet, dass das Verhalten der Differenz $f(x_0+h)-f(x_0)$ (insbesondere das Vorzeichen!) in einer Umgebung von $x_0$ im Wesentlichen durch die "zweite Ableitung" $(D^2f)_x$ von $f$ bestimmt ist. Solange der Term auf der rechten Seite "hinreichend nett" ist, können wir die Hoffnung haben, dass wir mit Hilfe von $(D^2f)_x$ eine Aussage über das Vorzeichen der Differenz und damit über lokale Extrema von $f$ machen können. Der Vollständigkeit halber die folgende
Definition. Sei $D\subseteq \mathbb R^n$, $f\colon D\to \mathbb R$ eine Funktion sowie $x_0\in D$. Wir sagen: $\bullet$ $f$ hat in $x_0$ ein lokales Maximum, wenn es eine Umgebung $U\subseteq D$ von $x_0$ gibt, so dass $f(x)\leq f(x_0)$ für alle $x\in U$ gilt. $\bullet$ $f$ hat in $x_0$ ein lokales Minimum, wenn $-f$ in $x_0$ ein lokales Maximum hat.
Wir interessieren uns hier ausschließlich für den Fall, dass $D$ eine offene Menge und $f$ differenzierbar ist. Zunächst hat man wie in Analysis I ein notwendiges Kriterium.
Satz. Sei $U\subseteq \mathbb R^n$ offen und $f\colon U\to \mathbb R$ in $x_0\in U$ partiell differenzierbar. Wenn $f$ in $x_0$ ein lokales Extremum hat, dann gilt $\partial_jf(x_0)=0$ für $j=1,\dots,n$.
Beweis. Sei $r>0$ mit $B_r(x_0)\subseteq U$ und definiere die Funktionen $$ g_j\colon (-r,r)\to \mathbb R, \ g_j(t)=f(x_0+te_j) $$ für $j=1,\dots,n$. Dann ist $g_j$ in $0$ differenzierbar und hat dort nach Voraussetzung ein lokales Extremum. Mit dem notwendigen Kriterium aus Analysis I (eine Folgerung des Satzes von Rolle) folgt daher $\partial_j f(x_0)=g_j'(0)=0$ für $j=1,\dots,n$.

Quadratische Formen

Die Funktion $$ q\colon \mathbb R^n\to \mathbb R, \ h\mapsto (D^2f)_x(h,h)=\langle \operatorname{Hess}(f)(x)\cdot h,h\rangle $$ aus der Taylorformel der Ordnung 2 ist ein typisches Beispiel einer so genannten quadratischen Form.
Definition. Sei $V$ ein endlich-dimensionaler $\mathbb R$-Vektorraum und $\beta\colon V\times V\to \mathbb R$ eine symmetrische Bilinearform. Dann nennt man die Abbildung $$ q\colon V\to \mathbb R, \ q(v):=\beta(v,v) $$ eine quadratische Form auf $V$.
Ist $(e_1,\dots,e_n)$ eine Basis von $V$, $(\epsilon^1,\dots,\epsilon^n)$ die zugehörige duale Basis von $V^*$ und $\beta\colon V\times V\to \mathbb R$ eine symmetrische Bilinearform, dann gibt es reelle Zahlen $\beta_{ij}$ mit $$ \beta=\sum_{i=1}^n\sum_{j=1}^n \beta_{ij} \ \epsilon^i\otimes \epsilon^j. $$ Für die zugehörige quadratische Form $q\colon V\to \mathbb R$ und $v=\sum_{j=1}^n v^j e_j$ gilt daher $$ q(v)=\sum_{i=1}^n\sum_{j=1}^n \beta_{ij} \ \epsilon^i\otimes \epsilon^j(v,v)=\sum_{i=1}^n\sum_{j=1}^n \beta_{ij} v^iv^j. $$ Die Matrix $$ (\beta_{ij})_{1\leq i,j\leq n}=(\beta(e_i,e_j))_{1\leq i,j\leq n} $$ nennt man auch die Gram-Matrix der Bilinearform $\beta$ bezüglich der Basis $(e_1,\dots,e_n)$. Man muss allerdings beachten, dass $\beta$ kein $(1,1)$-Tensor (also eine lineare Abbildung $V\to V$), sondern ein $(0,2)$-Tensor ist (weshalb die Komponenten zwei Indizes unten haben). Die Gram-Matrix ist somit nicht mit einer darstellenden Matrix einer linearen Abbildung zu verwechseln (die Gram-Matrix ist allerdings darstellende Matrix einer Abbildung $V\to V^*$). Am deutlichsten merkt man das, wenn man in eine andere Basis wechselt. Die Komponenten von $\beta$ transformieren sich unter einem Basiswechsel ganz anders, als die Komponenten einer linearen Abbildung: Ist $(f_1,\dots,f_n)$ eine weitere Basis von $V$ mit $f_j=\sum_{i=1}^n a^i_j e_i$, dann haben wir $$ \beta(f_i,f_j)=\sum_{k=1}^n\sum_{\ell=1}^n \beta(e_k,e_\ell) a^k_i a^\ell_j $$ und somit für die Komponenten $\tilde\beta_{ij}$ von $\beta$ bezüglich $(f_1,\dots,f_n)$ $$ \tilde\beta_{ij}=\sum_{k=1}^n\sum_{\ell=1}^n\beta_{k\ell}\, a^k_i\, a^\ell_j. $$ Durch einen Basiswechsel in diesem Sinne, kann man die Komponenten einer symmetrischen Bilinearform immer auf eine bestimmte Form bringen, wie folgender Satz zeigt.
Satz. Sei $V$ ein $\mathbb R$-Vektorraum mit $\dim(V)=n$ und $\beta\colon V\times V\to \mathbb R$ eine symmetrische Bilinearform. Dann gibt es natürliche Zahlen $p,q\in \mathbb N_{0}$ und eine Basis $$ e_1,\dots,e_p,e_{p+1},\dots,e_{p+q}, e_{p+q+1},\dots,e_n $$ von $V$, so dass $$ \beta(e_j,e_j)=\begin{cases} +1, & 1\leq j\leq p \\ -1, & p+1\leq j\leq p+q \\ 0, & p+q+1\leq j\leq n \end{cases} $$ und $\beta(e_i,e_j)=0$ für $i\neq j$ gilt.
Ist $e_1,\dots,e_n$ eine Basis von $V$ wie in obigem Satz und ist $v=\sum_{j=1}^nv^je_j$, dann gilt für die zugehörige quadratische Form $$ \begin{align*} q(v) &=\beta(v,v)=\sum_{i=1}^n\sum_{j=1}^n \beta(e_i,e_j) v^iv^j=\sum_{j=1}^n\beta(e_j,e_j) v^jv^j \\ &= \sum_{j=1}^p (v^j)^2 -\sum_{j=p+1}^{p+q} (v^j)^2. \end{align*} $$ Speziell für $V=\mathbb R^2$ bedeutet das, dass jede quadratische Form, die nicht identisch verschwindet, nach einem etwaigen Basiswechsel eine der folgenden Formen hat
$\bullet$ $q(x,y)=\pm(x^2+y^2)$ (elliptisches Paraboloid), $\bullet$ $q(x,y)=x^2-y^2$ (hyperbolisches Paraboloid), $\bullet$ $q(x,y)=\pm x^2$ (parabolischer Zylinder). Je nachdem, auf welche dieser Formen sich eine quadratische Form durch eine geeignete Basiswahl bringen lässt, kann sie einer der folgenden Klassen zugeordnet werden.
Definition. Sei $V$ ein endlich-dimensionaler $\mathbb R$-Vektorraum und $q\colon V\to \mathbb R$ eine quadratische Form. Die Form $q$ heißt $\bullet$ positiv definit, wenn $q(v)>0$ für alle $v\in V\setminus \lbrace 0\rbrace$ gilt. $\bullet$ positiv semidefinit, wenn $q(v)\geq 0$ für alle $v\in V\setminus \lbrace 0\rbrace$ gilt. $\bullet$ negativ definit, wenn $q(v)<0$ für alle $v\in V\setminus \lbrace 0\rbrace$ gilt. $\bullet$ negativ semidefinit, wenn $q(v)\leq 0$ für alle $v\in V\setminus \lbrace 0\rbrace$ gilt. $\bullet$ indefinit, wenn es $v,w\in V\setminus\lbrace 0\rbrace$ mit $q(v)<0$ und $q(w)>0$ gibt.
In der anfangs betrachteten Situation hatten wir $$ f(x_0+h)-f(x_0)\approx\frac{1}{2}(D^2f)_{x_0}(h,h) $$ in der Nähe eines Punktes $x_0$. Je nachdem, welche Eigenschaften $(D^2f)_{x_0}$ hat, sieht $f$ in einer Umgebung von $x_0$ in diesem Fall in etwa so aus, wie die quadratische Form $q(h)=(D^2f)_{x_0}(h,h)$. Je nach Definitheit dieser Form, kann man daher vermuten, dass $f$ in $x_0$ ein lokales Extremum oder einen Sattelpunkt hat, insbesondere wenn man die Normalform einer quadratischen Form bedenkt.

Ein hinreichendes Kriterium

Mit den Erkenntnissen über quadratische Formen können wir in bestimmten Fällen ein hinreichendes Kriterium für das Vorliegen lokaler Extrema beweisen, das dem Kriterium aus Analysis I sehr ähnlich ist. Um dies einzusehen benötigen wir noch das folgende Lemma.
Lemma. Sei $q\colon \mathbb R^n\to \mathbb R$ eine positiv definite quadratische Form. Dann gibt es ein $\alpha>0$ derart, dass $q(v)\geq \alpha \lVert v\rVert^2$ für alle $v\in \mathbb R^n$ gilt.
Beweis. Da $q$ positiv definit und stetig sowie $S^{n-1}$ kompakt ist, existiert $$ \alpha:=\min_{v\in \mathbb R^n\setminus\lbrace 0\rbrace}q\left(\frac{v}{\lVert v\rVert}\right)= \min_{v\in S^{n-1}} q(v) >0. $$ Für alle $v\in \mathbb R^n\setminus\lbrace 0\rbrace$ gilt folglich $$ q(v)=q\left(\lVert v\rVert \cdot \frac{v}{\lVert v\rVert}\right)=q\left(\frac{v}{\lVert v\rVert}\right)\cdot \lVert v\rVert^2\geq \alpha \lVert v\rVert^2, $$ was zu zeigen war. $\square$ Mit Hilfe dieser Abschätzung können wir nun in der Tat ein hinreichendes Kriterium für lokale Extrema beweisen. Man bemerke, dass folgender Satz im Fall $n=1$ zu dem Kriterium aus Analysis I entartet.
Satz. Sei $U\subseteq \mathbb R^n$ offen, $f\in C^2(U)$, $x_0\in U$ mit $(\d f)_{x_0}\equiv 0$ und $$ q\colon \mathbb R^n\to \mathbb R, \ q(h)=(D^2f)_{x_0}(h,h). $$ Dann gilt: $\bullet$ Wenn $q$ positiv definit ist, dann hat $f$ in $x_0$ ein striktes lokales Minimum. $\bullet$ Wenn $q$ negativ definit ist, dann hat $f$ in $x_0$ ein striktes lokales Maximum. $\bullet$ Wenn $q$ indefinit ist, dann hat $f$ in $x_0$ kein lokales Extremum.
Beweis. Wir zeigen die Aussage für das lokale Minimum. Die Aussage über das lokale Maximum ergibt sich dann durch Übergang von $f$ zu $-f$. Die dritte Aussage bleibt dem Leser als Übung überlassen. Nach Voraussetzung gibt es ein $r>0$ mit $B_r(x_0)\subseteq U$ und eine Funktion $\varphi\colon B_r(0)\to \mathbb R$ derart, dass $$ f(x_0+h)-f(x_0)=\frac{1}{2}q(h)+\varphi(h) $$ mit $\varphi(h)=o(\lVert h\rVert^2)$ für alle $h\in B_r(0)$ gilt. Da $q$ positiv definit ist, gibt es ein $\alpha>0$ derart, dass $q(h)\geq \alpha\lVert h\rVert^2$ für alle $h\in \mathbb R^n$ gilt. Sei nun $0\lt r'\lt r$ so klein, dass $$ \frac{|\varphi(h)|}{\lVert h\rVert^2}<\frac{\alpha}{4} $$ für alle $h\in B_{r'}(0)\setminus\lbrace 0\rbrace$ gilt. Für alle $h\in B_{r'}(0)\setminus\lbrace 0\rbrace$ gilt dann $$ \begin{align*} f(x_0+h)-f(x_0) &=\frac{1}{2}q(h) +\varphi(h)\geq \frac{\alpha}{2}\lVert h\rVert^2-\frac{\alpha}{4}\lVert h\rVert^2=\frac{\alpha}{4}\lVert h\rVert^2 >0. \end{align*} $$ Folglich hat $f$ in $x_0$ ein striktes lokales Minimum. $\square$
Beispiel. Sei $f\colon \mathbb R^2\to \mathbb R$ und $h=(h_1,h_2)$ (i) $f(x,y)=x^2+y^2$. Es ist $(\d f)_{(0,0)}\equiv 0$ und $$ (D^2f)_{(0,0)}(h,h)=2(h_1)^2+2(h_2)^2 $$ offenbar positiv definit. Folglich hat $f$ in $(0,0)$ ein striktes lokales (ja sogar globales) Minimum. (ii) $f(x,y)=-x^2-y^2$. Es ist $(\d f)_{(0,0)}\equiv 0$ und $$ (D^2f)_{(0,0)}(h,h)=-2(h_1)^2-2(h_2)^2 $$ offenbar negativ definit. Folglich hat $f$ in $(0,0)$ ein striktes lokales (ja sogar globales) Maximum. (iii) $f(x,y)=x^2-y^2$. Es ist $(\d f)_{(0,0)}\equiv 0$ und $$ (D^2f)_{(0,0)}(h,h)=2(h_1)^2-2(h_2)^2 $$ offenbar indefinit. Folglich hat $f$ in $(0,0)$ kein lokales Extremum.
Ist in der Situation des obigen Satzes die jeweilige quadratische Form lediglich (positiv oder negativ) semidefinit, so liefert das Kriterium keine Aussage über das Vorliegen eines lokalen Extremums. In diesem Fall sind andere Überlegungen, wie z.B. eine "manuelle" Abschätzung von $f(x_0+h)-f(x_0)$, notwendig.
Beispiel. Sei $f\colon \mathbb R^2\to \mathbb R$ gegeben durch $f(x,y)=x^4+y^4$. Dann ist $(\d f)_{(0,0)}\equiv 0$, aber $$ (D^2f)_{(0,0)}(h,h)=0 $$ für alle $h\in \mathbb R^2$. Das hinreichende Kriterium lässt sich daher nicht anwenden. Für alle $(x,y)\in \mathbb R^2\setminus\lbrace (0,0)\rbrace$ gilt aber $$ f(x,y)-f(0,0)=x^4+y^4>0 $$ und somit hat $f$ in $(0,0)$ ein striktes lokales Minimum.

\(\endgroup\)
Get link to this article Get link to this article  Printable version Printer-friendly version -  Choose language     Kommentare zeigen Comments  
pdfFür diesen Artikel gibt es keine pdf-Datei


Arbeitsgruppe Alexandria Dieser Artikel ist nicht im Verzeichnis der Arbeitsgruppe Alexandria eingetragen.
[Die Arbeitsgruppe Alexandria katalogisiert die Artikel auf dem Matheplaneten]
 


 
Kommentare zum Inhalt bitte im Inhalte-Thread, Kommentare zur Gestaltung
bitte im Form-Thread. Klicke auf die passende Registerkarte.

Noch keine Kommentare hier


Noch keine Kommentare hier



 
Aufrufzähler 312
 
Aufrufstatistik des Artikels
Insgesamt 13 externe Seitenaufrufe zwischen 2023.06 und 2023.12 [Anzeigen]
DomainAnzahlProz
https://google.de215.4%15.4 %
https://google.com861.5%61.5 %
https://matheplanet.com17.7%7.7 %
https://matheplanet.de17.7%7.7 %
https://www.inoreader.com17.7%7.7 %

Aufrufer der letzten 5 Tage im Einzelnen
Insgesamt 5 Aufrufe in den letzten 5 Tagen. [Anzeigen]
DatumAufrufer-URL
2023.11.02-2023.12.01 (2x)https://google.de/
2023.11.16-2023.11.28 (3x)https://google.com/

Häufige Aufrufer in früheren Monaten
Insgesamt 5 häufige Aufrufer [Anzeigen]
DatumAufrufer-URL
202306-10 (5x)https://google.com/


[Top of page]



 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2023 by Matroids Matheplanet
This web site was originally made with PHP-Nuke, a former web portal system written in PHP that seems no longer to be maintained nor supported. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]