3 – Notwendige Bedingungen für Extrema

 

3.1 Vektorraum und Funktionenraum

In der linearen Algebra wird der Begriff des reellen Vektorraums, kurz \mathbb{R}-Vektorraum, eingeführt. Ein \mathbb{R}-Vektorraum V ist eine Menge, deren Elemente sich addieren und mit reellen Zahlen skalieren lassen. Ein besonders einfacher \mathbb{R}-Vektorraum ist \mathbb{R} selbst: Je zwei reelle Zahlen lassen sich addieren und ihre Skalierung (Multiplikation) mit einer reellen Zahl ist wieder eine reelle Zahl.

Ein weiterer Vektorraum ist V = {\mathbb{R}^n}. In diesem Vektorraum werden die Addition und die skalare Multiplikation definiert durch

\left( {\begin{array}{*{20}{c}}{{x_1}} \\ \vdots \\ {{x_n}} \end{array}} \right)+\left( {\begin{array}{*{20}{c}}{{y_1}} \\ \vdots \\ {{y_n}} \end{array}} \right) = \left( {\begin{array}{*{20}{c}}{{x_1}+{y_1}} \\ \vdots \\ {{x_n}+{y_n}} \end{array}} \right),\quad \lambda \left( {\begin{array}{*{20}{c}}{{x_1}} \\ \vdots \\ {{x_n}} \end{array}} \right) = \left( {\begin{array}{*{20}{c}}{\lambda {x_1}} \\ \vdots \\ {\lambda {x_n}} \end{array}} \right)

Sowohl \mathbb{R} als auch {\mathbb{R}^n} sind endlich dimensionale Vektorräume. Ein Beispiel für einen Vektorraum unendlicher Dimension ist der Vektorraum

V: = \left\{ {f \in C\left[ {0,1} \right];\quad f\left( 0 \right) = 0,\quad f\left( 1 \right) = 0} \right\},

denn es gilt:

f,g \in V

\Rightarrow \quad f+g:x \mapsto \left( {f+g} \right)\left( x \right): = f\left( x \right)+g\left( x \right)

\Rightarrow \quad \lambda f:x \mapsto \left( {\lambda f} \right)\left( x \right): = \lambda f\left( x \right)

Die Addition entspricht also der Superposition beider Funktionen.

Vektorräume, die aus Funktionen bestehen, wie den Raum aller Polynome oder den Raum aller dreimal stetig differenzierbaren Funktionen auf dem Einheitsintervall, nennt man auch Funktionenräume.

Gegenbeispiel: M: = \left\{ {f \in C\left[ {0,1} \right];\quad f\left( 0 \right) = 1} \right\} ist kein Vektorraum, also auch kein Funktionenraum, denn f,g \in M\quad \Rightarrow \quad \left( {f+g} \right)\left( 0 \right) = 1+1 = 2\quad \Rightarrow \quad \left( {f+g} \right) \notin M

3.2 Funktionale

Auf Vektorräumen definierte reellwertige Funktionen bekommen einen speziellen Namen:

Definition 3.1: Funktional

Sei V ein \mathbb{R}-Vektorraum und sei D \subset V. Eine Funktion J:D \to \mathbb{R}, die also jedem Vektor v \in D eine reelle Zahl J\left( v \right) zuordnet, heißt Funktional.

Insbesondere könnte man alle gewöhnlichen Funktionen

f:D \to \mathbb{R},\quad D \subset V = {\mathbb{R}^n}

als Funktionale bezeichnen. Die Minimierung oder Maximierung eines solchen Funktionals fällt dann unter die Rubrik Optimierung im {\mathbb{R}^n}, siehe Kapitel 2.

Speziell auf Funktionenräumen definierte Funktionale sind die folgenden.

Beispiel 1: Stellenfunktional

V: = \left\{ {f:\mathbb{R} \to \mathbb{R}} \right\};\quad {x_0} \in \mathbb{R} sei fest gewählt (beliebig).

J:V \to \mathbb{R};\quad J\left( f \right): = f\left( {{x_0}} \right) ist das Stellenfunktional.

Beispiel 2: Bestimmtes Integral

V: = C\left[ {a,b} \right],\quad J:V \to \mathbb{R},\quad f \mapsto J\left( f \right) = \int_a^b {f\left( x \right)dx}

Beispiel 3: Bogenlänge

V = {C^1}\left[ {a,b} \right];\quad J:V \to \mathbb{R},\quad f \mapsto J\left( f \right) = \int_a^b {\sqrt {1+{f^\prime }{{\left( x \right)}^2}} dx}

Beispiel 4: Funktional vom Brachistochrone Problem

V = {C^1}\left( {0,a} \right];\quad D = \left\{ {y \in V:y\left( 0 \right) = 0,\:y\left( a \right) = b,\:y\left( x \right) > 0,\:\:x \in \left( {0,a} \right]} \right\}

D ist kein Vektorraum, aber das ist auch nicht gefordert. Ein Funktional bildet eine Teilmenge eines Vektorraumes auf \mathbb{R} ab. In diesem Fall:

J:D \to \mathbb{R};\quad J\left( y \right) = \int_0^a {\sqrt {\frac{{1+{y^\prime }{{\left( x \right)}^2}}}{{2gy\left( x \right)}}} dx}

3.3 Grundaufgabe der Variationsrechnung, Gâteaux-Ableitung

Die Grundaufgabe der Variationsrechnung ist die Optimierung in Vektorräumen:

Finde einen Vektor y \in D für eine Teilmenge D des Vektorraums V, der ein gegebenes Funktional J:D \to \mathbb{R} minimiert:

J\left( y \right)\mathop = \limits^! \operatorname{Extr} ,\quad y \in D \subset V\quad \quad \quad \quad \left( 4 \right)

In den meisten Fällen ist V ein Funktionenraum und damit das gesuchte y \in D eine Funktion. Euler hat dieses Problem auf ein Optimierungsproblem in \mathbb{R} zurückgeführt.

Idee:

Angenommen, \hat y sei die bereits bekannte Lösung der Grundaufgabe der Variationsrechnung und

\hat y+\varepsilon v \in D,\quad v \in V,\quad -{\varepsilon _v} < \varepsilon < {\varepsilon _v},\quad {\varepsilon _v} > 0 (\hat y liegt nicht auf dem Rand).

Dann ist

h\left( \varepsilon \right): = J\left( {\hat y+\varepsilon v} \right)\mathop \geq \limits^! J\left( {\hat y} \right)

nach Voraussetzung “\hat y ist ein Minimum”. Daraus folgt:

\Rightarrow \quad h:\left( {-{\varepsilon _v},{\varepsilon _v}} \right) \to \mathbb{R} ist eine univariante Funktion und hat ein Minimum in \varepsilon = 0.

\Rightarrow \quad {\left. {\frac{d}{{d\varepsilon }}h\left( \varepsilon \right)} \right|_{\varepsilon = 0}} = \mathop {\lim }\limits_{\varepsilon \to 0} \frac{{J\left( {\hat y+\varepsilon v} \right)-J\left( {\hat y} \right)}}{\varepsilon } = 0 (Differenzierbarkeit vorausgesetzt)

Für den hier auftretenden Differentialquotienten führen wir einen Namen ein.

Definition 3.2: Gâteaux-Ableitung

V sei ein \mathbb{R}-Vektorraum, D \subset V, J:D \to \mathbb{R} ein Funktional. Sei y \in D und v \in V mit y+\varepsilon v \in D für alle \varepsilon \in \left( {-{\varepsilon _v},{\varepsilon _v}} \right).

Dann heißt

\delta J\left( {y,v} \right): = \mathop {\lim }\limits_{\varepsilon \to 0} \frac{{J\left( {y+\varepsilon v} \right)-J\left( y \right)}}{\varepsilon } = {\left. {\frac{d}{{d\varepsilon }}J\left( {y+\varepsilon v} \right)} \right|_{\varepsilon = 0}}

Gâteaux-Ableitung oder 1. Variation, falls der Grenzwert existiert. Existiert in y die Gâteaux-Ableitung in alle Richtungen v \in V, dann heißt J Gâteaux-differenzierbar in y.

Es ist äquivalent:

{h^\prime }\left( 0 \right) = 0\quad \Leftrightarrow \quad \delta J\left( {\hat y,v} \right) = 0

Die Gâteaux-Ableitung verallgemeinert den Begriff der Richtungsableitung: Für eine {C^1}-Funktion f:{\mathbb{R}^n} \to \mathbb{R} und y,v \in {\mathbb{R}^n} ergibt sich:

\delta f\left( {y,v} \right) = {D_v}f\left( y \right) = \operatorname{grad} f\left( y \right) \cdot v

Beispiel 3.3a: Gâteaux-Ableitung

Sei V = {\mathbb{R}^n}. f:{\mathbb{R}^n} \to \mathbb{R} ist (auch) Funktional.

Die Kettenregel lautet:

f:{\mathbb{R}^n} \to \mathbb{R},\quad \gamma :\mathbb{R} \to {\mathbb{R}^n},\quad \frac{d}{{dt}}f\left( {\gamma \left( t \right)} \right) = \left\langle {\nabla f\left( {\gamma \left( t \right)} \right),\dot \gamma \left( t \right)} \right\rangle

Damit erhalten wir:

\delta f\left( {y,v} \right) = {\left. {\frac{d}{{d\varepsilon }}f\left( {y+\varepsilon v} \right)} \right|_{\varepsilon = 0}}\mathop = \limits^{Kettenregel} \left\langle {\nabla f\left( y \right),v} \right\rangle = {D_v}f\left( y \right)

{D_v}f\left( y \right) ist die Richtungsableitung von f in Richtung v an der Stelle y.

Beispiel 3.3b: Gâteaux-Ableitung

f,g \in V = C\left[ {a,b} \right],\quad J:V \to \mathbb{R},\quad f \mapsto J\left( f \right) = \int_a^b {f\left( x \right)dx}

\delta J\left( {f,g} \right) = {\left. {\frac{d}{{d\varepsilon }}J\left( {f+\varepsilon g} \right)} \right|_{\varepsilon = 0}} = {\left. {\frac{d}{{d\varepsilon }}\int_a^b {\left[ {f\left( x \right)+\varepsilon g\left( x \right)} \right]dx} } \right|_{\varepsilon = 0}}

= \int_a^b {{{\left. {\frac{d}{{d\varepsilon }}\left[ {f\left( x \right)+\varepsilon g\left( x \right)} \right]} \right|}_{\varepsilon = 0}}dx} = \int_a^b {g\left( x \right)dx}

Also z.B. \delta J\left( {\tan x,\sin x} \right) = \int_a^b {\sin xdx}

Die Reihenfolge von Integration und Ableitung dürfen wir wegen folgenden Zusammenhanges tauschen. Wir definieren:

F\left( x \right): = \int_a^b {f\left( {x,y} \right)dy}

Dann ist

{F^\prime }\left( x \right) = \int_a^b {{f_x}\left( {x,y} \right)dy}

falls f stetig partiell differenzierbar bezüglich x ist. Man darf also immer dann unter dem Integral differenzieren, wenn die Ableitung existiert und stetig ist.

Neben der Gâteaux-Ableitung gibt es noch die sogenannte Fréchet-Ableitung, die den Begriff der totalen Ableitung verallgemeinert und auf der Idee der linearen Approximation beruht. Zur Einführung der Fréchet-Ableitung werden Normen auf Funktionenräumen benötigt. Wir kommen hier ohne Fréchet-Ableitung aus, erwähnen aber dennoch, dass aus der Fréchet-Differenzierbarkeit stets die Gâteaux-Differenzierbarkeit folgt und beide Ableitungen dann gleich sind.

3.4 Notwendige Bedingung für Extrema

Die Idee von Euler lässt sich mit Hilfe der 1. Variation folgendermaßen ausdrücken.

Satz 3.4: Notwendige Bedingung für Extrema:

Es sei V ein \mathbb{R}-Vektorraum, D \subset V, J:D \to \mathbb{R} ein Funktional. Sei \hat y Lösung von

J\left( y \right) = \operatorname{Extr} ,\quad y \in D

Dann gilt für alle v, die zulässig sind in dem Sinne dass \hat y+\varepsilon v \in D für genügend kleine \varepsilon:

\delta J\left( {\hat y,v} \right) = 0

sofern die Gâteaux-Ableitung existiert.

Bemerkungen:

  1. Der Satz bezeichnet eine notwendige Bedingung für ein Extremum. Umgekehrt ist also jede Lösung y der Gleichung \delta J\left( {y,v} \right) = 0 (für alle zulässigen v) nur Kandidat für ein Extremum, genau wie bei der Optimierung im {\mathbb{R}^n} das Verschwinden des Gradienten noch nicht hinreichend für ein Extremum ist.
  2. Bei der Optimierung im {\mathbb{R}^n} lassen sich Aussagen für Extrema mit Hilfe der Hesse-Matrix machen. Dies ist nun anders: Zwar gibt es auch eine 2. Variation

    {\delta ^2}J\left( {y,v} \right): = {\left. {\frac{{{d^2}}}{{d{\varepsilon ^2}}}J\left( {y+\varepsilon v} \right)} \right|_{\varepsilon = 0}},

    doch sind selbst die beiden Bedingungen

    \delta J\left( {\hat y,v} \right) = 0,\quad {\delta ^2}J\left( {\hat y,v} \right) > 0

    noch nicht hinreichend für ein lokales Minimum.

  3. Es gibt dennoch auch hinreichende Bedingungen für Extrema von Funktionalen. Wir gehen später darauf ein.

3.5 Variationsaufgabe mit festen Endpunkten, Lagrange-Funktion

Die notwendigen Bedingungen aus dem letzten Kapitel geben ein Prinzip vor, wie man bei der Optimierung in Funktionenräumen vorgehen könnte, nämlich zuerst die Gleichung

\delta J\left( {y,v} \right) = 0

nach y lösen und dann weiter untersuchen, welche der Lösungen tatsächlich Extrema sind. Aber mit der abstrakten Formulierung des Satzes zu notwendigen Bedingungen für Extrema lässt sich noch nicht rechnen. Dazu brauchen wir eine konkretere Problemstellung. Die Grundaufgabe der Variationsrechnung muss spezialisiert werden.

Erste Spezialisierung: Variationsaufgabe mit festen Randpunkten

Ausgehend vom Problem der Brachistochrone geben wir uns jetzt die folgende konkrete Problemstellung vor.

Aufgabe (A): Variationsaufgabe mit festen Endpunkten

Es seien

\left( {{t_0},{y_0}} \right),\left( {{t_1},{y_1}} \right) \in {\mathbb{R}^2},\quad {t_0} < {t_1},\quad D = \left\{ {y \in {C^2}\left[ {{t_0},{t_1}} \right]:y\left( {{t_0}} \right) = {y_0},y\left( {{t_1}} \right) = {y_1}} \right\}

L = L\left( {t,p,q} \right):\left[ {{t_0},{t_1}} \right] \times \mathbb{R} \times \mathbb{R} \to \mathbb{R} sei zweimal stetig partiell differenzierbar. Dann ist das folgende Problem zu lösen:

J\left( y \right): = \int_{{t_0}}^{{t_1}} {L\left( {t,y\left( t \right),\dot y\left( t \right)} \right)dt} \mathop = \limits^! \operatorname{Extr} ,\quad y \in D\quad \quad \quad \quad \left( 5 \right)

Dabei heißt L Lagrange-Funktion, die Aufgabe heißt Variationsaufgabe mit festen Randpunkten.

Viele Aufgaben können in diese Form gebracht werden, z.B. hatten wir schon das Brachistochrone-Problem mit

J\left( y \right) = \int_{{t_0}}^{{t_1}} {\sqrt {\frac{{1+\dot y{{\left( t \right)}^2}}}{{2y\left( t \right)}}} dt}

3.6 Herleitung der Euler-Lagrange-Gleichung

Wir wollen nun für das zu minimierende Funktional die Gâteaux-Ableitung in einem Extremum \hat y berechnen. Damit alle Vergleichsfunktionen {y_\varepsilon }: = \hat y+\varepsilon v zulässig, also Elemente von D sind, setzen wir v \in {C^2}\left[ {{t_0},{t_1}} \right] und v\left( {{t_0}} \right) = 0 = v\left( {{t_1}} \right) voraus.

\delta J\left( {\hat y,v} \right) = \frac{d}{{d\varepsilon }}{\left. {\int_{{t_0}}^{{t_1}} {L\left( {t,{y_\varepsilon }\left( t \right),{{\dot y}_\varepsilon }\left( t \right)} \right)dt} } \right|_{\varepsilon = 0}}

= \int_{{t_0}}^{{t_1}} {{{\left. {\frac{d}{{d\varepsilon }}L\left( {t,\hat y+\varepsilon v\left( t \right),\dot \hat y+\varepsilon \dot v\left( t \right)} \right)} \right|}_{\varepsilon = 0}}dt}

Wenn die Funktion nach \varepsilon stetig differenzierbar ist, dürfen wir unter dem Integral differenzieren. Hierbei müssen wir die Kettenregel beachten:

L:{\mathbb{R}^n} \to \mathbb{R},\quad y:\mathbb{R} \to {\mathbb{R}^n},\quad \frac{d}{{dt}}L\left( {y\left( t \right)} \right) = \left\langle {\nabla L\left( {y\left( t \right)} \right),\dot y\left( t \right)} \right\rangle

In diesem Fall haben wir:

L:{\mathbb{R}^3} \to \mathbb{R},\quad y:\mathbb{R} \to {\mathbb{R}^3}

y\left( \varepsilon \right) = \left( {\begin{array}{*{20}{c}} t \\ {\hat y+\varepsilon v} \\ {\dot \hat y+\varepsilon \dot v} \end{array}} \right)\quad \Rightarrow \quad \dot y\left( \varepsilon \right) = \left( {\begin{array}{*{20}{c}} 0 \\ v \\ {\dot v} \end{array}} \right),\quad \quad \nabla L\left( {t,y,\dot y} \right) = \left( {\begin{array}{*{20}{c}}{{L_t}} \\ {{L_y}} \\ {{L_{\dot y}}} \end{array}} \right)

Hierbei haben wir eine mathematisch bedenkliche, aber bequeme und allgemein übliche Schreibweise gewählt: {L_{\dot y}} bedeutet, dass die Funktion nach der dritten Variable abgeleitet wird, beziehungsweise genauer: Nach der Variable, an deren Stelle \dot y\left( t \right) eingetragen wird.

Einsetzen:

\delta J\left( {\hat y,v} \right) = \int_{{t_0}}^{{t_1}} {{{\left. {\frac{d}{{d\varepsilon }}L\left( {t,\hat y+\varepsilon v\left( t \right),\dot \hat y+\varepsilon \dot v\left( t \right)} \right)} \right|}_{\varepsilon = 0}}dt}

= \int_{{t_0}}^{{t_1}} {\left\langle {{{\left. {\nabla L} \right|}_{\varepsilon = 0}},\left( {\begin{array}{*{20}{c}} 0 \\ v \\ {\dot v} \end{array}} \right)} \right\rangle dt}

= \int_{{t_0}}^{{t_1}} {\left\langle {\left( {\begin{array}{*{20}{c}}{{L_t}} \\ {{L_y}} \\ {{L_{\dot y}}} \end{array}} \right),\left( {\begin{array}{*{20}{c}} 0 \\ v \\ {\dot v} \end{array}} \right)} \right\rangle dt}

= \int_{{t_0}}^{{t_1}} {\left[ {{L_y}\left( {t,y,\dot y} \right)v+{L_{\dot y}}\left( {t,y,\dot y} \right)\dot v} \right]dt}

Nebenrechnung partielle Integration:

\int_{{t_0}}^{{t_1}} {{L_{\dot y}}\dot vdt} = \left[ {{L_{\dot y}}v} \right]_{t = {t_0}}^{t = {t_1}}-\int_{{t_0}}^{{t_1}} {\frac{d}{{dt}}\left( {{L_{\dot y}}} \right)v\left( t \right)dt}

Dabei ist:

\frac{d}{{dt}}\left( {{L_{\dot y}}} \right) = \frac{d}{{dt}}{L_{\dot y}}\left( {t,y\left( t \right),\dot y\left( t \right)} \right) = \left\langle {\nabla {L_{\dot y}},\dot y\left( t \right)} \right\rangle ,\quad y\left( t \right) = \left( {\begin{array}{*{20}{c}} t \\ {y\left( t \right)} \\ {\dot y\left( t \right)} \end{array}} \right)

\frac{d}{{dt}}\left( {{L_{\dot y}}} \right) = {L_{\dot yt}} \cdot 1+{L_{\dot yy}}\dot y+{L_{\dot y\dot y}}\ddot y

Einsetzen liefert:

\delta J\left( {\hat y,v} \right) = \int_{{t_0}}^{{t_1}} {\left[ {{L_y}v+{L_{\dot y}}\dot v} \right]dt} = \int_{{t_0}}^{{t_1}} {{L_y}\left( {t,\hat y\left( t \right),\dot \hat y\left( t \right)} \right)v\left( t \right)+{L_{\hat y}}\left( {t,\hat y\left( t \right),\dot \hat y\left( t \right)} \right)\dot v\left( t \right)dt}

= \left[ {{L_{\dot y}}v} \right]_{{t_0}}^{{t_1}}+\int_{{t_0}}^{{t_1}} {\left[ {{L_y}-\frac{d}{{dt}}\left( {{L_{\dot y}}} \right)} \right]vdt} = \left[ {{L_{\dot y}}v} \right]_{{t_0}}^{{t_1}}+\int_{{t_0}}^{{t_1}} {\left[ {{L_y}-\left( {{L_{\dot yt}} \cdot 1+{L_{\dot yy}}\dot y+{L_{\dot y\dot y}}\ddot y} \right)} \right]vdt} \mathop = \limits^! 0

Wir haben jetzt also folgende Situation:

\delta J\left( {\hat y,v} \right) = \left[ {{L_{\dot y}}v} \right]_{{t_0}}^{{t_1}}+\int_{{t_0}}^{{t_1}} {\left( {{L_y}-\frac{d}{{dt}}{L_{\dot y}}} \right)vdt} \mathop = \limits^! 0

\left( {{t_0},{y_0}} \right),\left( {t,y} \right) \in {\mathbb{R}^2},\quad {t_0} < t,\quad D = \left\{ {y \in {C^2}\left[ {{t_0},t} \right]:y\left( {{t_0}} \right) = {y_0},y\left( {{t_1}} \right) = {y_1}} \right\}

y \in D,\quad y+\varepsilon v\mathop \in \limits^! D\quad \Rightarrow \quad v \in {C^2}\left[ {{t_0},{t_1}} \right],\quad v\left( {{t_0}} \right) = 0 = v\left( {{t_1}} \right)

Aus der letzten Bedingung folgt:

v\left( {{t_0}} \right) = 0 = v\left( {{t_1}} \right)\quad \Rightarrow \quad \left[ {{L_{\dot y}}v} \right]_{{t_0}}^{{t_1}} = 0

\Rightarrow \quad \delta J\left( {\hat y,v} \right) = \int_{{t_0}}^{{t_1}} {\left( {{L_y}-\frac{d}{{dt}}{L_{\dot y}}} \right)vdt} \mathop = \limits^! 0\quad \quad \quad \quad \left( 7 \right)

Wir benötigen nun folgenden Hilfssatz 3.5:

Sei f \in C\left[ {a,b} \right] und für alle g \in {C^2}\left[ {a,b} \right] mit g\left( a \right) = 0 = g\left( b \right) sei \int_a^b {f\left( x \right)g\left( x \right)dx} = 0. Dann ist f\left( x \right) = 0 für x \in \left[ {a,b} \right].

Beweis: Dieser Hilfssatz folgt aus dem Fundamentallemma der Variationsrechnung. Gäbe es ein {x_0} \in \left( {a,b} \right) mit f\left( {{x_0}} \right) > 0, also etwa mit f\left( {{x_0}} \right) > 0, dann wäre wegen der Stetigkeit f\left( x \right) > 0 für eine ganze Umgebung a \leq {x_0}-\varepsilon \leq x \leq {x_0}+\varepsilon \leq b. Dann ließe sich eine {C^2}-Funktion g konstruieren, die für \left| {x-{x_0}} \right| < \varepsilon positiv und sonst 0 ist. Damit wäre

\int_a^b {f\left( x \right)g\left( x \right)dx} = \int_{{x_0}-\varepsilon }^{{x_0}+\varepsilon } {f\left( x \right)g\left( x \right)dx} > 0

und das stünde im Widerspruch zur Voraussetzung.

Wendet man diesen Hilfssatz auf die Aussage

\delta J\left( {\hat y,v} \right) = \int_{{t_0}}^{{t_1}} {\left( {{L_y}-\frac{d}{{dt}}{L_{\dot y}}} \right)vdt} \mathop = \limits^! 0

an, so ergibt sich folgendes Resultat.

Satz 3.6: Euler-Lagrange-Differentialgleichungen

Es seien die Voraussetzungen der Variationsaufgabe (A) erfüllt. Eine Lösung y von (5) erfüllt dann die Gleichung

{L_y}-\frac{d}{{dt}}{L_{\dot y}} = 0\quad \Rightarrow \quad {L_y} = \frac{d}{{dt}}{L_{\dot y}}\quad \quad \quad \quad \left( 8 \right)

\Rightarrow \quad \frac{d}{{dt}}{L_{\dot y}} = \frac{d}{{dt}}\left( {{L_{\dot y}}\left( {t,y\left( t \right),\dot y\left( t \right)} \right)} \right) = {L_{\dot yt}}+{L_{\dot yy}}\dot y+{L_{\dot y\dot y}}\ddot y\mathop = \limits^! {L_y}\quad \quad \quad \quad \left( 9 \right)

Diese Gleichung haben wir auch in der höheren technischen Mechanik als die Bewegungsgleichung nach Lagrange kennengelernt. Es handelt sich um eine gewöhnliche (implizite) Differentialgleichung 2. Ordnung für das gesuchte y. Wenn {L_{\dot y\dot y}} \ne 0, kann man nach \ddot y auflösen und erhält eine explizite Differentialgleichung. Jede Lösung heißt Extremale. Der Begriff Extremale ist also nicht zu verwechseln mit dem Extremum: Jede Extremale ist nur ein Kandidat für eine Extremstelle.

Wir erhalten damit einen Lösungsansatz für Variationsaufgaben:

  1. Versuche, die Euler-Lagrange-Gleichung zu lösen
  2. Lösung soll vorgegebene Randwerte annehmen

3.7 Anwendungsbeispiele für die Euler-Lagrange-Gleichung

L\left( {t,y,\dot y} \right) = {y^2}+{{\dot y}^2}

{L_t} = 0,\quad {L_y} = 2y,\quad {L_{\dot y}} = 2\dot y

{L_{\dot yt}} = 0\quad {L_{\dot yy}}\dot y = 0,\quad {L_{\dot y\dot y}}\ddot y = 2\ddot y

\Rightarrow \quad {L_{\dot yt}}+{L_{\dot yy}}\dot y+{L_{\dot y\dot y}}\ddot y\mathop = \limits^! {L_y}\quad \Rightarrow \quad 2\ddot y = 2y\quad \Rightarrow \quad \boxed{\ddot y = y}

\Rightarrow \quad \frac{d}{{dt}}{L_{\dot y}} = {L_y}\quad \Rightarrow \quad 2\ddot y = 2y\quad \Rightarrow \quad \boxed{\ddot y = y}

Die allgemeine Lösung hat zwei unbekannte Parameter.

Zwei unabhängige Lösungen sind \frac{1}{2}\left( {{e^x}+{e^{-x}}} \right) und \frac{1}{2}\left( {{e^x}-{e^{-x}}} \right). Damit ist auch jede Linearkombination Lösung. Wir erhalten

y\left( x \right) = {c_1}\cosh x+{c_2}\sinh x

Allgemeine Lösung mit Randbedingungen y\left( 0 \right) = 0 und y\left( 1 \right) = 1:

y\left( x \right) = \frac{{\sinh x}}{{\sinh 1}}

Wir haben bisher angenommen, dass die Funktion y \in {C^2}\left[ {{t_0},t} \right] ist. Dies ist eine ziemlich starke Voraussetzung, die oft nicht so gegeben ist. Folgenden Satz für nur einfach differenzierbare Funktionen werden wir nicht beweisen, da dies mit größerem Aufwand verbunden ist.

Satz 3.7: Euler-Gleichung für nur einfach differenzierbare Funktionen

Es sei für \left( {{t_0},{y_0}} \right),\left( {{t_1},{y_1}} \right) \in {\mathbb{R}^2} mit {t_0} < {t_1}

D: = \left\{ {y \in {C^1}\left[ {{t_0},{t_1}} \right]:y\left( {{t_0}} \right) = {y_0},y\left( {{t_1}} \right) = {y_1}} \right\}.

Die Funktion L = L\left( {t,p,q} \right) sei stetig auf einer offenen Menge \Omega \subset {\mathbb{R}^3}, die alle \left\{ {\left( {t,y\left( t \right),\dot y\left( t \right)} \right):t \in \left[ {{t_0},{t_1}} \right],y \in D} \right\} enthält und auf \Omega bezüglich der zweiten und der dritten Variable stetig differenzierbar. Dann muss jede Lösung des Problems

J\left( y \right): = \int_{{t_0}}^{{t_1}} {L\left( {t,y\left( t \right),\dot y\left( t \right)} \right)dt} = \operatorname{Extr} ,\quad y \in D

notwendig die Euler-Gleichung

\frac{d}{{dt}}{L_{\dot y}} = {L_y}

erfüllen.

Für den Beweis siehe: Leitmann, The Calculus of Variations and Optimal Control, Plenum Press, 1986

Hier werden geringere Stetigkeitsvoraussetzungen als im ursprünglichen Problem (Satz 3.6) gemacht. Wenn eine Lösung \hat y der Variationsaufgabe mit festen Randpunkten (5) existiert, so kommt durch die Euler-Gleichung zum Ausdruck, dass die Funktion t \mapsto {L_{\dot y}}\left( {t,\hat y\left( t \right),\dot \hat y\left( t \right)} \right) stetig differenzierbar ist. Wegen der fehlenden Stetigkeitsvoraussetzungen an L lässt sich \frac{d}{{dt}}{L_{\dot y}} aber nicht mehr wie in (9) ausdifferenzieren und deswegen ist hier die Euler-Gleichung keine Differentialgleichung für \hat y.

Es gibt sogar Varianten, die nur noch stückweise stetige Differenzierbarkeit voraussetzen und damit Funktionen mit Knicken zulassen. Das ist nicht nur mathematische Spielerei, sondern wichtig in der Optimalsteuerung, wenn Steuerungsfunktionen an den Rand des zulässigen Bereichs kommen.

Wir kommen in Abschnitt 7 nochmals auf diese Erweiterungen zurück, bringen zunächst aber ein weiteres Beispiel.

Beispiel 3.8: Kürzeste Strecke

Es seien \left( {a,\alpha } \right),\left( {b,\beta } \right) \in {\mathbb{R}^2} mit a < b und

D: = \left\{ {y \in {C^1}\left[ {a,b} \right];\quad y\left( a \right) = \alpha ,\quad y\left( b \right) = \beta } \right\}.

Gesucht wird ein y \in D, das die Bogenlänge

J\left( y \right) = \int_a^b {\underbrace {\sqrt {1+\dot y{{\left( t \right)}^2}} }_Ldt}

minimiert. Gesucht ist also die kürzeste Strecke zwischen zwei Punkten. Die Lagrange-Funktion L hängt in diesem Fall nicht explizit von t und auch nicht explizit von y ab. Insbesondere ist:

{L_y} = 0,\quad {L_{\dot y}} = \frac{1}{2}\frac{1}{{\sqrt {1+{{\dot y}^2}} }} \cdot 2\dot y = \frac{{\dot y}}{{\sqrt {1+{{\dot y}^2}} }}.

Euler-Lagrange-Gleichung:

\frac{d}{{dt}}\left( {\frac{{\dot y}}{{\sqrt {1+{{\dot y}^2}} }}} \right) = 0 = {L_y}

Eine Funktion, deren Ableitung gleich 0 ist, muss konstant sein:

\frac{{\dot y}}{{\sqrt {1+{{\dot y}^2}} }} = c = \operatorname{const}

\Rightarrow \quad {{\dot y}^2} = {c^2}\left( {1+{{\dot y}^2}} \right)

\Rightarrow \quad {{\dot y}^2} = \frac{{{c^2}}}{{1-{c^2}}}

\Rightarrow \quad \dot y = \sqrt {\frac{{{c^2}}}{{1-{c^2}}}} = \operatorname{const}

Eine Funktion, deren Ableitung konstant ist, muss linear sein. Lösungen der Euler-Lagrange-Gleichung sind also Geraden. Da Anfangs- und Endpunkt fest sind, gibt es nur eine einzige Gerade, die die Randbedingungen erfüllt. Als kürzeste Strecke kommt also nur diese Gerade in Frage:

y\left( t \right) = \frac{{\beta -\alpha }}{{b-a}}\left( {t-a} \right)+\alpha

Dass diese Gerade tatsächlich die kürzeste Verbindung zwischen den beiden angegebenen Punkten ist, folgt formal aus der Konvexität der Optimierungsaufgabe. Darauf gehen wir aber erst in Abschnitt 5 ein.

3.8 Brachistochrone-Problem

Im Prinzip gleich, wenn auch mit deutlich mehr Anstrengung als bei den letzten beiden Beispielen, können wir jetzt das Problem der Brachistochrone angehen.

Um Satz 3.5 anwenden zu können, fassen wir für gegebene Werte a > 0 und b > 0 die Menge

D: = \left\{ {y \in {C^1}\left[ {0,a} \right]:\:y\left( 0 \right) = 0,\:\:y\left( a \right) = b} \right\}

ins Auge und suchen dort ein Minimum von

J\left( y \right) = \int_0^a {\sqrt {\frac{{1+\dot y{{\left( t \right)}^2}}}{{y\left( t \right)}}} dt} \mathop = \limits^! \min ,\quad y\left( 0 \right) = 0,\quad y\left( a \right) = b

Den bei der Optimierung unwichtigen Term 2g haben wir weggelassen. In der Einleitung hatten wir die Integrationsvariable x genannt. Wir hätten also eigentlich:

J\left( y \right) = \int_0^a {L\left( {x,y,{y^\prime }} \right)dx}

\frac{d}{{dx}}{L_{{y^\prime }}} = {L_y}

Damit wir die vorher besprochenen Definitionen nicht ändern müssen, nennen wir die Integrationsvariable hier aber einfach t.

Hier steht gleich zu Anfang die Schwierigkeit ins Haus, dass der Integrand wegen der Forderung y\left( 0 \right) = 0 eine Singularität aufweist. Das macht eine mathematisch saubere Herangehensweise an das Brachistochrone-Problem schwierig. In der Tat besitzt das Problem auf der Menge D gar keine Lösung – vielmehr darf man im Punkt 0 lediglich Stetigkeit und keine stetige Differenzierbarkeit fordern. Die Kandidatenmenge für die Suche nach einem Optimum ist auf

\left\{ {y \in {C^1}\left( {0,a} \right]:\:\:y\left( 0 \right) = 0,\:\:y\left( a \right) = b,\:\:y\left( t \right) > 0\:\:\forall 0 < t \leq a} \right\}

einzuschränken. Für eine mathematisch korrekte Behandlung des Problems verweisen wir auf [Ko]. An dieser Stelle rechnen wir “einfach drauf los”.

Die Lagrange-Funktion L = \sqrt {\frac{{1+{{\dot y}^2}}}{y}} hängt hier nicht explizit von t ab und wir bekommen mit der Euler-Lagrange-Gleichung die autonome Differentialgleichung

{L_y}-{L_{\dot yy}}\dot y-{L_{\dot y\dot y}}\ddot y = 0\quad \quad \quad \quad \left( {10} \right).

Zur Lösung wenden wir den folgenden Trick an: Wir multiplizieren die DGL mit \dot y und erhalten

\dot y\left( {{L_y}-{L_{\dot yy}}\dot y-{L_{\dot y\dot y}}\ddot y} \right) = \frac{d}{{dt}}\left( {L-\dot y{L_{\dot y}}} \right) = 0\quad \quad \quad \quad \left( {11} \right)

Probe:

\frac{d}{{dt}}\left( {L-\dot y{L_{\dot y}}} \right) = \underbrace {{L_t} \cdot 1}_{ = 0}+{L_y}\dot y+{L_{\dot y}}\ddot y-\ddot y{L_{\dot y}}-\dot y\left( {\underbrace {{L_{\dot yt}}}_{ = 0} \cdot 1+{L_{\dot yy}}\dot y+{L_{\dot y\dot y}}\ddot y} \right)

= {L_y}\dot y-\dot y\left( {{L_{\dot yy}}\dot y+{L_{\dot y\dot y}}\ddot y} \right)

= \dot y\left( {{L_y}-{L_{\dot yy}}\dot y-{L_{\dot yy}}\ddot y} \right)

Die Rechnung ist gerechtfertigt, wenn y eine {C^2}-Funktion und L genügend oft stetig partiell differenzierbar ist. Durch die Multiplikation mit \dot y können “Pseudolösungen” hinzukommen. Zwar folgt (11) immer aus (10), aber umgekehrt folgt (10) aus (11) nur, wenn nicht \dot y = 0 auf einem t-Intervall ist. Stückweise konstante Funktionen muss man also von einer Lösung von (11) ausschließen.

Somit bekommen wir:

L = \sqrt {\frac{{1+{{\dot y}^2}}}{y}}

\Rightarrow \quad {L_y} = \sqrt {1+{{\dot y}^2}} \left( {-\frac{1}{2}} \right){y^{-\frac{3}{2}}} = -\frac{1}{2}\frac{{\sqrt {1+{{\dot y}^2}} }}{{{y^{\frac{3}{2}}}}}

\Rightarrow \quad {L_{\dot y}} = \frac{d}{{d\dot y}}{\left( {\frac{{1+{{\dot y}^2}}}{y}} \right)^{\frac{1}{2}}} = \frac{1}{2}{\left( {\frac{{1+{{\dot y}^2}}}{y}} \right)^{-\frac{1}{2}}} \cdot \frac{{2\dot y}}{y} = \frac{{\dot y}}{{\sqrt {y\left( {1+{{\dot y}^2}} \right)} }}

L-\dot y{L_{\dot y}} = \sqrt {\frac{{1+{{\dot y}^2}}}{y}} -\frac{{{{\dot y}^2}}}{{\sqrt {y\left( {1+{{\dot y}^2}} \right)} }} = c

für eine Konstante c \in \mathbb{R}. Multiplikation mit \sqrt {y\left( {1+{{\dot y}^2}} \right)} bringt:

\sqrt {\frac{{1+{{\dot y}^2}}}{y}} \sqrt {y\left( {1+{{\dot y}^2}} \right)} -\frac{{{{\dot y}^2}\sqrt {y\left( {1+{{\dot y}^2}} \right)} }}{{\sqrt {y\left( {1+{{\dot y}^2}} \right)} }} = c\sqrt {y\left( {1+{{\dot y}^2}} \right)}

\Rightarrow \quad \frac{{y\left( {1+{{\dot y}^2}} \right)}}{{{y^2}}}-{{\dot y}^2} = c\sqrt {y\left( {1+{{\dot y}^2}} \right)}

\Rightarrow \quad y = yc\sqrt {y\left( {1+{{\dot y}^2}} \right)}

\Rightarrow \quad y\left( {1+{{\dot y}^2}} \right) = \frac{1}{{{c^2}}} = :{c_0}

\Rightarrow \quad \dot y = \sqrt {\frac{{{c_0}-y}}{y}}

Das ist eine sogenannte separierte DGL (oder DGL mit getrennten Variablen). Solche DGL haben generell die Form

\dot y\left( t \right) = h\left( t \right)g\left( {y\left( t \right)} \right)\quad \Rightarrow \quad \frac{{\dot y}}{{g\left( {y\left( t \right)} \right)}} = h\left( t \right)

Seien G\left( y \right) = \int {\frac{{dy}}{{g\left( y \right)}}} und H\left( t \right) = \int {h\left( t \right)dt} zwei Stammfunktionen. Dann gilt:

\frac{d}{{dt}}G\left( {y\left( t \right)} \right) = {G^\prime }\left( {y\left( t \right)} \right)\dot y = \frac{1}{{g\left( {y\left( t \right)} \right)}}\dot y\left( t \right) = h\left( t \right) = \frac{d}{{dt}}H\left( t \right)

G\left( {y\left( t \right)} \right) = H\left( t \right)+\operatorname{const}

Als Merkregel kann man die mathematisch bedenkliche Schreibweise wählen:

\dot y = \frac{{dy}}{{dt}} = h\left( t \right)g\left( {y\left( t \right)} \right)\quad \Rightarrow \quad \frac{{dy}}{{g\left( {y\left( t \right)} \right)}} = h\left( t \right)dt\quad \Rightarrow \quad \int {\frac{{dy}}{{g\left( y \right)}} = \int {h\left( t \right)dt} }

Lösung:

\int_{{y_0}}^{y\left( t \right)} {\frac{{d\xi }}{{g\left( \xi \right)}}} = \int_{{t_0}}^t {h\left( \tau \right)d\tau }

Dieses Prinzip wenden wir nun auf unser Problem an. Wir bekommen eine Lösung y mit y\left( 0 \right) = 0 in der impliziten Form:

\int_0^{y\left( t \right)} {\sqrt {\frac{s}{{{c_0}-s}}} ds} = \int_0^t {1d\tau } = t\quad \quad \quad \quad \left( {12} \right)

Also brauchen wir eine Stammfunktion G = G\left( s \right) für den Integranden auf der linken Seite. Dafür machen wir die Substitution

s = \frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right) = {c_0}{\sin ^2}\frac{\alpha }{2}.

Es folgt

{c_0}-s = \frac{{{c_0}}}{2}\left( {1+\cos \alpha } \right) = {c_0}{\cos ^2}\frac{\alpha }{2}

und

ds = {c_0} \cdot 2\sin \frac{\alpha }{2} \cdot \cos \frac{\alpha }{2} \cdot \frac{1}{2}d\alpha = {c_0}\sin \frac{\alpha }{2} \cdot \cos \frac{\alpha }{2}d\alpha.

Daraus folgt für ein {y_0}:

\int_0^{{y_0}} {\sqrt {\frac{s}{{{c_0}-s}}} ds} = \int_0^{{\alpha _0}} {\sqrt {\frac{{{{\sin }^2}\frac{\alpha }{2}}}{{{{\cos }^2}\frac{\alpha }{2}}}} \cdot {c_0}\sin \frac{\alpha }{2} \cdot \cos \frac{\alpha }{2}d\alpha }

= {c_0}\int_0^{{\alpha _0}} {{{\sin }^2}\frac{\alpha }{2}d\alpha }

= \frac{{{c_0}}}{2}\int_0^{{\alpha _0}} {\left( {1-\cos \alpha } \right)d\alpha }

= \frac{{{c_0}}}{2}\left( {\alpha -\sin \alpha } \right)+C

wobei {\alpha _0} so zu wählen ist, dass s\left( {{\alpha _0}} \right) = {y_0}. Speziell bekommen wir für s\left( \alpha \right) = y\left( t \right) aus (12) G\left( {s\left( \alpha \right)} \right) = G\left( {y\left( t \right)} \right) = t die Lösung in einer nach \alpha parametrisierten Form:

\begin{array}{*{20}{c}}{t = \frac{{{c_0}}}{2}\left( {\alpha -\sin \alpha } \right) = G\left( {s\left( \alpha \right)} \right)} \\ {y = \frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right) = s\left( \alpha \right)} \end{array}\quad \quad \quad \quad \left( {13} \right)

Probe:

\frac{{dt}}{{d\alpha }} = \frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right) > 0,\quad \alpha \in \left( {0,2\pi } \right)

\frac{{d\alpha }}{{dt}} = \frac{1}{{\frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right)}}

y\left( \alpha \right) = \frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right) = y\left( {\alpha \left( t \right)} \right)

\dot y = \frac{{dy}}{{dt}} = \frac{{dy}}{{d\alpha }}\frac{{d\alpha }}{{dt}} = \frac{{{c_0}}}{2}\sin \alpha \cdot \frac{1}{{\frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right)}} = \frac{{\sin \alpha }}{{1-\cos \alpha }}

y\left( {1+{{\dot y}^2}} \right) = {c_0}

1+{{\dot y}^2} = \frac{{1-2\cos \alpha +{{\cos }^2}\alpha +{{\sin }^2}\alpha }}{{{{\left( {1-\cos \alpha } \right)}^2}}} = \frac{2}{{1-\cos a}}

y\left( {1+{{\dot y}^2}} \right) = \frac{{{c_0}}}{2}\left( {1-\cos \alpha } \right) \cdot \frac{2}{{1-\cos \alpha }} = {c_0}

Die parametrisierte Form ist also korrekt.

Die resultierende Kurve ist als Zykloidenbogen bekannt:

zykloidenbogen-losung-brachistochrone-problem

Der Parameter {c_0} ist so zu bestimmen, dass der gewünschte Endpunkt erreicht wird. Das ist immer möglich, wenn es für jedes t = a > 0 und y = b > 0 Werte {\alpha _0} und {c_0} gibt, so dass die Gleichungen (13) erfüllt sind. Dazu kann man zunächst den Quotienten \frac{b}{a} anschauen, der die Form

\frac{b}{a} = \frac{{1-\cos \alpha }}{{\alpha -\sin \alpha }} = :g\left( \alpha \right)

haben müsste. Tatsächlich lässt sich nachrechnen, dass g\left( \alpha \right) eine monoton fallende Funktion ist mit Grenzwerten

\mathop {\lim }\limits_{\alpha \downarrow 0} g\left( \alpha \right) = \infty und \mathop {\lim }\limits_{\alpha \uparrow 2\pi } g\left( \alpha \right) = 0.

Somit lässt sich ein eindeutiges {\alpha _0} angeben mit g\left( {{\alpha _0}} \right) = \frac{b}{a}. Anschließend braucht nur noch {c_0} so eingestellt werden, dass (13) passt.

Trotz der etwas langwierigen Rechnung haben wir jetzt das Problem der Brachistochrone immer noch nicht gelöst. Es ist nämlich noch nachzuweisen, dass die gefundene Extremale wirklich Lösung des Problems ist und nicht nur ein Kandidat dafür. Darauf kommen wir in Abschnitt 5 zurück.

Ähnliche Artikel

Kommentar verfassen