6 – Probleme mit Nebenbedingungen

 

Im Grunde haben wir von Anfang an Variationsaufgaben mit Nebenbedingungen betrachtet: In Aufgabe (A) etwa war bereits gefordert, dass Lösungen feste Randwerte annehmen. Ebenso hatten wir schon den Fall, dass eine Lösungskurve eine vorgegebene Kurve erreichen soll – dies hatte zur Transversalitätsbedingung geführt. Diese Arten von Nebenbedingungen ließen sich durch geeignete Wahl von Ansatzfunktionen abhandeln.

In diesem Abschnitt soll es um zwei andere Arten von Nebenbedingungen gehen, die in der Praxis wichtig sind. Zuerst betrachten wir sogenannte isoperimetrische Probleme. Bei diesen wird gefordert, dass die gesuchte Lösung gewisse Integralbedingungen erfüllen muss – der Prototyp hierfür ist das Problem der Dido. Die andere Art sind Nebenbedingungen in Gleichungsform, bei denen nicht nur wie in (A) eine Festlegung für einzelne (End)punkte der Lösung getroffen wird, sondern die Lösung in allen Punkten Nebenbedingungen erfüllen muss.

6.1 Isoperimetrische Probleme

Aufgabe (C): Isoperimetrisches Problem

Es seien \left( {{t_0},{y_0}} \right),\left( {{t_1},{y_1}} \right) \in {\mathbb{R}^2} mit {t_0} < {t_1}. Es seien L und G Funktionen wie die Lagrange-Funktion in Satz 3.7 (also stetig und stetig differenzierbar in den beiden letzen Variablen). Dann ist eine Lösung \hat y \in {C^1}\left[ {{t_0},{t_1}} \right] des Problems

J:D \to \mathbb{R},\quad J\left( y \right): = \int_{{t_0}}^{{t_1}} {L\left( {t,y\left( t \right),\dot y\left( t \right)} \right)dt} \mathop = \limits^! \operatorname{Extr}

gesucht, die die Nebenbedingungen y\left( {{t_0}} \right) = {y_0},\:\:y\left( {{t_1}} \right) = {y_1} und

I:D \to \mathbb{R},\quad I\left( y \right): = \int_{{t_0}}^{{t_1}} {G\left( {t,y\left( t \right),\dot y\left( t \right)} \right)dt} \mathop = \limits^! C

mit einer Konstanten C erfüllt.

Zunächst wird gezeigt, dass das berühmte Problem der Dido die Form von Aufgabe (C) hat. Das Problem der Dido lautet folgendermaßen:

Es seien a,b \in \mathbb{R} mit a < b und \ell > b-a. Gesucht ist eine Kurve vorgegebener Länge \ell, die A = \left( {a,0} \right) mit B = \left( {b,0} \right) verbindet und dabei mit der Strecke \overline {AB} die größte Fläche einschließt.

problem-dido-variationsrechnung-graph

Wir vereinfachen die Aufgabe, indem wir voraussetzen, die gesuchte Kurve sei durch eine {C^1}-Funktion y:\left[ {a,b} \right] \to \mathbb{R} gegeben. Dann haben wir das folgende Problem.

Definition: Problem der Dido

Maximiere das Funktional

J\left( y \right) = \int_a^b {y\left( t \right)dt} \mathop = \limits^! \max \quad \Rightarrow \quad -\int_a^b {y\left( t \right)dt} \mathop = \limits^! \min

unter allen Funktionen y \in {C^1}\left[ {a,b} \right], die die Nebenbedingungen

I\left( y \right) = \int_a^b {\sqrt {1+{{\dot y}^2}\left( t \right)} dt} = \ell = \operatorname{const}

sowie

y\left( a \right) = y\left( b \right) = 0

erfüllen.

Diese Aufgabe ist in der Tat von der Form der Aufgabe (C). Als Funktion G haben wir hier

G\left( {t,y,\dot y} \right) = \sqrt {1+{{\dot y}^2}}

(in einer mathematisch zweifelhaften, aber suggestiven Schreibweise, in der y und \dot y die Doppelbedeutung von Funktionen und Variablen haben).

Für Optimierungsprobleme im {\mathbb{R}^n} mit Nebenbedingungen in Form von Gleichungen und Ungleichungen hatten wir in den Sätzen 2.8 und 2.11 notwendige Optimalitätsbedingungen formuliert.

Auch bei der Optimierung in Funktionenräumen gibt es eine Lagrange-Theorie und es kann unter gewissen Regularitätsbedingungen die Existenz von Lagrange-Multiplikatoren wie im Satz von Kuhn-Tucker gezeigt werden. Solche Aussagen sind allerdings schwierig zu beweisen und erfordern einen Einstieg in die funktionalanalytische Theorie der Dualräume. Es ist andererseits sehr einfach möglich, die Idee eines Lagrange-Ansatzes zu motivieren. Grundlage dabei ist das folgende Lemma.

Lemma 6.1: Lagrange-Lemma

Es sei M eine beliebige Menge und J:M \to \mathbb{R}, g = \left( {{g_1}, \ldots ,{g_m}} \right):M \to {\mathbb{R}^m} und h = \left( {{h_1}, \ldots ,{h_p}} \right):M \to {\mathbb{R}^p}. Die Funktion J ist auf der sogenannten Restriktionsmenge

S: = \left\{ {y \in M:g\left( y \right) = 0,h\left( y \right) \leq 0} \right\}

zu minimieren.

Es seien \lambda \in {\mathbb{R}^m} und \mu \in \mathbb{R}_{ \geq 0}^p so, dass

\hat y \in \bar S: = \left\{ {y \in S:\sum\limits_{j = 1}^p {{\mu _j}{h_j}\left( y \right) = 0} } \right\}

eine Minimallösung der Funktion

J+\sum\limits_{i = 1}^m {{\lambda _i}{g_i}} +\sum\limits_{j = 1}^p {{\mu _j}{h_j}}

auf M ist. Dann ist \hat y eine Minimallösung von J auf S.

Bemerkungen

  1. Die Menge M kann insbesondere eine Teilmenge eines Funktionenraums sein, z.B.

    M = \left\{ {y \in {C^1}\left[ {{t_0},{t_1}} \right]:y\left( {{t_0}} \right) = {y_0},y\left( {{t_1}} \right) = {y_1}} \right\}

    im Fall von Variationsaufgabe (C).

  2. Das Lagrange-Lemma behandelt einen viel allgemeineren Fall als den von Variationsaufgabe (C):
    • Die Menge M kann auch eine Menge von Kurven und nicht nur von skalaren Funktionen sein. Ebenso ist das Auftreten höherer Ableitungen oder mehrerer unabhängiger Variablen erlaubt
    • es können mehrere Nebenbedingungen vorkommen
    • Ungleichungsnebenbedingungen sind erlaubt
    • Nebenbedingungen müssen nicht die Integralform wie das Funktional I in (C) haben
  3. Spezialisierung des Lemmas auf Gleichungsnebenbedingungen: Setze alle {h_j} = 0, insbesondere S = \left\{ {y \in M:g\left( y \right) = 0} \right\}. Die Menge S wird nicht mehr benötigt.
  4. Anwendung auf die Variationsaufgabe (C): Setze m = 1 und {g_1} = I als einzige Gleichungsnebenbedingung.

Beweis von Lemma 6.1

Für beliebiges y \in S haben wir wegen der Voraussetzungen an \hat y

J\left( {\hat y} \right) = J\left( {\hat y} \right)+\sum\limits_{i = 1}^m {{\lambda _i}{g_i}\left( {\hat y} \right)} +\sum\limits_{j = 1}^p {{\mu _j}{h_j}} \left( {\hat y} \right)

\leq J\left( y \right)+\sum\limits_{i = 1}^m {{\lambda _i}{g_i}\left( y \right)} +\sum\limits_{j = 1}^p {{\mu _j}{h_j}} \left( y \right) \leq J\left( y \right)

und mehr ist nicht zu zeigen.

Der Beweis ist deswegen so einfach, weil die Aussage des Lagrange-Lemmas nicht sehr weit reicht: Sowohl die Existenz der Multiplikatoren wird vorausgesetzt (und nicht etwa deren Existenz vorhergesagt) als auch die Existenz einer Minimallösung \hat y \in \bar S \subset S, die alle Nebenbedingungen erfüllt.

Trotz seiner Einfachheit beinhaltet das Lagrange-Lemma die großartige Idee, die Nebenbedingungen direkt an die zu minimierende Funktion zu koppeln. Man kann deswegen das Lemma 6.1 in Form eines Ansatzes für den gesuchten Minimierer verwenden.

Zur Anwendung des Lagrange-Lemmas bei der Lösung von Variationsaufgabe (C) geht man nach folgendem Rezept vor:

  1. Man bilde die erweiterte Lagrange-Funktion

    F\left( {t,y,\dot y} \right) = L\left( {t,y,\dot y} \right)+\lambda G\left( {t,y,\dot y} \right)

    mit einer noch unbekannten Konstanten \lambda.

  2. Man versuche, das zugehörige Funktional

    \bar J\left( y \right) = \int_{{t_0}}^{{t_1}} {F\left( {t,y\left( t \right),\dot y\left( t \right)} \right)dt}

    zu minimieren. Dazu ist in der Regel die Lösung der Euler-Gleichung

    \frac{d}{{dt}}{F_{\dot y}} = {F_y}

    erforderlich.

  3. Man versuche, den Parameter \lambda so zu bestimmen, dass der Minimierer von \bar J (die Extremalen von \bar J) auch noch die Nebenbedingung erfüllen. Das bedeutet, dass neben der Euler-Gleichung noch eine weitere Gleichung für die zusätzlich ins Spiel gebrachte Unbekannte zu lösen ist.

Gelingt die Ausführung dieser Schritte, dann hat man nach Lemma 6.1 die Gewähr, einen Minimierer von J gefunden zu haben, der die Nebenbedingung erfüllt.

Umgekehrt sagt das Lemma 6.1 jedoch nicht, dass diese Vorgehensweise immer funktioniert. Insbesondere wird nicht ausgesagt, dass es immer eine Konstante \lambda so gibt, dass der Minimierer von J unter der Nebenbedingung I unter den Extremalen von \bar J zu finden ist. Tatsächlich lässt sich die Existenz eines solchen \lambda beweisen, wenn die Nebenbedingung eine gewisse Regularitätsbedingung erfüllt.

Beispiel 6.2: Lösung des Problems der Dido

Wir können die Menge M definieren als

M: = \left\{ {y \in {C^1}\left[ {a,b} \right]:y\left( a \right) = 0 = y\left( b \right)} \right\}.

Die Randbedingungen stecken damit bereits in M und wir können mit der Notation von Lemma 6.1 h: = 0 und

g:M \to \mathbb{R},\quad y \mapsto g\left( y \right) = \int_a^b {\sqrt {1+{{\dot y}^2}} dt} -\ell

setzen. Die Maximierung, die beim Problem der Dido gefordert ist, lässt sich ebenso ausdrücken als Minimierung von

J:M \to \mathbb{R},\quad y \mapsto J\left( y \right) = -\int_a^b {y\left( t \right)dt}

auf der Restriktionsmenge

S: = \left\{ {y \in M:g\left( y \right) = 0,h\left( y \right) \leq 0} \right\}.

Gemäß dem Lagrange-Lemma suchen wir ein \lambda \in \mathbb{R} so, dass ein \hat y \in S Minimallösung von J+\lambda g auf m ist. \hat y minimiert also

J\left( y \right)+\lambda g\left( y \right) = -\int_a^b {y\left( t \right)dt} +\lambda \left( {\int_a^b {\sqrt {1+{{\dot y}^2}\left( t \right)} dt} -\ell } \right)

= \int_{}^{} {\left( {-y\left( t \right)+\lambda \sqrt {1+{{\dot y}^2}\left( t \right)} -\frac{{\lambda \ell }}{{b-a}}} \right)dt}

auf M. Dies ist eine Variationsaufgabe wie Aufgabe (A). Die zugehörige Lagrange-Funktion lautet

L:\left[ {a,b} \right] \times {\mathbb{R}^2} \to \mathbb{R},\quad \left( {t,p,q} \right) \mapsto L\left( {t,p,q} \right) = -p+\lambda \sqrt {1+{q^2}} -\frac{{\lambda \ell }}{{b-a}}

und ist für jedes feste t und \lambda \geq 0 konvex in \left( {p,q} \right) (so wie auch M eine konvexe Menge ist), so dass ein Erfüllen der Euler-Gleichung für \lambda \geq 0 bereits hinreichend für eine Minimallösung ist.

Die Lagrange-Funktion hängt nicht explizit von t ab – ein Fall, den wir schon in Beispiel 3.9 hatten und der auf Gleichung (11), nämlich L-\dot y{L_{\dot y}} = C mit einer Konstanten C, geführt hatte. Diese Gleichung lautet jetzt für unser konkretes L

-y+\lambda \sqrt {1+{{\dot y}^2}} -\frac{{\lambda \ell }}{{b-a}}-\dot y\frac{{\lambda \dot y}}{{\sqrt {1+{{\dot y}^2}} }} = C.

Multiplikation mit \sqrt {1+{{\dot y}^2}} liefert

-y\sqrt {1+{{\dot y}^2}} +\lambda \left( {1+{{\dot y}^2}} \right)-\frac{{\lambda \ell }}{{b-a}}\sqrt {1+{{\dot y}^2}} -\lambda {\dot y^2} = C\sqrt {1+{{\dot y}^2}},

was wir zu

\sqrt {1+{{\dot y}^2}} \left( {-a-\frac{{\lambda \ell }}{{b-a}}-C} \right)+\lambda = 0

zusammenfassen und in der Form

\left( {y-\bar C} \right)\sqrt {1+{{\dot y}^2}} = \lambda

schreiben können mit einer neuen Konstanten \bar C = -C-\frac{{\lambda \ell }}{{b-a}}. Durch Quadrieren kommen wir auf

{\left( {y-\bar C} \right)^2}+{\dot y^2}{\left( {y-\bar C} \right)^2} = {\lambda ^2}\quad \quad \quad \quad \left( {29} \right)

An dieser Stelle rechnen wir erst einmal “drauf los” und bringen (29) in die Form einer separierbaren DGL, nämlich

\frac{{\left( {y-\bar C} \right)\dot y}}{{\sqrt {{\lambda ^2}-{{\left( {y-\bar C} \right)}^2}} }} = 1,

deren implizite Lösung

-\sqrt {{\lambda ^2}-{{\left( {y-\bar C} \right)}^2}} = t-D

lautet mit einer weiteren Konstanten D. Dies führt auf

y = \bar C+\sqrt {{\lambda ^2}-{{\left( {t-D} \right)}^2}} \quad \quad \quad \quad \left( {30} \right)

Diese Rechnung war allerdings ziemlich sorglos: Wurzelziehen und Dividieren sollte man mathematisch absichern. Geht man zurück zu (29), dann lässt sich jetzt im Licht von (30) der Ansatz

\dot y{\left( t \right)^2}{\left( {y\left( t \right)-\tilde C} \right)^2} = {\left( {t-D} \right)^2}\quad \forall t \in \left[ {a,b} \right]

motivieren, aus dem

{\left( {y\left( t \right)-\tilde C} \right)^2}+{\left( {t-D} \right)^2} = {\lambda ^2}

folgt: Mit diesem Ansatz erhalten wir als Lösungen y\left( t \right) Kreisbögen in {\mathbb{R}^2} mit Mittelpunkt \left( {D,\tilde C} \right) und Radius \lambda. Damit die Bedingung y\left( a \right) = 0 = y\left( b \right) erfüllt ist, muss D = \frac{{a+b}}{2} gelten.

Im Fall b-a < \ell < \pi \frac{{b-a}}{2} könnte der Mittelpunkt \left( {D,\tilde C} \right) unterhalb oder oberhalb der t-Achse liegen, je nachdem ob \tilde C < 0 oder \tilde C > 0 gilt. Im ersten Fall ist y\left( t \right) \geq 0 und im zweiten Fall ist y\left( t \right) \leq 0, also kommt für eine Optimallösung nur \tilde C < 0 in Frage.

Im besagten Fall b-a < \ell < \pi \frac{{b-a}}{2} bekommt man dann gerade wieder (30) zurück – woraus man sieht, dass der Ansatz berechtigt war. Aus der Nebenbedingung \int\limits_a^b {\sqrt {1+{{\dot y}^2}} dt} = \ell ergibt sich dann \tilde C. Schließlich erhält man \lambda \geq 0 aus dem Satz von Pythagoras:

{\tilde C^2}+{\left( {\frac{{b-a}}{2}} \right)^2} = {\lambda ^2}.

Ungemütlicher wird es im Grenzfall \ell = \pi \frac{{b-a}}{2}, denn dann ist die Lösung (30) ein voller Halbkreis und keine {C^1}-Funktion mehr, sondern enthält Singularitäten – wie wir es schon von der Brachistochrone kennen.

Aufgabe (C) lässt sich verallgemeinern: Wir können Extremalkurven \vec x statt skalarer Funktionen y suchen und mehrere statt einer Nebenbedingung stellen. Diese Fälle sind im Lagrange-Lemma 6.1 eingeschlossen, wie bereits oben bemerkt. Die allgemeine isoperimetrische Aufgabe lautet

\min \int\limits_a^b {L\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)dt} ,\quad \vec x:\left[ {a,b} \right] \to {\mathbb{R}^n},\quad \vec x \in {C^1}\left[ {a,b} \right]

udNB\quad \int\limits_a^b {{L_i}\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)dt} = {c_i},\quad i = 1, \ldots ,m,

wobei L und {L_i} Lagrange-Funktionen analog wie in Aufgabe (C) und die {c_i} Konstanten sind. Der Lagrange-Ansatz gemäß Lemma 6.1 besteht dann darin, die Funktion

{L_\lambda }\left( {\vec x} \right): = \int\limits_a^b {\left( {L\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)+\sum\limits_{i = 1}^m {{\lambda _i}\left( {{L_i}\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)-{c_i}} \right)} } \right)dt}

zu minimieren. Ungleichungs-Nebenbedingungen können nach demselben Muster mit Lagrange-Multiplikatoren {\mu _j} \geq 0 behandelt werden, siehe das Lagrange-Lemma.

6.2 Nebenbedingungen in Gleichungsform

Jetzt geht es um Nebenbedingungen, die den Verlauf der Lösungskurve in allen Punkten einschränken. Wir betrachten die folgende Variationsaufgabe.

Aufgabe (D): Variationsaufgabe mit Nebenbedingungen in Gleichungsform

Es seien a,b \in \mathbb{R} mit a < b und F,G:\left[ {a,b} \right] \times {\mathbb{R}^n} \times {\mathbb{R}^n} \to \mathbb{R} stetige Funktionen, in den beiden letzten (vektorwertigen) Komponenten stetig partiell differenzierbar. Dann ist eine {C^1}-Kurve \hat \vec x:\left[ {a,b} \right] \to {\mathbb{R}^n} zu finden, die das folgende Problem

J\left( {\vec x} \right): = \int\limits_a^b {F\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)dt} \mathop = \limits^! \operatorname{Extr}

unter der Nebenbedingung

G\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right) = 0,\quad a \leq t \leq b

löst.

Beispiel 6.3: Algebraische Gleichung als Nebenbedingung

Die Nebenbedingung kann eine algebraische Gleichung für \vec x sein, etwa mit n = 3:

G\left( {t,\vec x,\dot \vec x} \right) = \left\| {\vec x\left( t \right)} \right\|_2^2-1 = {x_1}{\left( t \right)^2}+{x_2}{\left( t \right)^2}+{x_3}{\left( t \right)^2}-1 = 0.

Das wäre die Forderung, dass zur Konkurrenz nur Kurven auf der Einheitssphäre im {\mathbb{R}^3} zugelassen sind. Mit

J\left( {\vec x} \right) = \int\limits_a^b {{{\left\| {\dot \vec x\left( t \right)} \right\|}_2}dt}

bedeutet das: Gesucht sind kürzeste Entfernungen auf der dreidimensionalen Einheitssphäre. Kürzeste Kurven nennt man Geodätische.

Eine andere Form der Nebenbedingung wäre eine Differentialgleichung für \vec x. Diese Art der Nebenbedingung ist typisch für die Steuerungstheorie und wir werden sie in Abschnitt 7 aufgreifen.

Auch zur Lösung der Aufgabe (D) wird wieder die Lagrange-Idee herangezogen, wie sie in Lemma 6.1 zum Ausdruck kam. Der wesentliche Punkt dabei war der, das zu minimierende Funktional J (das sogenannte Zielfunktional) zu ergänzen um den Ausdruck

\sum\limits_{i = 1}^m {{\lambda _i}{g_i}\left( y \right)} +\sum\limits_{j = 1}^p {{\mu _j}{h_j}\left( y \right)},

der auf der durch die Nebenbedingungen definierten Menge konstant gleich null ist. Der Ansatz geht bei Gleichungs-Nebenbedingungen glatt durch, wenn man statt der ersten Summe eine allgemeinere Ergänzung wählt. Hier die offizielle Formulierung.

Lemma 6.4: Allgemeines Lagrange-Lemma

Es sei M eine beliebige Menge und J:M \to \mathbb{R} und g = \left( {{g_1}, \ldots ,{g_m}} \right):M \to {\mathbb{R}^m}. Die Funktion J ist auf der Restriktionsmenge

S: = \left\{ {y \in M:\quad g\left( y \right) = 0} \right\}

zu minimieren.

Es sei \Lambda :M \to \mathbb{R} eine Funktion, die auf der Menge S konstant gleich null ist: {\left. \Lambda \right|_S} = 0. Außerdem sei \Lambda so gewählt, dass eine Lösung \hat y von

J\left( y \right)+\Lambda \left( y \right)\mathop = \limits^! \operatorname{Extr} ,\quad y \in M

in S liegt: \hat y \in S. Dann ist \hat y eine Minimallösung von J auf S.

Beweis

Für beliebiges y \in S haben wir wegen der Voraussetzungen an \hat y

J\left( {\hat y} \right) = J\left( {\hat y} \right)+\Lambda \left( {\hat y} \right) \leq J\left( y \right)+\Lambda \left( y \right) = J\left( y \right)

und damit ist schon alles gezeigt.

Die Bemerkungen zu Lemma 6.1 gelten auch hier:

  1. Die Menge M kann insbesondere eine Teilmenge eines Funktionenraums sein, z.b.

    M = \left\{ {\vec x:\left[ {a,b} \right] \to {\mathbb{R}^n}:\vec x \in {C^1}\left[ {a,b} \right]} \right\}

    im Fall von Variationsaufgabe (D)

  2. Das allgemeine Lemma von Lagrange behandelt einen viel allgemeineren Fall als den von Variationsaufgabe (D):
    • die Menge M kann Funktionen mit höheren Ableitungen oder mehreren unabhängigen Variablen beinhalten
    • es können mehrere Nebenbedingungen vorkommen
  3. Anwendung auf die Variationsaufgabe (D): Setze m = 1 und {g_1} = G als einzige Gleichungsnebenbedingung

Beispiel 6.5: Variable Lagrange-Multiplikatoren

Man kann statt konstanter Faktoren {\lambda _i} Funktionen {\lambda _i} ansetzen, also

\lambda = \left( {{\lambda _1}, \ldots ,{\lambda _m}} \right):M \to {\mathbb{R}^m}

und die Funktion \Lambda von der folgenden Form wählen:

\Lambda :M \to \mathbb{R},\quad y \mapsto \sum\limits_{i = 1}^m {{\lambda _i}\left( y \right){g_i}\left( y \right)}.

Dies ist die naheliegendste Erweiterung der “klassischen” Methode der Lagrange-Multiplikatoren.

Beispiel 6.6: Variable Multiplikatoren für Aufgabe (D)

In diesem Fall ist M = \left\{ {\vec x:\left[ {a,b} \right] \to {\mathbb{R}^n}:\vec x \in {C^1}\left[ {a,b} \right]} \right\}. Mit einer stetigen Funktion

\lambda :\left[ {a,b} \right] \to \mathbb{R}

definieren wir

\Lambda :M \to \mathbb{R},\quad \vec x \mapsto \int\limits_a^b {\lambda \left( t \right)G\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)dt} .\quad \quad \quad \quad \left( {31} \right)

Der Vorteil hiervon ist, dass die Erweiterungsfunktion \Lambda nun ebenfalls die Integralform von J besitzt. Die Optimierung der Funktion J+\Lambda führt damit wieder auf die Euler-Gleichung für die erweiterte Lagrange-Funktion

L\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right) = F\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)+\lambda \left( t \right)G\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right),\quad \quad \quad \quad \left( {32} \right)

wie wir es schon bei der isoperimetrischen Aufgabe hatten.

Es sind natürlich auch Varianten von (31) möglich. So könnten wir statt mit \lambda \left( t \right) mit Funktionen \lambda \left( {g\left( t \right)} \right) hantieren – dies würde nichts Grundsätzliches ändern. Genauso kann man bei Aufgabe (D) mehrere Nebenbedingungen gleichzeitig behandeln: G:\left[ {a,b} \right] \times {\mathbb{R}^n} \times {\mathbb{R}^n} \to {\mathbb{R}^m}. Dann ist auch \lambda \left( t \right) als vektorwertige Kurve \lambda :\left[ {a,b} \right] \to {\mathbb{R}^m} zu wählen und aus (31) wird

\Lambda \left( {\vec x} \right) = \int\limits_a^b {\sum\limits_{i = 1}^m {{\lambda _i}\left( t \right){G_i}\left( {t,\vec x\left( t \right),\dot \vec x\left( t \right)} \right)} dt}.

Das allgemeine Lagrange-Lemma 6.4 in Form des Ansatzes aus Beispiel 6.6 wird also nach dem gleichen Rezept angewandt wie das Lemma 6.1:

  1. Man bildet die erweiterte Lagrange-Funktion (32) und damit das erweiterte Funktional J+\Lambda mit einer noch unbekannten Funktion \lambda \left( t \right).
  2. Man versucht, das erweiterte Funktional J+\Lambda zu minimieren und gleichzeitig die Funktion \lambda \left( t \right) so zu wählen, dass der Minimierer die Nebenbedingung erfüllt.

Analog geht man bei mehreren Nebenbedingungen vor. Gelingt die Ausführung dieser Schritte, hat man nach Lemma 6.4 einen Minimierer von J unter der Nebenbedingung G gefunden.

Wiederum sagt Lemma 6.4 nichts darüber aus, ob es die gesuchte Funktion \lambda \left( t \right) (bzw. bei mehreren Nebenbedingungen die Funktionen {\lambda _i}\left( t \right)) tatsächlich gibt bzw. ob es immer ein \lambda \left( t \right) so gibt, dass sich der Minimierer von J unter der Nebenbedingung G unter den Extremalen von J+\Lambda befindet. Eine entsprechende Existenzaussage gilt jedoch tatsächlich, wenn die Nebenbedingung(en) eine gewisse Regularitätsvoraussetzung erfüllen.

Die bekannteste konkrete Aufgabe vom Typ (D) ist es, geodätische Kurven zu finden, zum Beispiel kürzeste Entfernungen auf Sphären wie in Beispiel 6.3. Wir wollen stattdessen den in Beispiel 6.6 formulierten Ansatz anwenden, um ein Beispiel aus der Signalverarbeitung zu lösen.

Beispiel 6.7: Optimaler Nyquist-Entzerrer

Wir betrachten folgendes Modell einer Übertragungsstrecke für ein Basisband-Signal, bei dem {h_E}\left( t \right) eine gesuchte Funktion ist:

optimaler-nyquist-entzerrer-variationsrechnung

Dazu folgende – sehr knapp gehaltene- Erklärungen (vergleiche “Digital Communication, 3rd Edition” von John R. Barry, Edward A. Lee und David G. Messerschmidt, Springer Verlag, 2003).

Ein zu übertragendes digitales (d.h. diskretes) Signal {\left\{ {{a_k}} \right\}_{k \in \mathbb{Z}}} \subset \mathbb{C} durchläuft im Transmitter (TX) einen sogenannten pulse shaping filter. Mathematisch bedeutet dies, dass ein analoges Signal der Form

s\left( t \right): = \sum\limits_{k = -\infty }^\infty {{a_k}{h_S}\left( {t-kT} \right)}

erzeugt wird mit T > 0. Das Signal s\left( t \right) soll übertragen werden. Bei der Übertragung kommt es zur Mehrwegausbreitung, das heißt das Signal wird mit zeitlich versetzten, gewichteten Kopien seiner selbst überlagert. Dieser Effekt lässt sich als Faltung mit einer Funktion {h_K}\left( t \right) beschreiben, das heißt der Übertragungskanal verzerrt das Signal s\left( t \right) zu

g\left( t \right) = \left( {s * {h_K}} \right)\left( t \right) = \int_0^{{T_D}} {s\left( {t-\tau } \right){h_K}\left( \tau \right)d\tau }.

Hier ist {T_D} der delay spread oder die “Länge des Kanals” (maximale Verzögerung) und {h_K}\left( t \right) ist die Kanalimpulsantwort (channel impulse response – CIR), die man erhält, wenn man einen Diracimpuls sendet.

delay-spread-nyquist-entzerrer

Eine zusätzliche Störung erfährt das Signal durch sogenanntes additives weißes Rauschen. Hierbei handelt es sich nicht um eine auf Zufallseinflüssen basierende Störung, die man in der Wahrscheinlichkeitstheorie durch stochastische Prozesse beschreibt. Wir können an dieser Stelle keine Erörterung stochastischer Prozesse einflechten, insbesondere keine des mathematisch überhaupt nicht trivialen weißen Rauschens. Man kann sich den Einfluss des Rauschens aber so vorstellen, dass zum Signal g\left( t \right) additiv ein weiteres Signal n\left( t \right) hinzukommt. Im Empfänger kann man niemals g\left( t \right) separat beobachten, sondern stets nur \hat g\left( t \right): = g\left( t \right)+n\left( t \right).

Aufgabe des Empfängers ist es, das originale Signal \left\{ {{a_k}} \right\} zu rekonstruieren – in der Sprache der Statistik: zu schätzen – wobei nur das Signal \hat g\left( t \right) zur Verfügung steht und vorausgesetzt wird, {h_S} sowie {h_K} seien bekannt. Wir schreiben vor, dass die Schätzung in zwei Stufen ablaufen soll. Erstens soll \hat g\left( t \right) einen weiteren Filter durchlaufen (der Schätzer soll linear sein)

\hat r\left( t \right): = \left[ {\hat g * {h_E}} \right]\left( t \right): = \int_{-\infty }^\infty {\hat g\left( {t-\tau } \right){h_E}\left( \tau \right)d\tau },

mit einem zu bestimmenden Filterkern {h_E}. Zweitens wird \hat r\left( t \right) abgetastet, also in eine diskrete (digitale) Zahlenfolge {\left\{ {{d_k}} \right\}_k} \subset \mathbb{C} verwandelt. Es ist

{d_k}: = \hat r\left( {k \cdot T} \right),\quad k \in \mathbb{Z},

wobei T wie oben der Abstand zwischen zwei Samples (Abtastwerten) kT und \left( {k+1} \right)T ist.

Wir können formal jeden Abtastwert {d_k} in der Form {d_k} = d_k^A+d_k^B schreiben mit

d_k^A: = r\left( {kT} \right): = {\left. {\int_{-\infty }^\infty {g\left( {t-\tau } \right){h_E}\left( \tau \right)d\tau } } \right|_{t = kT}}

und

d_k^B: = {d_k}-d_k^A.

Es entspricht also d_k^A dem deterministischen Wert, der durch den Einfluss der Filter {h_S}, {h_K} und {h_E} zustande kommt und d_k^B dem Einfluss, der durch das zufällige Rauschen und anschließende Filterung mit {h_E} zustande kommt.

Wir wollen offenbar d_k^A = {a_k} erreichen, doch genügt diese Forderung alleine noch nicht. Da wir nämlich niemals Zugriff auf das Signalr\left( t \right) bekommen, sondern immer nur auf \hat r\left( t \right), bekommen wir auch immer nur “gestörte” Werte {d_k} = d_k^A+d_k^B zu Gesicht. Wir müssen uns deswegen darum kümmern, dass die Anteile d_k^B “klein werden”.

Es ist günstig, diese Aufgabenstellung “im Frequenzraum” exakt zu formulieren. Dazu einige weitere Erläuterungen: Die Fourier-Transformierte einer Funktion g ist definiert durch

G\left( f \right): = \int_{-\infty }^\infty {g\left( t \right){e^{-2\pi itf}}dt},

wobei i = \sqrt {-1} die imaginäre Einheit ist. An dieser Stelle kümmern wir uns nicht um Voraussetzungen, unter denen die Fourier-Transformierte oder andere der folgenden Rechenoperationen definiert sind. Die Beziehung zwischen einer Funktion und ihrer Transformierten drücken wir wie üblich durch

g\left( t \right)\:\:\: \circ - \bullet \:\:\:G\left( f \right)

aus und folgen dabei der Konvention, dass die Zeitfunktion mit einem kleinen und die Fourier-Transformation mit einem großen Buchstaben bezeichnet wird. Wir können annehmen, dass {h_E}\left( t \right) genau dann bekannt ist, wenn {H_E}\left( f \right) bekannt ist.

Die drei Filter {h_S}, {h_K} und {h_E} hintereinander wirken wir ein einziger Filter mit Kern {h_E} * {h_K} * {h_E}, welcher die Fourier-Transformierte

{H_S}\left( f \right) \cdot {H_K}\left( f \right) \cdot {H_E}\left( f \right)

hat. Aus der Nachrichtentechnik ist bekannt, dass d_k^A = {a_k}, wenn das sogenannte Nyquist-Kriterium erfüllt ist:

\sum\limits_{k = -\infty }^\infty {\left( {{H_S}\left( {f-\frac{k}{T}} \right){H_K}\left( {f-\frac{k}{T}} \right){H_E}\left( {f-\frac{k}{T}} \right)} \right)} = T\quad \quad \quad \quad \left( {33} \right)

Gleichzeitig soll {H_E} so gewählt sein, dass der störende Einfluss der Samples d_k^B so klein wie möglich gemacht wird. Ein dafür oft herangezogenes Kriterium ist das der Minimierung der Rauschenergie. Die Rauschenergie ergibt sich zu

\frac{N}{2}\int_{-\infty }^\infty {{{\left| {{H_E}\left( f \right)} \right|}^2}df} \quad \quad \quad \quad \left( {34} \right)

wobei N die Energie des additiven weißen Rauschens ist.

Wir können nun weiter voraussetzen, {h_S} sei ein bandbeschränkter Filter. Das heißt, dass {H_S}\left( f \right) = 0 für \left| f \right| > W mit einem W > 0. Eine solche Einschränkung besteht in der Praxis immer, weil in jedem Übertragungsstandard vorgeschrieben ist, dass nur ein bestimmtes Frequenzband zur Signalübertragung genutzt werden darf. Dann können wir aber ebenso voraussetzen, dass {h_E} bandbeschränkt mit Bandbreite W ist. Man macht sich schnell klar (siehe etwa “Digital Communications”, 4th Edition, John G. Proakis, McGraw-Hill, S. 556 ff.), dass dann das Nyquist-Kriterium nur erfüllbar ist, wenn T \geq \frac{1}{{2W}} und genau dies wollen wir ab jetzt auch voraussetzen.

Durch die Bandbeschränktheit werden der Integrationsbereich in (34) und die Summation in (33) endlich. Wir dürfen zum Beispiel ohne Weiteres

\int_{-\infty }^\infty {{{\left| {{H_E}\left( f \right)} \right|}^2}df} = \int_{-\frac{1}{{2T}}}^{\frac{1}{{2T}}} {\sum\limits_{k = -\infty }^\infty {{{\left| {{H_E}\left( {f-\frac{k}{T}} \right)} \right|}^2}} df}

schreiben.

Das beschriebene Problem soll nun in die Fassung der Aufgabe (D) gebracht werden. Wir schreiben dazu im Folgenden \vec x für die gesuchte Funktion {H_E}:\mathbb{R} \to \mathbb{C}. Da wir komplexe Zahlen als Vektoren in {\mathbb{R}^2} auffassen können, suchen wir eine Kurve

\vec x:\left[ {-W,W} \right] \to {\mathbb{R}^2},\quad f \mapsto \vec x\left( f \right) = \left( {\begin{array}{*{20}{c}}{{x_1}\left( f \right)} \\ {{x_2}\left( f \right)} \end{array}} \right),

wobei {x_1} für den Realteil und {x_2} für den Imaginärteil von \vec x steht. Für die uns bekannte komplexwertige Funktion {H_S}{H_K} haben wir ebenfalls {H_S}\left( f \right) = 0 für \left| f \right| > W und schreiben für {H_S}{H_K} abkürzend \vec g:\left[ {-W,W} \right] \to {\mathbb{R}^2}, fassen diese komplexwertige Funktion also ebenfalls als reellwertige Kurve auf.

Mit der Regel der komplexen Multiplikation wird aus (33) die Nebenbedingung G\left( {f,\vec x\left( f \right)} \right) = 0 mit G = \left( {{G_1},{G_2}} \right) und

{G_1}\left( {f,\vec x\left( f \right)} \right) = \sum\limits_{k = -\infty }^\infty {\left( {{g_1}\left( {f-\frac{k}{T}} \right){x_1}\left( {f-\frac{k}{T}} \right)-{g_2}\left( {f-\frac{k}{T}} \right){x_2}\left( {f-\frac{k}{T}} \right)} \right)} -T

{G_2}\left( {f,\vec x\left( f \right)} \right) = \sum\limits_{k = -\infty }^\infty {\left( {{g_1}\left( {f-\frac{k}{T}} \right){x_2}\left( {f-\frac{k}{T}} \right)+{g_2}\left( {f-\frac{k}{T}} \right){x_1}\left( {f-\frac{k}{T}} \right)} \right)}

und das Zielfunktional hat die Form

J\left( {\vec x} \right): = \frac{N}{2}\int_{-\frac{1}{{2T}}}^{\frac{1}{{2T}}} {\sum\limits_{k = -\infty }^\infty {\left( {{{\left[ {{x_1}\left( {f-\frac{k}{T}} \right)} \right]}^2}+{{\left[ {{x_2}\left( {f-\frac{k}{T}} \right)} \right]}^2}} \right)} df}

Unsere Aufgabe besteht darin, das Funktional J unter Beachtung der Nebenbedingung G\left( {f,\vec x\left( f \right)} \right) = 0 zu minimieren und das ist gerade eine Aufgabe vom Typ (D). Zur Lösung machen wir einen Ansatz gemäß Beispiel 6.6 mit einer variablen Multiplikatorfunktion \lambda :\mathbb{R} \to {\mathbb{R}^2}. Wir bekommen dann wie in Beispiel 6.6 die Lagrange-Funktion gemäß (32), wobei wir abkürzend {f_k}: = f-\frac{k}{T} schreiben:

L\left( {f,\vec x\left( f \right),\dot \vec x\left( f \right)} \right) = \sum\limits_{k = -\infty }^\infty {\frac{N}{2}\left[ {x_1^2\left( {{f_k}} \right)+x_2^2\left( {{f_k}} \right)} \right]} +

-{\lambda _1}\left( f \right)\left[ {{g_1}\left( {{f_k}} \right){x_1}\left( {{f_k}} \right)-{g_2}\left( {{f_k}} \right){x_2}\left( {{f_k}} \right)-T} \right]

-{\lambda _2}\left( f \right)\left[ {{g_1}\left( {{f_k}} \right){x_2}\left( {{f_k}} \right)+{g_2}\left( {{f_k}} \right){x_1}\left( {{f_k}} \right)} \right]

Diese Lagrange-Funktion ist konvex in \left( {\vec x,\dot \vec x} \right) und jede Lösung der Euler-Gleichung ist damit ein Minimierer.

Da L nicht von \dot \vec x abhängt, lauten die Euler-Gleichungen ganz einfach

{L_{{x_1}}} = 0,\quad {L_{{x_2}}} = 0

oder ausgeschrieben:

\sum\limits_{k = -\infty }^\infty {\left( {N{x_1}\left( {{f_k}} \right)-{\lambda _1}\left( f \right){g_1}\left( {{f_k}} \right)-{\lambda _2}\left( f \right){g_2}\left( {{f_k}} \right)} \right)} = 0

\sum\limits_{k = -\infty }^\infty {\left( {N{x_2}\left( {{f_k}} \right)+{\lambda _1}\left( f \right){g_2}\left( {{f_k}} \right)-{\lambda _2}\left( f \right){g_1}\left( {{f_k}} \right)} \right)} = 0

Das lässt sich einfacher schreiben, wenn wir auch \lambda \left( f \right) = \left( {{\lambda _1}\left( f \right),{\lambda _2}\left( f \right)} \right) als komplexe Zahl auffassen mit Realteil {\lambda _1}\left( f \right) und Imaginärteil {\lambda _2}\left( f \right). Dann bekommen wir nämlich

\sum\limits_{k = -\infty }^\infty {\left( {N\vec x\left( {{f_k}} \right)-\lambda \left( f \right){{\vec g}^*}\left( {{f_k}} \right)} \right)} = 0,

wobei wir mit {z^*} die zu z konjugiert komplexe Zahl bezeichnen. Dies lässt sich erfüllen durch die Wahl

\vec x\left( {{f_k}} \right) = \frac{1}{N}\lambda \left( f \right){\vec g^*}\left( {{f_k}} \right).

Setzen wir diese Gleichung in die Nebenbedingung G\left( {f,\vec x\left( f \right)} \right) = 0 ein, dann erhalten wir

\lambda \left( f \right) = \frac{{N \cdot T}}{{\sum\limits_{k = -\infty }^\infty {{{\left| {\vec g\left( {{f_k}} \right)} \right|}^2}} }}.

Daraus bekommen wir schließlich die gesuchte Lösung

\vec x\left( f \right) = T\frac{{{{\vec g}^*}\left( f \right)}}{{\sum\limits_{k = -\infty }^\infty {{{\left| {\vec g\left( {{f_k}} \right)} \right|}^2}} }}

oder ausgeschrieben

{H_E}\left( f \right) = T\frac{{H_S^*\left( f \right)H_K^*\left( f \right)}}{{\sum\limits_{k-\infty }^\infty {{{\left| {{H_S}\left( {{f_k}} \right){H_K}\left( {{f_k}} \right)} \right|}^2}} }}.

Im Sonderfall, dass “kein Kanal” vorhanden ist, also {H_K}\left( f \right) = 1, ergibt sich wegen des Nyquist-Kriteriums

\sum\limits_{k = -\infty }^\infty {{{\left| {{H_S}\left( {{f_k}} \right){H_K}\left( {{f_k}} \right)} \right|}^2}} = T

dass

{H_E}\left( f \right) = H_S^*\left( f \right).

Der optimale ist in diesem Sonderfall der matched filter.