“Das ist nicht nur mathematische Selbstbefriedigung!”
In diesem Abschnitt folgen wir den Ausführungen in [Ko], Abschnitt 5.3.
Wir betrachten ein System, dessen Zustand in der Zeit veränderlich ist. Die Änderung sei mathematisch beschreibbar durch ein System von Differentialgleichungen
stetig.
Das Besondere an (35) im Gegensatz zur üblichen Betrachtung von gewöhnlichen Differentialgleichungen ist das Auftreten einer Funktion als Argument der rechten Seite. Die Funktion
heißt Steuerung (control function) und es wird darauf ankommen, sie in einer zu spezifizierenden Weise “günstig” so zu wählen, dass das System einen bestimmten Zustand erreicht.
Steuerungen werden zumeist als stückweise stetige Funktionen angesetzt, können also Sprünge enthalten. Das ist sinnvoll: Zum Beispiel kann eine Steuerung modellieren, welche Kraft in einem System aufzuwenden ist – das plötzliche Einsetzen einer Kraft entspricht dann einem Sprung in . Gleichzeitig können Steuerungen beschränkt sein durch Forderungen der Form
.
Wir verlangen formal
wobei die stückweise stetigen Kurven
bezeichne, die rechtsseitig stetig sind. Das bedeutet, dass es eine sogenannte Zerlegung
so gibt, dass
stetig ist für
und außerdem auf
stetig fortsetzbar ist. Im Punkt
muss linksseitige Stetigkeit gegeben sein. Die folgende Skizze zeigt eine Funktion dieser Klasse:
Betreffend die Zustandsfunktion in (35) fordert man in der Regel
.
Das sind Kurven , die stetig und stückweise stetig differenzierbar sind. Es soll wieder eine Zerlegung der obigen Art geben, so dass die Ableitung auf jedem Intervall
stetig und auf
stetig fortsetzbar ist. Zustandsfunktionen können damit Knicke aufweisen – die DGL (35) ist dann in solchen Punkten im Sinn der rechtsseitigen (im Punkt
: linksseitigen) Ableitung zu verstehen. Weiter gehende Einschränkungen für
fassen wir zunächst ganz abstrakt in der Form
wobei zum Beispiel wie folgt aussehen könnte:
.
In diesem Beispiel wären alle Kurven von Interesse, die einen vorgegebenen Anfangs- und Endzustand haben.
Zuletzt geben wir uns noch eine stetige Funktion
vor und definieren das “Kosten-Funktional”
Definition: Optimalsteuerung
Das Problem der Optimalsteuerung lautet nun
Durch die Minimierung kommt zum Ausdruck, dass wir eine besonders günstige Steuerung und Zustandsfunktion suchen, die allen Nebenbedingungen der Form und
gerecht werden.
Beispiel 7.1: Eindimensionale Raketensteuerung
Ein Schienenfahrzeug bewegt sich im Zeitintervall gemäß dem zweiten Newtonschen Gesetz
.
Dabei ist die bis zum Zeitpunkt
zurückgelegte Strecke und
die zum Zeitpunkt
aufgewendete Kraft. Die obige Gleichung ist natürlich eine Vereinfachung: Weglassen von Konstanten und fehlende Berücksichtigung von Reibung, Widerstand und anderen Feinheiten.
Ziel ist es, das Schienenfahrzeug zur Zeit im Punkt
zum Stehen zu bringen und dabei so wenig Kraft wie möglich aufzuwenden. Im Endpunkt soll ebenso wie im Zeitpunkt
die Geschwindigkeit null sein:
Es ist zu berücksichtigen, dass keine beliebig großen Kräfte eingesetzt werden können, vielmehr haben wir eine Beschränkung der Form .
Jetzt bringen wir dieses Problem in die Form der Gleichungen (35)-(39). Zunächst wird die DGL 2. Ordnung in ein System 1. Ordnung verwandelt: Dazu setzen wir mit
.
Die Menge der zugelassenen Steuerungen ist
,
die Menge der erlaubten Zustände ist
und das zu minimierende Funktional lautet
.
Beispiel 7.2: Variationsaufgabe als Problem der Optimalsteuerung
Die Variationsaufgabe (A) etwas verallgemeinert bestand darin, das Funktional
auf
zu minimieren. Mit der Umbenennung
wird daraus das Problem der Optimalsteuerung,
zu minimieren unter den Nebenbedingungen
.
In obigem Beispiel 7.2 haben wir das “Standard-Variationsproblem” als Problem der Optimalsteuerung interpretiert. Umgekehrt lässt sich das in (35)-(39) formulierte Problem der Optimalsteuerung auch unter dem Blickwinkel der Variationsrechnung betrachten: Dazu fassen wir gedanklich und
zu einer gesuchten Kurve
zusammen, für die das Funktional (38) zu minimieren ist. Die Differentialgleichung (35) stellt eine Nebenbedingung für
im Sinn von Variationsaufgabe (D) aus Abschnitt 6 dar.
So wie wir es schon bei Variationsaufgabe (D) getan haben, können wir das allgemeine Lagrange-Lemma 6.4 heranziehen, um einen Ansatz für eine Lösung zu machen. Konkret tun wir dies durch einen Ansatz mit variablen Lagrange-Multiplikatoren wie in Beispiel 6.6:
Wir setzen eine Kurve , also
, als Multiplikatorfunktion an und definieren damit eine Ergänzungsfunktion
durch
Ersichtlich hat die Eigenschaft
für alle
, die das DGL-System (35) erfüllen. Gemäß Lemma 6.4 kommt es jetzt darauf an,
so zu wählen, dass ein globaler Minimierer
von
in liegt – dann ist er auch die gesuchte Lösung von (39), die alle Nebenbedingungen (35)-(37) erfüllt.
Wir stellen nun drei notwendige Bedingungen auf, die ein Minimierer erfüllen muss. Dazu ist es günstig, für den Integranden von (41) einen Bezeichner einzuführen. Wir definieren dazu die Funktion
durch
wobei wir das Argument von
,
,
und
weggelassen haben.
Angenommen nun, sei ein Minimierer von (41) in
. Die notwendige 1. Bedingung, die er erfüllen muss, ist (35), also
.
Die 2. Bedingung betrifft die Wahl von . Es gilt der folgende Satz.
Satz 7.3: Minimum der Lagrange-Funktion
Sei und
fest und
ein Minimierer von
.
Dann gilt in allen Punkten :
Der Satz besagt, dass die optimale Steuerung punktweise den Integranden (42) des Kostenfunktionals (41) minimieren muss. Diese Aussage beweisen wir hier nicht, können sie uns aber folgendermaßen plausibel machen: Gäbe es ein , wo (43) verletzt wäre, dann müsste es aufgrund der rechtsseitigen Stetigkeit ein
und ein
geben mit
.
(Ausnahme: . In diesem Fall wäre
zu betrachten und die linksseitige Stetigkeit auszunutzen). Es ließe sich dann eine neue, stückweise stetige Steuerung konstruieren:
Durch diese lokal geänderte Steuerung ließen sich die Gesamtkosten senken, was der Minimaliätsannahme von widerspräche.
Bemerkung: Eine ähnliche Aussage wie Satz 7.3 ist das Optimalitätsprinzip: Eine optimale Steuerung auf muss auch für jedes Teilintervall
optimal sein.
Die Lagrange-Funktion in (42) lässt sich auch in der Form
schreiben mit der sogenannten Hamiltonschen Funktion (manchmal auch Pontrjaginschen Funktion genannt)
Da die Minimierung in (43) bezüglich stattfindet und somit unabhängig ist vom Term
, kann man in Satz 7.3 (43) gleichwertig ersetzen durch
In dieser Form spricht man von der Bestimmung von nach dem Pontrjaginschen Maximumsprinzip.
Die 3. Bedingung betrifft . Der dabei einfachste Fall ist der, dass für
Anfangs- und Endzustände vorgeschrieben sind, also
Wir haben dann folgenden Satz.
Satz 7.4: Euler-Gleichung
Sei und
. Sei außerdem
stückweise stetig differenzierbar und
mit
aus (46) ein Minimierer von
. Dann gilt für alle
die Euler-Gleichung
die an den Stellen ohne Differenzierbarkeit im Sinn der rechtsseitigen Ableitung zu verstehen ist.
Die Aussage dieses Satzes sind gerade wieder die Euler-Gleichungen, die wir schon bei Variationsaufgabe (A) bekommen haben, dort allerdings unter stärkeren Glattheitsforderungen an und
. Der Satz ergibt sich daraus, dass in seinem Kontext
und
nur die Rolle von fest gewählten Parametern spielen. Damit haben wir bezüglich
gerade den Aufgabentyp (A) (bzw. (B)) vorliegen und wissen bereits, dass das Erfüllen der Euler-Gleichung notwendig ist. Für einen formalen Beweis siehe [Ko].
Bevor wir auf andere einschränkende Bedingungen für (d.h. andere Ausprägungen von
) zu sprechen kommen, illustrieren wir jetzt den praktischen Gebrauch, den man von obigen drei Bedingungen machen kann durch folgendes Beispiel.
Beispiel 7.5: Eindimensionale Raketensteuerung
Wir greifen das Beispiel 7.1 wieder auf. Zu minimieren war
unter den Nebenbedingungen
sowie
.
Wir versuchen, variable Lagrange-Multiplikatoren zu finden, so dass die Lagrange-Funktion
die Bedingungen (35), (43) und (47) erfüllt. Mit
und
bekommen wir aus (47)
und
.
Also ist mit zwei Konstanten
Als nächstes nützen wir (43) aus: Die optimale Steuerung soll
minimieren (wir haben alle Terme weggelassen, die nicht von abhängen und deswegen bei der Minimierung keine Rolle spielen). Die optimale Steuerung
hängt von
ab. Genauer erhalten wir
Da wir im Startpunkt erst einmal vorwärts kommen wollen, nehmen wir “vernünftigerweise” an, dass , was nach (50) nur möglich ist, wenn
ist. Da man nach einer positiven Beschleunigung irgendwann bremsen (negativ beschleunigen) muss, um wieder zum Stillstand zu kommen, sollte
sein, die Funktion
aus (49) ist deswegen eine affine, monoton fallende Funktion, die an der Stelle
einen Wert größer 1 und an der Stelle
einen Wert kleiner -1 haben sollte. Nach (50) sieht dann die optimale Steuerung
qualitativ so aus: Von
bis zu einem Zeitpunkt
wird die volle Anschubkraft eingesetzt. Dann wird bis zu einem Zeitpunkt
keine Kraft eingesetzt und ab
bis
mit voller Kraft gebremst.
Es bleiben wie Werte und
zu bestimmen – sofern sie überhaupt existieren (andernfalls würden unsere Restriktionen eine Lösung des Steuerungsproblems ausschließen, was prinzipiell durchaus möglich ist). Zur Bestimmung von
und
gehen wir mit (50) in die Differentialgleichung (35).
- Für
ist
, also
. Mit der Anfangsgeschwindigkeit
bekommt man
und wegen der geforderten Stetigkeit auch
. Aus
und
bekommt man
und
.
- Für
ist
, also
. Mit
und dem Anfangswert
erhält man
. Die Werte werden jeweils auch in
angenommen (Stetigkeit).
- Für
ist
mit Anfangswert
, also
. Mit
und dem Anfangswert
folgt
.
Diese Zustandsfunktion erfüllt die Forderung . Zusätzlich wird im Endpunkt gefordert
. Das führt uns einerseits auf die Gleichung
oder
und andererseits auf oder
.
Wenn wir hier (51) einsetzen, bekommen wir
(51) und (52) sind ein nichtlineares Gleichungssystem zur Bestimmung von und
. Dieses muss nicht unbedingt eine Lösung haben: Setzt man
in (52) ein, erhält man die quadratische Gleichung
. Eine (reelle) Lösung existiert also nur, wenn
. In diesem Fall bekommt man mit
:
.
Der Satz 7.4 war zugeschnitten auf die spezielle Form (46) von -entsprechend Variationsaufgabe (A). Nun haben wir in Abschnitt 4 andere Formen von Randbedingungen studiert, die auch im Rahmen der Steuerungstheorie bedeutsam sind. Zum Beispiel hatten wir die Situation angesehen, dass für
nur ein Wert am linken Rand vorgeschrieben ist:
. Am rechten Rand darf
einen beliebigen Wert annehmen. Dafür hatten wir in Abschnitt 4 neben der Euler-Gleichung die zusätzlich notwendige Bedingung (14) hergeleitet:
.
Mit der speziellen Struktur unserer Lagrange-Funktion (42) wird daraus
.
Ein anderes, oft auftretendes Problem der Steuerungstheorie ist es, dass ein bestimmter Zustand erreicht werden soll, wobei jedoch der Zeitpunkt, wann dieser Zustand erreicht wird, offen bleiben kann. Wir haben es demnach mit folgender Restriktionsmenge für die Zustandsfunktion zu tun:
.
Auch diese Aufgabe haben wir unter dem Stichwort Transversalitätsbedingung in Abschnitt 4 schon betrachtet: Es handelt sich um (16) mit einer Zielkurve (konstante Funktion). Eine Optimallösung
muss in diesem Fall neben der Euler-Gleichung noch die Transversalitätsbedingung (18) erfüllen – für unser vektorwertiges
statt des skalaren
aus Abschnitt 4 und unter Berücksichtigung dessen, dass die Funktion
jetzt konstant ist, lautet sie
.
Nun kommt noch die spezielle Bauart von mit der Hamiltonschen / Pontrjaginschen Funktion ins Spiel. So bekommen wir die spezielle Transversalitätsbedingung
mit der Funktion aus (44).
Beispiel 7.6: Re-Entry-Problem
Wir entnehmen dieses Beispiel, das aus der Raumfahrt stammt, dem Buch Numerische Mathematik II von J. Stoer und R. Bulirsch (Springer-Verlag).
Der Zustand eines Apollo-Raumschiffs beim Flug durch die Erdatmosphäre wird durch das folgende System von Differentialgleichungen beschrieben:
Die Bedeutung der einzelnen hier auftretenden Konstanten ergibt sich mit der folgenden Skizze:
: Tangentialgeschwindigkeit
: Bahnneigungswinkel
: Höhe über der Erdoberfläche
: Erdradius
: normalisierte Höhe
: Distanz auf der Erdoberfläche
: Luftdichte
: Steuerungsfunktion
: aerodynamischer Widerstandskoeffizient
: aerodynamischer Auftriebskoeffizient
: Erdbeschleunigung
: Quotient aus Frontfläche und Fahrzeugmasse
Die Zahlenwerte sind wie folgt:
,
,
und
.
Da die vierte DGL von den ersten drei entkoppelt und nicht durch beeinflussbar ist, lassen wir sie im Folgenden weg. In der Notation von (35) haben wir also
als 3-dimsionale Zustandskoordinaten,
als eindimensionale Steuergröße und
als rechte Seite der DGL. Die zu betrachtenden Zustände werden eingeschränkt durch Anfangsbedingungen
(ab einer Höhe von 400000 Fuß ist der Einfluss der Erdatmosphäre spürbar.)
und die Endbedingungen
wobei der Zeitpunkt noch offen ist: Es kommt also nur darauf an, einen bestimmten Zustand zu erreichen, aber nicht darauf, ihn zu einem bestimmten Zeitpunkt zu erreichen.
Problematisch ist die Erhitzung des Raumschiffs beim Eintritt in die Erdatmosphäre. Die gesamte Erwärmung lässt sich ausdrücken durch die Kostenfunktion
die nicht explizit von abhängt. Zur Lösung des Problems benutzen wir wieder die Methode der variablen Lagrange-Multiplikatoren und schreiben
in der Lagrange-Funktion
mit der Hamilton-Funktion
.
Eine Lösung unseres Problems muss nun wieder die drei Bedingungen (35), (43) und (47) erfüllen. Im Einzelnen ist (35) in der Form der ersten drei Gleichungen von (54) gegeben, dazu gibt es die Randbedingungen (55) und (56). Die Euler-Gleichung (47) nimmt wegen
und wegen
die Form des Systems
an. Es bleibt als letzte Bedingung (43) oder gleichwertig (45). “Innerhalb” von hängt nur der Teilausdruck
explizit von ab. Um diesen Ausdruck zu maximieren, dividieren wir zunächst durch
und leiten dann nach
ab:
.
Dividiert man diese Gleichung durch , so erhält man die beiden Lösungen
Der positive Zweig leistet hier die gewünschte Maximierung, wie man anhang der zweiten Ableitung leicht verifizieren kann.
Fazit: Unser Re-Entry-Steuerungsproblem läuft auf ein System von 6 Differentialgleichungen (54) und (58) mit 7 Randbedingungen (55), (56) und (53) hinaus. Dieses kann mit einem numerischen Verfahren gelöst werden – siehe das erwähnte Buch von Stoer und Bulirsch.