Es sei
mit der Diagonalmatrix
Ausgehend von einem beliebigen Startwert
wird ein Schritt des Gradientenverfahrens zur Minimierung von
ausgeführt:
-
Zeigen Sie: Mit der optimalen Schrittweitenwahl
aus der vorhergehenden Aufgabe gilt:
Hinweise: Definieren Sie die Funktion
.
Gemäß Definition ist dann
.
Zeigen Sie nun, dass
gilt.
Die Aussage folgt also, wenn man
hat.
Dies wiederum ergibt sich, wenn man Folgendes zeigen kann:
ist eine streng konvexe Funktion und
, wobei
die globale Minimalstelle von
ist. -
Interpretieren Sie dieses Ergebnis: Wie gut ist die Konvergenz des Gradientenverfahrens?
Lösung
Gradientenverfahren:
Hier ist die Matrix diagonal, also
. Als Beispiel betrachten wir die folgende Matrix:
Die Zielfunktion lautet damit:
Um Höhenlinien zu bestimmen, prüfen wir, wo diese Funktion konstant ist:
Dies ist eine Ellipsengleichung. Wir wählen einen Startpunkt
auf einer der Höhenlinien:
Als Suchrichtung für den nächsten Punkt benutzen wir nun den Gradienten. Zur Bestimmung der Schrittweite können unterschiedliche Algorithmen implementiert werden.
Zum einen könnte man solange dem Gradienten folgen, bis sich die Funktionswerte wieder vergrößern. Dies geschieht genau dann, wenn man eine andere Höhenlinie tangiert:
Es gilt:
Dabei wird
so gewählt, dass
minimal wird.
Dies ist aber nicht optimal, da z.B. der Punkt
besser wäre, weil er näher am Minimum liegt:
a)
Es ist
Hier gilt nun:
Die optimale Schrittweitenwahl aus der letzten Aufgabe lautete:
Im Folgenden schreiben wir
statt
. Wir erhalten
Als Ziel soll nun gezeigt werden:
Die Behauptung
gilt, weil
, da
Wir definieren nun wie im Hinweis vorgegeben
Von dieser quadratischen Funktion wollen wir nun das Minimum bestimmen:
Durch quadratisches Ergänzen und
erhalten wir:
Hier können wir nun wie bei Aufgabe 3 wieder ablesen, wo die von t abhängige Funktion minimal wird:
bei
Qualitativer Verlauf von
:
Zu zeigen ist nun noch
:

Dies können wir mit der Ungleichung von Cauchy-Schwarz zeigen:
Dazu wählen wir
und
. Es folgt direkt die geforderte Ungleichung:


Es folgt weiterhin:

Mit der bereits bewiesenen Behauptung
folgt:



b)
Wir haben hier eine lineare Konvergenzordnung. Die Konvergenz kann also auch langsam sein, falls
. Daher wird das Gradientenverfahren heute kaum noch verwendet.


