Stochastic Gradient Descent

minimiert wird, wobei λ ein Parameter ist. Um die Notation einfach zu halten, fordern wir im Folgenden u = 0. Dies ist mehr oder weniger ohne Beschränkung der Allgemeinheit, wenn wir u als die d + 1-te Komponente von w interpretieren und an alle xi als letzte Komponente 1 anfügen. Zu einem anderen Zeitpunkt werden wir diese Anspekte noch genauer diskutieren. Führen wir an dieser Stelle etwas Notation ein. Definiere nun `(hw, zi) = max{0, 1− yi〈w,xi〉} ,