Reinforcement Learning: Neue Form des Maschinellen Lernens

25.01.2021 – Lesezeit: 3 Minuten

Marketing, Vertrieb und Service / Technologie

Reinforcement Learning: Neue Form des Maschinellen Lernens

Bei Machine Learning (ML) überwiegt noch der Ansatz des überwachten Lernens, das sogenannte Supervised Learning. Reinforcement Learning oder bestärkendes Lernen hingegen arbeitet nach dem Belohnungsprinzip und bringt neuronale Netze ein Stück näher zur Künstlichen Intelligenz (KI).

Reinforcement Learning, zu Deutsch bestärkendes oder verstärkendes Lernen, erinnert an Pawlow und ist tatsächlich der Verhaltensforschung mit Tieren entlehnt. Eine Maus lernt selbständig, dass sie an einem Faden ziehen muss, um eine Belohnung zu erhalten. Im nächsten Schritt lernt sie, dass die Maus nur belohnt wird, wenn ein Lämpchen leuchtet. Tut es das nicht, folgt eine Bestrafung in Form eines elektrischen Schlags.

Laut „The Morpheus Tutorials“ hat man sich damals wohl noch nicht so um den Tierschutz gesorgt. Der von dem Informatikdozenten Cedric Mössner moderierte deutschsprachige YouTube-Blog erklärt in mehreren, leicht verständlichen Videos, was Reinforcement Learning ist, wie es arbeitet und was es in dem Zusammenhang mit Deep Q-Learning auf sich hat.

Video-Mittelstand-Heute-Digitaler-Zwilling-Machine-Learning-Additive-Fertigung

Auch Zeit und Umgebung fließen ein

Dabei muss der Agent in einer gewissen Umgebung oder Environment E und Zeit aufgrund von selbst gewählten Aktionen und gewählten Strategien, mit π wie (Policies) abgekürzt, bestimmte Zustände, Situationen oder Status (S) durchlaufen, um zum Ziel zu gelangen und die erhoffte Belohnung r (Reward) zu erhalten. Die State-Value Function V π oder der Wert eines Zustands berechnet sich dabei nach speziellen Formeln.

Das Gamma γ ist der sogenannte Diskontierungsfaktor und gibt (von 0 bis exklusive 1) die Sicherheit des Gewinns an. Bei einem γ von 0 kann der Agent nur die Belohnung anhand des aktuellen Zustands in Betracht ziehen, je mehr sich der Wert gen 1 bewegt, desto höher die langfristig zu erwartende Belohnung, desto höher der Gewinn. Der Q-Wert nimmt noch die aktuelle Situation in die Entscheidungsfindung ein.

Gravierende Unterschiede zu Supervised Learning

Microsoft zufolge setzen viele Unternehmen sogenannte Empfehlungssysteme ein. Diese sind auch Teil des Maschinellen Lernens und empfehlen Onlinekunden auf Basis bisheriger Käufe weitere oder ähnliche Produkte. Für – sich sehr schnell drehende – Käuferpräferenzen sind diese Empfehlungssysteme aber denkbar ungeeignet. Stattdessen bietet sich hier Reinforcement Learning (RL) an.

Bisher hauptsächlich in Forschungslaboren genutzt, finde RL nun auch mehr und mehr den Weg in Produkte und Diensten wie Azure Cognitive Services. Datenwissenschaftlern und ML-Experten bietet die Gates Company über Azure Machine Learning bereits eine RL-Preview an.

Im Gegensatz zu dem im ML-Umfeld weit verbreiteten Supervised Learning (überwachten Lernen), bei dem Modelle darauf trainiert werden, anhand von vorgegebenen Trainingsbeispielen Vorhersagen zu treffen, eignet sich der RL-Agent oder betreffende KI-Bot in der Interaktion mit seinem Umfeld Wissen an. Microsoft veranschaulicht den Unterschied zwischen Supervised und Reinforcement Learning mit dem Sprachenlernen.

SL sei vergleichbar mit dem reinen Text-, Grammatik- und Vokabelstudium, RL hingegen mit dem Sprachstudium im jeweiligen Land. Will der Studierende zum Beispiel in Frankreich ein Croissant haben, wird er nur damit belohnt, wenn er das Wort halbwegs richtig aussprechen kann. Wer in Japan an der Theke nicht verdursten will, sollte sein Bier dort mit bīru und nicht mit chinesisch píjiǔ oder koreanisch maekju (wörtlich Getreide-, Gersten- oder Weizenwein) bestellen.

RL schlägt sie alle spielend

Reinforcement Learning ist gar nicht so neu. Neu ist jedoch der Ansatz, die dahinterstehenden Algorithmen wie bei Microsoft Azure oder bei Google mit DeepMind breitenmäßig einzusetzen. Die Technologie hat auch schon riesige Erfolge gefeiert. So konnte ein RL-Algorithmus erstmals einen menschlichen Spieler in Go schlagen. Vorher hatte man das laut datasolut wegen der Komplexität des auf Chinesisch Weiqi (Umkreisungsschach) genannten sino-japanischen Brettspiels nicht für möglich gehalten. Dabei hat sich AlphaGo Zero, eine Weiterentwicklung des DeepMind-Projekts AlphaGo, die Go-Spielregeln und die betreffenden Strategien ohne menschliches Zutun sogar selbst beigebracht.

AlphaStar als nächster Schritt des DeepMind-Systems hat Anfang 2019 die E-Sport-Cracks TLO und MaNa bei dem Starcraft-2-Turnier geschlagen, und das ganz selbsttätig ohne Vorbereitung oder Programmierung auf den Sieg hin. Die KI hat die Gegner und ihre Spielweise intuitiv richtig analysiert und eingeschätzt, um daraus eigene Konterstrategien zu einwickeln.

Auch Microsoft Teams profitiert davon

Weg von Gaming setzt die Kommunikations- und Kollaborationslösung Microsoft Teams schon auf Reinforcement Learning, um in Echtzeit den Datenfluss von Videokonferenzen zu ermitteln. Microsoft zufolge gleicht Teams damit Verzögerungszeiten bei der Videoübertragung aus, um diese zu verbessern. Microsoft Azure analysiert dabei im Hintergrund den betrieb er erkennt RL-basiert, wann es Zeit ist, virtuelle Maschinen neu zu starten oder anzupassen, um die Übertragungsqualität zu optimieren.

Solche RL- und ML-Lösungen kommen natürlich auch den B2B-Kunden von der All for One Group entgegen, die mit Office 365 und dem darin enthaltenen Teams ihren Mitarbeitern in der Coronakrise und darüber hinaus Homeoffice beziehungsweise Remote Work erlauben wollen. Office beziehungsweise Microsoft 365, wie es jetzt heißt, ist bei All for One eingebettet in ein ganzes Lösungsportfolio unter dem Begriff „New Work“.

Die führende IT- und Consulting-Gruppe mit Sitz bei Stuttgart zeigt mittelständischen Unternehmenskunden, wie sie Teamlösungen wie Microsoft 365 optimal nutzen können – um über alle zeitlichen und örtlichen Grenzen hinweg die Zusammenarbeit zwischen Mitarbeitern, Partnern und Lieferanten auf eine effizientere, produktivere Basis zu stellen. Und so sicher sind Videokonferenzen via Teams, Zoom und Co.!

Quelle: Titelbild pixabay, jplenio